WARNING: 本文是一篇包含大量无意义内容的流水账。

上个礼拜三,也就是在7月25日,我到上海参加了ChinaVis 2018,这是我第一次参加学术会议,也算是十分宝贵的经历。

ChinaVis是中国可视化与可视分析大会,主要涉及信息可视化、科学可视化、可视分析等等方向的内容,今年是办会以来的第五届。

这回的会议在上海举行,从7月25号下午开始到28号上午结束,内容上是比较丰富的,另外我这次出行,住宿、交通和参会费用实际上都是由学校出资,一趟下来收获很多,感觉当然是非常好的啦。

会议第一天

会议在25号下午安排了两个并行的课程,主题分别是“可解释机器学习”和“数据分析与可视化信息理论”。

“可解释机器学习”的讲师是来自清华大学的刘世霞教授,我对这个领域了解不多,因此选择了另一门课。

“数据分析与可视化信息理论”则是由俄亥俄州立大学的沈汉威教授来讲授,虽然从来没见过沈汉威教授,但他的名字我已经比较熟悉了, 前几个月看过的科学可视化论文,包括实验室组会报告的很多论文上都能看到他的名字,非常厉害。

课程开始沈教授和我们讲了很多关于他自己的事,当然一个目的是招生,整个课程中教授也很多次提到自己缺博士生, 但有趣的是除了在可视化方面的科研工作,沈教授还介绍了他平时的兴趣爱好,除了科研外,他对民乐也有很高的热情,甚至在美国有一个民乐团,可以说十分硬核了,如果有学生同样爱好民乐,申请他的博士是有很大加分项的。

课程内容是沈教授在俄亥俄州立大学过去十年来研究成果的一个提炼。 在一开始,教授先针对大规模数据的可视化提到了很多问题: 在做可视化的时候,数据的压缩程度、可视化图像的分辨率、算法的参数、渲染时的视角以及传输函数如何选择, 怎样判断可视化结果和原始数据的相关程度,数据特征的呈现是否合理, 这些问题让人通过观察可视化结果再进行回答实际上是有些模棱两可的,也很难在程序上做出优化。

沈教授由此引出了量化方法的重要性,我们需要一个量化模型,能measure整个可视化流水线不同阶段的数据。 首先measure每个阶段数据的信息量,再对阶段之间信息量的损失进行measure,这样程序就可以依据量化结果进行参数的调整。

具体方法是把数据转化为概率分布,标量场可以直接是标量值的分布,向量场可以统计向量角度的分布,对于特征则可以统计相应值比如曲率的分布。 得到概率分布后就可以用信息熵(Entropy)来描述数据的信息量了,不同阶段的数据则可以通过计算relative entropy等方法量化其相关性。 同时在有了量化方法之后也可以比较方便的在速度和质量之间寻找平衡, 在不断的迭代更改参数时,如果可视化结果与原始数据的相关性逐渐稳定下来,就可以停止迭代了。

这套方法同样也适用于多变量数据的可视化研究,比如量化不同变量之间的相关性,计算每个变量对结果和原始数据相关性的影响来找出关键变量。

在讲完基础理论后,沈教授介绍了他研究中的很多应用实例,非常有体系的一系列研究。

在课上沈教授推荐了他的一本书,Information Theory in Visualization,同时友好的告诉我们书的销量和作者收入并没有关系, 偷偷下载了盗版后,能看到第一章就包含有这次课程的理论内容, 除去沈汉威教授外,会议的另一位嘉宾陈敏教授也参与这本书的编写, 后面陈敏教授做的会议报告实际上在这本书的第二章中就有所体现。

听他上课的时候不知道为什么想起了我们学校的周昆老师,也许是因为他们讲课都很有热情吧。

这天晚上的安排是博士生论坛,由一些博士生来报告他们的研究内容,不过我这一天下来感觉有些累,就先回酒店休息了。

会议第二天

大概是第一天晒了太久太阳,又吹了很久空调,早上起来有点头痛,不过还是决定前往会场。

实际上在这一天上午,会议才算是正式开始了,开幕式过程中主要在分析一些参会数据,从数据上看今年参会情况比去年好很多。 嗯,也确实感觉到了会议经费的充足。

开幕式之后由来自牛津大学的陈敏教授进行报告,题目为Four Levels of Visualization, 是相当有逻辑的一篇报告,对可视化工作进行了一番总结,题中的4个Level分别是

  1. Disseminative Level
  2. Observational Level
  3. Analytical Level
  4. Model-developmental Level

几个Level越往后复杂度越高, 在Information Theory in Visualization一书的第二章中都有进行介绍,乍一看这样划分好像没什么用处, 但我想在面对实际问题的时候有体系的进行思考能帮助对问题进行划分,从而更高效的找到方案。

陈敏教授的报告结束后是嘉宾们的座谈会,谈论新时代国际可视化的机遇与挑战,这回见到了马匡六教授真人, 来会议的前几天刚看过他在山东大学的直播,真人也很有艺术家的气息。 Leila De Floriani教授作为TVCG编辑分享了她对投稿者的建议,可惜当时没做笔记,实际上也没怎么听清楚教授有些口音的英语, 现在回忆发现已经什么都想不起来了。 不知道怎么回事,看几位大牛在台上谈笑风生,我满怀崇拜之情,在台下玩起了手机。

中午会议安排在酒店餐厅就餐,能免费在五星级酒店用餐真是相当划算了。

会议在这天的下午安排了几个并行的session,Paper session这边没什么科学可视化相关的内容,于是去听了隔壁的艺术专题报告,画风变化很大, 和学术报告不同, 这边的艺术专题报告主要是一些设计师、艺术家之类对自己的设计理念、作品之类进行介绍,还会涉及一些比较人文的东西,都是很有个性的展示。 感觉自己的审美水平又提高了一个层次

晚上是在华东师大进行的VIS分享之夜,看了下议程似乎也都和科学可视化没什么关系,就回酒店玩游戏了,现在回想起来还是有点后悔, 毕竟我随身带着Nintendo Switch,到哪都可以玩游戏,还是应该先去现场看看以免错过什么。

会议第三天

今天上午终于有了科学可视化的专题,最先出场的是沈汉威教授,报告题目为“In situ data modeling, analysis, and visualization”, “In situ”对我来说是一个新名词,中文译做“原位”, 原位可视化指计算过程中产生的数据不经过存储而直接在计算模拟的同一节点上进行实时可视化分析的过程,计算出来的数据在原位被缩减和处理。

沈教授先提到了为什么要做原位,如今I/O的发展跟不上计算力的发展,因此大规模数据的实时可视化会受限于I/O,即便是天河二号、太湖之光这样的超级计算机,其I/O速度也难以达到实时要求, 因此通过原位可视化来避免I/O瓶颈。报告中提到的方法也和第一天的课程相呼应, 使用数据的概率分布来进行可视化,使得数据压缩、划分操作的影响变得可以量化, 在有了量化标准后我们可以更好的优化算法,包括Level of detail的调整,寻找实时性和信息量之间的平衡。

接下来的报告来自北京应用物理与计算数学研究所的一位研究者,肖丽老师对研究所的工作进行了一个较为全面的介绍, 包括科学可视化在其中的应用,她的研究涉及的领域相当广泛,能感觉到这个研究所一定是相当厉害的。

随后两个报告分别涉及流线以及宇宙中的粒子模拟,但是说实话我没怎么听明白,深深感受到了自己有多菜,平时还是应该多花时间学习。

一个小插曲,在现场听说天河三号要发布了,科学可视化领域的研究者们对超算还是比较关心的,这个领域和高性能计算也有着十分密切的关系。

上午的前半场结束后,我转移到了地理信息可视化专题的报告厅,可惜没太大收获,不过听张锦明老师报告的时候了解到一个有意思的事情, 做地理信息可视化的时候通常都会在三维场景中进行,但老师本人觉得很多时候这种做法徒增了无用信息, 真实情况是在进行项目的时候,上面的大人物都会比较喜欢3D效果,看来研究者们也是有着各种各样的考虑的呀。

后半个下午,也和昨天一样,我本着陶冶情操的心态,溜到隔壁的艺术作品演讲厅去了。

今天晚上并没有什么学术内容,议程安排是到黄浦江上参加游船晚宴,尽管和我脑海里泰坦尼克号的场景不太相符, 但随着上海的夜晚逐渐降临,在船上吹着风看着两岸的风景也是十分惬意的, 夜空没有星星可看,附近各色的霓虹灯和高楼表面的动态广告营造的氛围甚至有些赛博朋克的味道,感觉真是非常好的了。

会议第四天

会议的最后一天,来自中科院的廖方宇教授先做了报告,对大科学时代的可视化机遇与挑战进行了介绍,感觉这类报告我都没什么收获。 场下的研究者们似乎对和中科院合作比较感兴趣,但廖教授只是给了些比较官方的建议。

或许是因为到了最后一天,整个人都松懈了下来,后面的Panel和报告都在我放飞自我的时候不知不觉结束了。 在最后,随着会议闭幕,此次ChinaVis 2018之行也算正式结束了。可喜可贺,可喜可贺

这几天下来很多业界大牛都提到科学可视化的重要性,其对整个国家的发展是十分重要的,但几天下来这个方向的内容其实不多, 科学可视化领域的Paper相对较难发表,但我觉得没什么关系,反而因为难,才有挑战的价值,希望自己能够在这条路上一直走下去。