优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。

“CCF博士学位论文激励计划”(原中国计算机学会优秀博士学位论文奖)是一项旨在表彰中国计算机科学领域博士研究生的杰出贡献的激励计划。该奖项的目的是促进学术研究的卓越性,并鼓励在计算机科学及其技术各子学科中产出高质量的博士论文。

本文主要介绍清华大学骆昱宇的博士论文《结构化数据自动可视化关键技术研究》,该论文针对现有的结构化数据的可视化系统存在的问题,文章提出了三个不同的框架:1)领域知识指导的全自动可视化,2)自然语言驱动的问答式可视化,3)数据质量感知的渐进式可视化。论文最后总结了上面提出的三个框架,研制了智能数据可视化系统DeepEye,提供了全自动可视化、问答式可视化、渐进式可视化、可视化检索等功能。目前该论文已获得2023年CCF优秀博士论文奖。此外,本文还对其指导老师李国良教授及其实验室进行了介绍,以便于读者了解更多相关信息。本文的作者为邱雪,审校为李杨和黄星宇。

一、论文介绍

1.1 背景与挑战

可视化将复杂数据映射为直观的图表形式,借助人类的视觉感知能力高效地捕捉其中的规律,已成为大数据分析的重要方法。然而,现有结构化数据的可视化系统仍有以下三个问题:(1)可视分析高门槛:现有系统高度依赖用户主动理解数据集和可视化,对用户要求高;(2)用户意图难表达:现有系统难以支持普通用户准确表达可视化意图,易答非所问;(3)分析结果不精准:现有系统容易忽视数据错误对可视化结果的影响,易误导用户。针对上述问题,本文主要的成果如下:

1) 领域知识指导的全自动可视化:针对现有交互式可视化系统高度依赖用户专业技能的问题,本文提出了领域知识指导的全自动可视化框架AutoVis。该框架结合领域知识,自动地为用户生成并选择一组能有效传达数据规律的高质量可视化。本文提出使用偏序关系来建模和组织可视化领域知识,并基于偏序图有效地选择 top-𝑘可视化。本文证明了考虑多样性的top-𝑘可视化选择是一个NP难问题,并提出了高效的启发式算法。实验表明,AutoVis在真实数据集的可视化任务的有效性和高效性均优于现有方法,且无需用户干预可视化过程,达到“以简驭繁”的效果。

2) 自然语言驱动的问答式可视化:针对现有可视化系统难以有效支持普通用户准确地表达可视化意图的不足,本文提出了自然语言驱动的问答式可视化模型ncNet,可以基于用户的自然语言查询自动且准确地生成满足其意图的可视化结果。为了促进该领域的发展,本文提出了一个面向问答式可视化的基准数据集构建框架,可以通过人机协作的方式实现低代价构建大规模高质量的基准数据集。基于此,本文构建了首个面向问答式可视化领域的公开的大规模基准数据集nvBench。

3) 数据质量感知的渐进式可视化为缓解数据错误对可视化结果准确性的负面影响,本文提出了数据质量感知的渐进式可视化框架VisClean,通过交互式数据清洗,优先清洗严重影响可视化质量的数据子集,逐步提升可视化质量,从而达到“洞见症结”的效果。其优势是能在可视分析周期中动态提升可视化质量,而无需预先清洗整个数据集。此外,本文提出复合问题以提供更丰富的信息与用户交互,证明选择最优复合问题是NP难的,并提出启发式算法以高效地选择复合问题。实验表明,VisClean通过较少的用户交互能显著提高可视化质量,优于现有方法。

1.2 方法

1) 如图1所示,提出领域知识指导的全自动可视化框架AutoVis。通过偏序关系建模和组织可视化的领域知识并选择top-𝑘可视化结果;随后基于决策规则进一步提高可视化生成和选择的效率;再选择一组多样化且最有价值的可视化结果;最后使用真实数据集验证AutoVis框架的有效性和高效性。

优秀博士学位论文分享:结构化数据自动可视化关键技术研究-LMLPHP

图1 领域知识指导的全自动可视化框架AutoVis

2)如图2所示,提出自然语言驱动的问答式可视化框架和算法模型ncNet。基于人机协作的半自动问答式可视化基准数据集构建框架。然后对提出的框架进行实验分析。

优秀博士学位论文分享:结构化数据自动可视化关键技术研究-LMLPHP

图2 ncNet网络结构示意图

3) 如图3所示,提出数据质量感知的渐进式可视化框架VisClean。通过错误-修复图来统一组织不同的数据错误及其候选修复;随后利用复合问题作为一组数据清洗问题与用户交互,并阐述如何选择潜在收益最大的复合问题;再基于复合问题进行交互式清洗;最后使用真实数据集验证了VisClean能在较小的数据清洗代价下显著地提升可视化质量。

优秀博士学位论文分享:结构化数据自动可视化关键技术研究-LMLPHP

图3 VisClean框架示意图

4) 基于上述的三个核心框架的基础上,研制了智能数据可视化系统DeepEye,如图4所示;该系统有机地融合上述三个框架,为用户提供端到端的智能数据可视化服务,具体包括可视化自动生成、智能推荐、高效检索和数据清洗。

优秀博士学位论文分享:结构化数据自动可视化关键技术研究-LMLPHP

图4 DeepEye系统架构设计

1.3 实验结果

最终通过系统演示,展示了用户如何利用DeepEye完成自动可视化、自然语言驱动的问答式可视化以及基于交互式清洗的渐进式可视化的关键流程。此外,用户还可以通过DeepEye 的关键词搜索和分面搜索功能从多个维度高效地浏览DeepEye智能推荐的大量可视化结果。通过研制DeepEye系统,体现了本文三个研究内容之间的关联性和系统性,三者之间相辅相成,共同为用户提供智能数据可视化服务。

1.4 总结

本文基于三个技术框架,研制了智能数据可视化系统DeepEye,为用户提供端到端的全自动可视化、基于自然语言查询的问答式可视化、基于交互式清洗的渐进式可视化等智能可视化服务。DeepEye还设计了基于关键词的可视化搜索和基于分面搜索的可视化导航功能,可以辅助用户从不同维度高效地浏览系统智能推荐的海量可视化集合。通过研制DeepEye系统,体现了本文三个研究内容之间的关联性和系统性,三者之间相辅相成,共同为用户提供智能数据可视化服务。

二、作者介绍

骆昱宇,清华大学计算机科学与技术的工学博士毕业生,在他的博士学业生涯中,不仅发表了多篇学术论文,获得了若干专利,还获得多项奖励与荣誉。他的研究成果展现了出色的学术深度和应用广度,为他获得CCF优秀博士学位论文奖项打下了坚实的基础。具体成果如表1所示。

表 1博士生涯成果

三、导师介绍

李国良,男,汉族,博士,河北唐山遵化人,清华大学计算机科学与技术系教授。2004 年于哈尔滨工业大学计算机系获得学士学位,2009年于清华大学计算机系获得博士学位。主要研究方向为数据库,群体计算,数据挖掘、分析与检索。在数据库、数据挖掘、信息检索领域顶级会议和期刊上发表论文50余篇,他引1800余次。主持国家优秀青年基金项目、青年973项目、国家自然科学基金面上项目。获得了IEEE TCDE Early Career Award(IEEE 数据工程领域杰出新人奖)。2020年10月15日,荣获第十六届中国青年科技奖。若想了解更多关于李国良教授的信息,可以访问他的个人主页:https://dbgroup.cs.tsinghua.edu.cn/ligl/index_cn.html

四、实验室介绍——清华大学计算机科学与技术系软件研究所

计算机软件研究所成立于1999年,主要开展数据工程、知识工程、软件工程与系统软件、电子设计自动化、可视化技术等方向研究。近年来,获得多项科技奖励,包括国家科学技术进步二等奖、人工智能学会科技进步一等奖、计算机学会科技进步特等奖各1项、教育部自然科学二等奖1项、电子学会自然科学二等奖1项、计算机学会自然科学二等奖1项、北京市自然科学二等奖和三等奖各1项、国防科技二等奖1项、第45届日内瓦国际发明展银奖等。在计算机领域最高水平学术会议SIGMOD、SIGKDD、VLDB、ICDE、WWW、AAAI、IJCAI、DAC、ICCAD、DATE、及相关领域顶级期刊ACM TOIS、VLDB Journal、TKDE、TCAD、SIMAX上发表百余篇论文;获得 ICCD、ICDM、DATE、DSASFAA等国际会议的最佳论文奖。研究所的主要研究方向有:数据工程、知识工程、电子设计自动化(EDA)、可视化技术、软件工程与系统软件。软件所详细介绍见网址:software.cs.tsinghua.edu.cn

04-29 05:16