近日,北京大学智能学院研究员、大数据分析与应用技术国家工程实验室常务副主任袁晓如课题组在中国古籍内容的智能探索方面开展跨学科合作探索取得重要进展。研究通过智能自动分类机制,从大量中国古籍中提取可视化图像,建立大规模中国古代可视化集合,系统揭示中国古代通过图形进行知识表示的发展历程,补充完善了可视化学术发展史中的中国部分的空缺。该研究工作近日被领域国际旗舰会议ACM CHI 2025 接受。可视化通过把各种数据转化为可交互的图形图像,帮助人理解认识数据内涵,洞察规律,做出决策。人类通过图像的方式记录描绘事物由来已久,在计算机发明前,可视化的图表也屡见于各种书籍中。人们就会很自然地提问,当前大家熟悉的各种可视化,是在什么时候出现的?在中华文明发展的历史上,是否还有一些不为今人所知的可视化样式?抱着这种好奇心,北京大学袁晓如课题组联合校内智能学院、中国古代史研究中心和牛津大学等机构,系统开展了中国古代可视化发展历史的研究工作。目前已经完成一个包含71,294幅中国古代早期可视化作品的大规模图像数据集《纂图集》(如图1所示)。

图1 中国古代早期可视化的大规模图像数据集
课题组首先通过人工收集了来自古籍器物的441项可视化案例,于2023年构建了首个小型中国古代可视化数据集(图2)。在初步收集后,课题组选定中国古籍作为主要收集方向,通过建立半自动化的收集流程从提供在线接口的各国图书馆所藏中国珍稀古籍收藏电子文档中提取相关古代可视化图像(图3)。目前已经从12,800多种中文古籍中标注提取了近71,300份可视化图像,以及近108,400份示意插图。包括此前手动收集案例,全部可视化样例时间跨度接近2500年。课题组还开发了交互式浏览系统(图1),支持用户按可视化形式,内容主题,出现时间等多维度过滤检索相关图像。

图2:小型中国古代可视化数据集(441项)
下图所示是敦煌文献中的《三乘入道五位》手书,是唐代人学习佛教经文时绘制的辅助图表,和今天所用的思维导图如出一辙。该工作从事实上纠正了目前大部分教材在提到早期可视化时只有英国、法国等欧洲案例的偏差,弥补了研究空白。

图3: 敦煌文献中的《三乘入道五位》手书
通过对纂图集数据的深入分析,可以看到中国历史早期可视化有不同于现代可视化的特点。例如古代可视化中往往依赖文字用于补充可视化信息,文字直接参与数据编码(如地图中文字编码方位、文字作为图元、树状图中的节点)。

图4: 东西分陕图,《天下山河两戒考》,當塗徐氏, 清雍正元年
我们的工作有助于学术界了解中国古代可视化的多样性,为进一步理解分析中国古代可视化的设计空间提供了基础。研究工作为早期可视化图像研究提供了重要资源,更通过对数据集内容的系统性分析揭示了中国传统视觉表达的独特逻辑与文化内涵,为科技史、艺术史、文献学等多学科交叉研究提供了平台。北京大学可视化与可视分析实验室近年来开展了一系列和古籍相关的工作。2023年与中文系杨海峥教授合作完成了汉籍流传日本时空可视分析工作(IEEE TVCG/VIS 2023);2024年结合对比学习方法和可视分析方法的智能古籍目录标注工作获IEEE VIS 2024最佳论文提名奖;在对古代可视化案例研究方面,和牛津大学研究者张宇合作了对欧美早期可视化的收集(IEEE TVCG/VIS 2023)和分类(IEEE TVCG/PacifcVis 2025)。近年来计算技术与传统人文学科研究的融合引发了这一领域的研究范式转变,为学者们提供了强大的分析工具和方法框架。本次工作也展示了人工智能对于处理大规模图像这类非结构化数据的潜力。
此次工作学生作者包括北京大学智能学院梅翕尧、杨超凡,研究人员为牛津大学张宇、北京大学中国古代史研究中心史睿、智能学院袁晓如。研究过程中得到了北京大学历史学系郭津嵩和牛津大学陈敏教授的有益意见。该工作受到国家自然科学基金项目 NSFC 62272012 《样本驱动的可视化设计空间探索研究》支持。
转载本网文章请注明出处