当前位置: 首页 > 新闻中心 > 要闻速递 > 正文

新闻中心

要闻速递

NEWS

学者对话丨实验室机器学习中心成员张文涛访谈

时间:2024-03-14    来源:

  • 分享


559A

张文涛,北京大学国际机器学习研究中心助理教授、研究员、博士生导师,大数据分析与应用技术国家工程实验室机器学习中心成员。曾任职于腾讯机器学习平台部、Apple AIML以及Mila人工智能实验室。研究兴趣为以数据为中心的机器学习、图机器学习、机器学习系统和交叉学科应用(如Diffusion、多模态和AI4Science)。他近5年在机器学习(ICML/NeurIPS/ICLR)、数据挖掘(KDD/WWW)和数据管理(SIGMOD/VLDB/ICDE)等领域发表CCF-A类论文40余篇,并获得多个最佳论文奖(如第一作者获WWW’22 Best Student Paper Award 和 通讯作者获APWeb-WAIM’23 Best Paper Runner Up Award),其论文“大规模图神经网络关键技术研究”荣获2023年中国人工智能学会优秀博士学位论文奖(指导教师:崔斌教授)。他领导或参与开源了多个机器学习系统,如大规模图学习系统SGL、分布式机器学习系统Angel、和黑盒优化系统OpenBox。他曾获Apple Scholar (2021年度亚太地区唯一)、世界人工智能大会云帆奖、北京大学/北京市/中国人工智能学会优秀博士学位论文奖、中国电子学会科技进步一等奖等多项荣誉。

Q:请简要介绍一下您当前的研究方向和研究工作。

A:我的研究方向主要是Data-centric ML(DCML, 以数据为中心的机器学习), 具体来说分成以下几个方面:

  • General DCML: 近些年来AI模型发展遇到了瓶颈,大部分SOTA模型都是沿用2017年提出的Transformer结构,性能收益来源由模型转变为数据。我主要考虑优化Data quality, quantity, efficiency和privacy,以较低成本和较短时间来获得大量高质量数据。以大语言模型为例,在考虑数据获取成本和效率的前提下,研究科学和系统的数据质量评估策略,设计高效的数据选择(如过滤、去重和降噪)方法,构建有效的数据配比方式,并探索使用大模型来辅助数据优化(如自动数据标注和数据生成)。

  • DCML on Graph: 图数据广泛存在于现实生活中,如微信里的社交网络,知识图谱以及淘宝推荐场景里的用户商品二部图。图机器学习也即“将机器学习应用于图数据”,有望解决传统深度学习无法处理的关系推理、可解释性等一系列问题。我主要考虑 1) 以图神经网络(GNN)为切入点,用DCML的思想来优化图数据(如图特征工程、图结构优化、图数据增强和图异常处理等);2) LLM+GNN,探索更好的图数据表达形式,用于支持通用图大模型。

  • DCML Applications:

  • For Science: AI4Science是人工智能和Science交叉领域,也是目前学术界和工业界前沿的热点方向。我主要以数据为中心,研究和设计高效的Science数据(如蛋白质和分子)构建和预处理方式,以及分子建模与生物制药等交叉应用。

  • For AIGC&Diffusion Model: 扩散模型是当前最热门的生成模型,其应用领域包含了CV、NLP以及交叉学科等,我主要探究以数据为中心,将扩散模型如何更好地应用于各种复杂数据生成场景,如文生图、文生视频、可控3D生成、多模态学习等。

  • DCML Systems: ML System是人工智能和计算机系统的交叉领域,也是目前计算机系统研究前沿的热点方向。我主要考虑从系统层面来支持DCML任务,如支持多种类型(如Graph和Text)的数据格式,支持大规模数据的处理(如Distributed ML),以及降低系统的使用门槛(如AutoML)等。

A558C

Q:您在求学工作期间有什么或印象深刻或有趣的经历吗?这些经历对您从事机器学习研究及后期的选择产生了哪些影响?

A:读博期间,我先后在腾讯机器学习平台部以及Apple AIML实习了4年。通过与工业界合作,我们可以借助他们的数据和计算资源。更重要的是,我们可以发现很多有影响力和现实意义但未被探索的新问题。这些问题很有可能是实际的业务问题,但稍微提炼和抽象出来就是一个新的Research问题。与其在一个老问题和方向上去卷方法,我更喜欢深入研究发现问题本质,探索完全不同的解题思路。另外,挖坑发现好的研究问题也是一个避免内卷的好方法,而且这类工作往往更有延续性和成体系。最后,研究工作如果能实际部署到工业界环境并产生显著经济效益,也能进一步提升工作影响力。

Q:对您而言,机器学习最独特的魅力是什么?

A:机器学习能够极大地解放生产力,赋能千行百业。自动驾驶、语音识别、智能家居等常见的应用场景都有机器学习模型在背后支持。特别的,以ChatGPT为首的大模型涌现出的令人惊讶的智能,能够帮助甚至取代很多脑力型劳动(如法律、金融和医疗等),给大家带来了一个充满着无限可能和未来的世界。我个人是非常喜欢尝试各类科技产品,目前最能给我科技感的两项技术就是VR(虚拟现实)和LLM(大语言模型),它们背后都有很多机器学习技术在支撑。未来,VR和LLM的结合也是一个很有意思的研究方向,或许能够对未来很多领域(比如教育)带来一些颠覆性的变革。

52D5B


Q:您对未来在中心的研究和教学工作有哪些规划或期待?

A:入职北大后,我们课题组的大部分科研都是和大语言模型相关(如图大模型和LLM数据侧),这对算力和数据提出了更大的挑战。因此,我也很倾向让学生去一些之前有过合作的并且有充足资源的大公司和Lab(如Apple、腾讯、华为、百川智能和上海AI Lab等)进行Research实习,借助他们的资源来做一些更Practical和有Impact的工作。另外,我也一直和组里同学强调工作的Impact。不管之后是找教职还是去工业界,大家也越来越看重工作本身的价值,而不是单纯数CCF A类论文的数量。在北大国际机器学习研究中心,我们有着全国最优秀的一批生源,以及最好的平台,我们有使命也有责任去做一些真正能够去引领和改变某个研究领域的工作,也希望每个同学介绍自己的工作时,能够眼里有光,有充分的自信和激情。教学上,我会在叉院开设本研合上课程:《Introduction to Data-centric Machine Learning》,带领研究生同学以及感兴趣的本科生同学深入学习DCML的各个方向,特别是LLM数据侧。另外,我也拟在数院和元培学院开设本科生课程《数据科学导引B》,培养他们对数据科学的兴趣,以及通过作业和比赛的形式锻炼他们的动手实践和代码能力。

4BCAF

Q:对青年学生做好机器学习科研您有哪些建议?

A:做科研经常会遇到很多挫折,以我自己为例,前两年没有任何论文产出,也经常会陷入焦虑。我个人的经验是:1)每个人因为自身背景的不同,以及研究兴趣不一样,都有最适合自己的研究方向。选择一个适合自己并且感兴趣的方向,比盲目努力重要得多;2)很多时候你的努力都用在了错误的地方,需要经常总结和反思,经常备份和复盘自己的Idea (我的个人习惯是用OneNote随时备份自己的想法); 3)当你焦虑和想不到方案的时候,不妨找个同学或者朋友倾诉一下,由于你需要总结和提炼自己的想法,往往在这个过程中就有很多灵光一闪的新思路。

具体科研经验可参考我的《科研分享》PPT (https://disk.pku.edu.cn/link/AA71B988EE9399495782A63E1A774CF800, 提取码:1994)。

Q:生活中的你有什么兴趣爱好吗?通常通过什么方式来为自己减压?

A:我平常比较喜欢慢跑,特别是在晚上,戴上耳机抛下所有的问题与烦恼沉浸在自己的世界里。另外一个比较解压的爱好是做菜,在国外有段时间很emo,就经常去华人超市买菜回来,对着菜谱去尝试各种不同的新菜。

文章来源:北京大学国际机器学习研究中心

转载本网文章请注明出处

版权所有©北京大学大数据分析与应用技术国家工程实验室 京ICP备05065075号-1 京公网安备 110402430047 号