11月18日上午,中国科学院公布2021年新当选院士名单。大数据分析与应用技术国家工程实验室核心成员、北京大学数学科学学院、光华管理学院陈松蹊教授当选为中国科学院数学物理学部院士。同日下午,大数据国家工程实验室对陈松蹊院士进行了独家专访。
人物简介
陈松蹊,1961年11月生。1993年获澳大利亚国立大学统计学博士学位。曾先后在澳大利亚、新加坡、美国等国高校任职。2008年起任北京大学教授。曾任北京大学光华管理学院商务统计与经济计量系主任、北京大学统计科学中心联席创始主任。现任数学科学学院、光华管理学院讲席教授、统计科学中心科学委员会主席。
研究方向
陈松蹊院士主要研究方向为超高维大数据统计分析、环境统计、非参数统计方法等,他在超高维假设检验方法和非参数经验似然方法方面取得了丰硕成果,推动了统计学的关键性发展。
陈松蹊院士同时注重数理统计的应用,以国家大气污染防治的重大需求为出发点,在数学地球物理领域做出了前沿交叉成果,为精准度量污染排放和评估大气治理效果提供了科学方法,为我国统计学科发展做出了杰出贡献。其研究成果得到了国际同行的高度认可。他当选为数理统计学会会士、美国统计学会会士、美国促进学会会士,曾任统计学顶级期刊The Annals of Statistics和美国统计学学会会刊编委、数理统计学会(IMS)常务理事,入选斯坦福大学2020全球前2%顶尖科学家榜单,现任伯努利学会科学书记。
以下为访谈实录,内容已经过陈院士本人审核。(文章约4000字,阅读时间约10分钟)
大数据国家工程实验室:首先热烈祝贺您新当选为中科院院士。今天的新闻是北大和实验室的骄傲。您的当选实至名归。
陈院士:谢谢。
陈院士谈过往学术经历
我是北京人,1983年毕业于北京师范大学数学系,在北京经济学院工作两年后回北师大数学系读研究生,毕业后去了新西兰惠灵顿维多利亚大学读书,1990年赴澳大利亚国立大学读博,1992年毕业之后在澳大利亚联邦科学院(CSIRO)海洋实验室做渔业统计的研究,当时主持的课题是使用航空线段抽样估计海洋中南蓝金枪鱼种群的数量。研究中需要每天在小飞机上飞行近十个小时,沿固定航线上采样,再设计算法。任务虽艰巨但也有趣。1995年初我在澳大利亚La Trobe University开始教书,2000年去新加坡国立大学,2003年赴美国Iowa State University任职。学术经历也算遍布全球几大洲。
2008年我到北大光华管理学院商务统计与经济计量系,做了5年系主任、8年联席系主任,至今已有13年,对北大很有感情。2017年北大全职工作前每年回国一半时间。商务统计系虽然规模不大,但其研究实力强劲,多年来我们引进多位优秀教员,成为光华的一个特色。2010年我和北大同事一起创立北京大学统计科学中心,任首届联席主任。这个中心是一个跨院系的实体研究平台,汇聚了来自数学、光华、生科等多位院系老师,大家齐心协力发挥各自的专业力量。统计中心是北大统计学双一流学科建设单位,北大统计学是A+学科,近年来我们引进了多位科研能力突出、教学功底深厚的老师,有效的壮大了研究和教学的力量。北大的老师优秀而绅士。数学院风格朴实,学术底蕴深厚,数学是我们的根基。光华极具活力,接近市场,更贴合实际应用研究。大数据国家工程实验室的氛围介于两者之间。
大数据分析与应用技术国家工程实验室访谈陈松蹊院士
陈院士谈重要学术成果
我于2008年回国时统计学的大数据是以高维数据展现,其表现在数据特征维度多但数据样本小,即小样本-超高维数据。其背景主要出于对高维基因数据分析的需要,尤其是2000年人类基因组计划(human genome project)所带来的基因测序数据的大量出现。如今高维大数据已出现在众多领域,但高维数据使许多传统的统计学与数据科学理论与算法失效,比如回归分析、方差分析、t-检验方法等,这就迫切需要更新统计理论和方法,适应数据的高维性。我的研究主要在超高维参数的假设检验,给出了一些能有效控制发生两类错误的概率的统计检验。这些检验已经被使用在寻找治病基因和基因组、评估药物疗效、政策干预效果和气候变化研究等。这一研究在2017年获得教育部自然科学一等奖。
2013年北方地区的雾霾问题凸显,人们深受环境污染问题困扰。我在偶然的机缘下开始大气污染的研究。当时我们想请美国科学院院士Robert Tibshirani访问统计中心,他提出了目前被广泛使用的在小样本-超高维数据做回归分析的Lasso算法。但他以北京的空气污染为由婉拒了我的邀请。这使我意识到大气污染的严重性,开始进行大气环境与统计学的交叉研究。2015年我们团队发布第一份空气质量报告,时至今日已经发布了8份空气质量报告。主要是使用大数据统计方法提出了去除大气监测数据中的气象因素干扰的方法,获得时间上可比较的空气质量指标和“人努力-天帮忙”指数,其可以排除气象因素的干扰,及时衡量污染排放量,评估国家的大气污染治理的效果。2016年我们开始了国家重点研发专项“空气质量统计诊断模型项目”的研究。这五年来我们做了许多重要工作,有些成果得到生态环境部和中国环境监测总站的采纳和使用。
陈松蹊教授团队《空气质量评估报告八》
统计与大数据在科学研究中的一个优势是可以做数据实验。我这里介绍两个这种实验。关于北京雾霾的原因民间有很多传说,其中一种是“植树造林导致北风的减少是雾霾产生的原因”。为了验证这一传说,我们分析了欧洲气象中心关于中国北方的历史气象再分析数据,发现北风并没有减少,反而气候变化所带来的的气温升高导致边界层的升高,其增加了垂直大气容量,有利于稀释PM2.5。所以这个传说没有依据。导致北方大气污染的主要原因是过度的人为排放。
该研究发表于2020年的《地球物理研究(JGR)》。(北大相关报道:《陈松蹊研究团队最新发现:中国北方气候变化并未加剧空气污染|学术光华》
文章链接:https://www.gsm.pku.edu.cn/statistic/info/1008/2359.htm)
(延展阅读:Meteorological Change and Impacts on Air Pollution Results from North China, Journal of Geophysics Research-Atmosphere, 125 (16), e2020JD032423)
另一个数据实验是我们刚被JGR接收发表的关于低空臭氧污染的研究。近些年随着大气治理,我国大部地区空气中的颗粒物(PM2.5、PM10)浓度在下降,这是好事。但与此同时,春夏臭氧浓度在东部地区显著提升。由于臭氧的生成需要光照,关于臭氧上升的一个说法是由于颗粒物下降所造成的太阳辐射增加所致。如果按照流行的“大数据时代我们只需要相关分析、不需要因果分析”的思路,就不难有以上说法。为了验证这个说法,我们分析了2014-2020年中国北方六个主要城市的太阳辐射、污染和气象数据,发现影响太阳辐射的显著因素有季节、每天时间、云和湿度等因素。其中颗粒物对辐射的影响是显著,但是其在具有显著影响变量中排在最后面。我们计算了PM2.5下降所产生的辐射增加对臭氧的影响量,发现不足以解释近些年北方地区臭氧的上升量。这说明臭氧上升主要原因并不是PM2.5下降所产生的辐射增加。臭氧升高的路径很多,下一步我们将在这方面展开后续研究。
陈院士谈学术环境
我去过澳洲、美洲、亚洲,2008年开始回国。在澳洲、新西兰等地,大家相对遵循比较英国式的传统,有早茶、下午茶的机会可以深入探讨切磋。在美国是一种拼搏的形态,这点和中国相似,大家节奏比较快。新加坡介于两者之间。北大的文化极富魅力,同事和学生非常优秀。回国后做事更有归属感和责任感,因为是自己的国家,能做一些国家需要的事情。目前国家对科技发展的支持力度在不断加强,我们大数据国家工程实验室也承担着重要的任务,非常了不起。我们身处一个好时代,应该在做好基础研究的同时,做一些解决国家需求的研究。
陈院士谈学生培养
有句老话说得好:师傅领进门,修行在个人。老师给予方向性引导,主要还是靠学生自己,希望学生有自驱力。作为老师非常期待自己的学生既有扎实基础,又行事主动。在北大大数据研究中心,我指导了多名硕士研究生,比如有位学生今年刚毕业,去京东物流做销量算法与预测工作。他的论文是关于海洋观测研究,为国家海洋实验室设计了海底滑翔机给出了在有洋流干扰下的走航设计方案,解决了一个迫切需求。在做交叉学科的研究中,我非常喜欢大数据中心的学生。比如我们的空气质量报告的学生负责人是我们大数据中心的研究生。我们的北方气候变化对大气污染影响的研究,和刚刚发表的气象变量对污染物影响排序的研究,是分别同两位元培学院的本科生一起完成的。北大是一个非常交叉融合的地方。北大的学生素质高,我感觉很幸运。
北大学生的基础和计算能力、主动性都非常好。如果说提升空间,我建议应该提高写作能力。这可能是现在普遍存在的问题。不仅是学术领域,如果学生们将来去工业界或政府部门发展,写作能力好将非常有助于成为领导者和具有思想的行动者。写作也是综合素质与能力的重要展示。
陈院士谈未来展望
我目前专注于做统计学与大气环境的交叉研究,今后将试图把气候变化及经济系统也包括在内。另外我对于机器学习算法的数理统计研究也有兴趣。
关于大数据国家工程实验室的未来发展,我认为目前鄂维南院士、张平文院士对于实验室研究方向的布局非常合理。在数字经济领域及人工智能科学计算的研究正是国家当下重点关注的问题。目前实验室已经聚集了一群非常能干的研究人员,在做许多非常有趣的课题,承担服务于国家战略的科研任务,是一个非常好的大数据研究基地。
大数据国家工程实验室:非常感谢您的时间。再次祝贺您新当选为中科院院士。希望您未来产出更多丰硕的学术成果,工作与生活一切顺利。
陈院士:谢谢。
转载本网文章请注明出处