① 目前,中国公共数据获取渠道不畅;科学研究过度依赖国外公共数据集;目前尤为缺乏高质量的再分析科学数据集。
② 统计学在数据分析人才培养主力军作用未得到充分发挥;统计学未被列入基础学科;师资严重短缺;政府部门缺乏统计与数据分析高级专业人才。
“尽快优化有关政策,实现公共数据的开放共享,从而促进非公共机构的数据流动和价值创造,引导中国数据要素市场的建立和良性循环。” 2024全国两会即将召开前夕,第十四届全国政协委员,中国科学院院士,北京大学讲席教授,北京大学统计科学中心联席创始主任,北京大学大数据分析与应用技术国家工程实验室核心成员,北京大学长沙计算与数字经济研究院首席科学家陈松蹊院士在接受财联社专访时建议。
作为数学家、统计学家,陈松蹊院士对数据要素领域有深入的探索,对数据领域的科研和应用方面的痛点难点有着深刻的理解。今年全国两会期间,关于数据方面,陈松蹊委员带来了关于“共享公共数据 实现科学数据自立自强”和“加强数据分析人才培养力度”两份提案。为此,财联社结合数据要素相关问题对陈松蹊委员进行了专访。以下为专访内容:有序开放共享公共数据
财联社:目前数据要素行业存在哪些问题?对产业发展造成了哪些影响?
陈松蹊:首先,我国公共数据获取渠道不畅。近十年来,我国一些公共数据的可获取性得到了提升,一些数据的实时播报为通过网络实时下载数据提供了可能。但是网络下载数据的通道并不稳定,数据发布格式时有变化,易造成数据缺失。一般科技工作者仍缺乏国内历史公共数据的有效获取途径,而提供公开的数据来源是科研发表的基本要求。
其次,科学研究过度依赖国外公共数据集。由于国内公共数据获取困难,中国科学家大量使用国外的公开数据集进行科学研究。经常使用的数据集有英国生物银行基于大样本人群的遗传、生活环境和健康数据;欧洲中期天气预报中心发布的自1951年的高分辨率全球气象再分析数据;美、欧、日本等机构发布的涵盖大气污染物、二氧化碳、沙尘、灯光等高分辨卫星数据;世界卫生组织发布的各国流行病数据等。过度依赖外部数据,不利于我国科学技术自立自强,可能会限制研究人员的自主性和创新性;不利于掌握科技资源的主动权,存在关键时刻数据获取中断的风险;也不利于我国科技工作者讲好中国故事。
最后,中国目前尤为缺乏高质量的再分析科学数据集。再分析数据是融合机理模型和观察数据的高质量数据集,能有效填补缺失数据、降低原始数据的噪音,是人工智能算法训练和一般科学研究的基础。例如,华为盘古气象大模型就是基于欧洲气象中心公开的再分析数据集训练的。
财联社:高质量再分析科学数据集的短缺一定程度上限制了人工智能技术的发展进程,为解决相关问题,你有哪些建议?
陈松蹊:要集中力量打造高质量再分析数据集,建议组建由领域与数据科学家组成的数据融合团队,发挥我国在数据同化方面的统计学基础优势,在一些关键科学领域构建高质量的再分析数据集,解决我国科研人员的数据需求,降低对外部数据的依赖,实现科学数据自立自强。
财联社:公共数据的开放对于促进素具要素市场的建立具有重大意义,然而数据安全、隐私等问题也不容忽视,如何做到对公共数据安全合理的开放?
陈松蹊:建议按照数据风险等级,有序开放共享公共数据,使国内科研人员、企业及时获取长时期历史数据,提高我国大数据分析和数据赋能能力。我们建议,高分辨率气象、大气、环保、生态、经济社会等不涉及国家安全的数据应优先考虑公开。对一些敏感数据,可以签署标准化协议,对数据的使用进行不同程度的规范,之后再对国内学者和企业开放。
数据分析人才培养能力严重不足
财联社:今年你带来了《加强数据分析人才培养力度》提案,在你看来,中国数据分析人才短缺的原因主要有哪些?
陈松蹊:中国数据分析人才培养能力严重不足,主要体现在四个方面:第一,统计学在数据分析人才培养主力军作用未得到充分发挥。在全国120多个一级学科中,统计学是仅有的把数据作为唯一研究对象的学科,是数据分析人才培养的核心主干学科。但受到学位点数量和招生名额的限制,我国统计学硕士及博士研究生的培养规模还十分有限,这不利于我国数据分析的高层次专业人才培养和我国东中西部数据分析人才的均衡发展。第二,统计学未被列入基础学科。这不利于吸引优秀高中生选择统计学专业,不利于国家的人工智能核心技术的创新发展,特别是大语言模型、生成式 AI 领域等方面。也不利于培养能引领数据分析国际发展的战略科学家,不利于培养能带领企业创新发展、实现数据赋能的数据分析师。
第三,师资严重短缺。为了更好地培养数据分析人才,高校需要大量的统计与数据科学师资。从近10年统计学博士生的就业市场看,业界和学界对统计学博士毕业生的需求旺盛,业界的薪酬待遇相对较高,一半以上的博士毕业生选择在业界就业,进一步加剧了高校数据分析人才培养能力不足。我们需要加大高校统计学科建设,以满足学界和业界对统计学人才的需求。
第四,政府部门缺乏统计与数据分析高级专业人才。政府部门在数字中国建设中发挥着重要作用,而国家和地方统计局及调查总队、政府部门的统计专业机构、医疗卫生行业等均严重缺乏高层次专业统计分析人才,这非常不利于数字中国和数字政府建设。
财联社:中国数据分析人才仍存在较大缺口。据人力资源和社会保障部估计,预计十四五期间需求总量将达到2000万人左右,对此,你有哪些看法和建议?
陈松蹊:无论政府部门还是企业都需要建立用数据说话、决策、管理、创新、赋能的数据文化。企业构建数据文化需要有数据科学团队,提供从数据采集、分析、到管理决策的全流程服务,让统计师、数据分析师从始至终介入数据价值挖掘。数据分析人才是数据文化建设的主力军,构建企业数据文化必须从加强数据分析人才培养入手。
因此,建议尽快优化有关政策,切实加强我国数据分析人才培养的能力基础,夯实数字中国建设所需要的人才根基。具体可以从以下三个方面入手:
第一,尽快将统计学纳入“强基计划”和“基础学科拔尖学生培养计划” 。一是明确将统计学纳入现有强基计划试点高校强基招生专业中,加大对统计学基础研究人才培养的支持力度;二是明确将统计学纳入“基础学科拔尖学生培养计划”,尽快在全国高校中遴选补充一批统计学基础学科拔尖学生培养基地,补齐统计学基础研究创新拔尖人才培养短板。
第二,加强统计与数据科学课程体系与教材体系建设。为了培养高水平数据分析人才,将统计学纳入国家“101 计划”,集中全国优势力量,系统性建设统计学教材体系,加快形成适应数字中国建设的统计与数据科学核心课程体系,并在全国高校中逐步推广。
第三,加大统计学一流学科建设的支持力度。一是增加统计学双一流建设学科点;二是在经费投入、招生名额、推免比例、长江学者和教学名师评审等方面给予统计学以其他基础学科同样的政策倾斜;三是布局建设若干统计学前沿科学中心、教育部重点实验室。
陈松蹊院士简介
陈松蹊
中国科学院院士,北京大学讲席教授,北京大学统计科学中心联席创始主任,北京大学大数据分析与应用技术国家工程实验室核心成员,北京大学长沙计算与数字经济研究院首席科学家。中国统计学会副理事长,中国概率统计学会理事长。主要研究方向为超高维大数据统计分析、环境统计、非参数统计方法等,在超高维假设检验方法和非参数经验似然方法方面取得丰硕成果,推动了统计学的关键性发展。曾获Iowa State University教员杰出研究奖、第七届厉以宁科研奖、2017年教育部自然科学一等奖。研究成果得到了国内外同行的高度认可,入选斯坦福大学 2020全球前2%顶尖科学家榜单,美国科学促进会会士、美国统计学会会士、数理统计研究所会士、伯努利学会科学书记。
文章来源:财联社
转载本网文章请注明出处