人工智能正在深刻改变各行业的工作方式与人才需求。当AI开始替代的不只是重复性劳动,而是延伸至分析、判断乃至创造性思考,高等教育究竟应当培养什么样的人才?这是当前教育界广泛关注的重要问题。
董彬现任北京大学北京国际数学研究中心博雅特聘教授,兼任北京大学国际机器学习研究中心副主任、北京中关村学院常务副院长、北京大学国家生物医学成像科学中心研究员、大数据分析与应用技术国家工程实验室机器学习中心主任、北京大学长沙计算与数字经济研究院副院长。他是北京大学AI4MATH团队的核心成员;自2023年春天起,他还带领团队持续探索“AI+教育”研究和应用落地。
2025年夏天,哈佛大学研究者Hosseini Maasoum & Lichtinger发布工作论文:他们追踪了28.5万家美国公司约6200万名员工的简历与招聘数据,这些招聘以白领岗位为主,具有学历门槛;最终发现:积极部署生成式AI的企业,其初级岗位人数在六个季度内相对下降了7.7%——不是裁员,而是从入口处就不再招那么多新人了。斯坦福数字经济实验室同年利用全美最大工资数据库(ADP)得出了更尖锐的数字:在AI暴露度最高的职业中,22至25岁年轻人的就业率相对下降了16%。
两项研究指向同一个结论:与我们以前更加熟悉的“中年被裁员”、“35岁危机”等困境不同,现在是从入口处就不再需要那么多新人了。企业一边不想养老人,一边也不再需要那么多新人。两面夹攻,被挤压的,是整个执行层。
某种意义上,高等教育正面对一个尴尬的处境:如果培养目标仍然是“掌握知识、具备技能”,我们实际上是在用越来越精良的工艺,批量培养一种正在被工具替代的能力。
过去几年,我一直在思考大学教育应该如何应对。最初我是乐观的——学生终于可以人手拥有一个永不疲倦的“助教”了,我们只需要把AI当作一个好用的工具去充分拥抱即可。但随着AI能力的快速增长,人类自以为稳固的认知优势被一项项突破,我逐渐意识到,仅仅把AI当作教学工具,或者在现有课程体系中增加几门AI相关课程,是远远不够的。高等教育真的到了必须变革的时刻。
我最近在密集地使用OpenClaw——个人AI管家。它让我第一次体验到一种令人不安的可能性:我把自己做科研选题的原则、评阅论文的标准、甚至审美偏好,用自然语言“教”给它,它很快内化了这些东西,然后调度多个AI同时按照我的标准并行工作。被复制的不是某个具体结论,而是我这个人思考和工作的方式——十几年积累的品味、标准、直觉,几天之内就被提取、序列化、规模化地复用了。调教它的时候我常常忍不住感叹:它比我的学生学得快多了。
那一刻我开始认真地想:如果一个人最核心的素养——不只是知识和技能,而是品味、直觉、思维方式这些我们以为最不可替代的东西——都可以被提取和复制,那大学教育到底还应该培养什么?
如何变?我试图从三个层面来回应。第一个层面关乎教学方式:AI作为强有力的工具,让教育中一直渴望实现却难以落地的实践导向终于具备了条件。后两个层面则涉及更深层的问题:当AI对人类能力的平替范围不断扩大,知识传授的重心和人才培养的目标需要做出怎样的根本调整?
这篇文章不是一个想清楚了的人在给答案,而是一个正在被冲击的人在整理思路。我非常期待关心相关问题的人与我一起探索未来前进的方向。
本文聚焦高等教育,尤其是研究型大学的本科阶段的培养。基础教育、职业教育面临不同的问题结构,留待后续讨论。
一、视角的倒转:从“黎曼式”教育,到“勒贝格式”教育
学过实变函数的人都知道:黎曼积分沿X轴切分,勒贝格积分沿Y轴切分。换了一个视角,很多黎曼积分无法解决的难题迎刃而解。

这个比喻放在教育里,颇为贴切。
传统教育的逻辑是“黎曼式”的:先讲概念,再建体系,最后解决实际问题。沿知识维度组织,顺序不容置疑。
事实上,“实践先行”的教育理念在中国有深厚的思想根基。陶行知先生早在20世纪20年代就提出“教学做合一”,主张“做”是“教”和“学”的中心——行是知之始,知是行之成。
认知科学后来也印证了这一洞见。苏黎世联邦理工学院的教育学者Manu Kapur团队,历经十余年跨学科研究,得出了反复验证的结论:先让学生尝试解决真实问题(哪怕失败),再接受指导讲授,其概念理解和知识迁移效果,远超“先讲再练”的传统顺序(Kapur, Productive Failure, Wiley, 2024)。实践先行,在认知上本就更高效。2025年,Kapur团队进一步将这一框架与大语言模型结合,探索如何用AI引导学生在“有益失败”中学习——这条研究线,正好与AI时代教育改革的现实需求交汇。
过去为什么很少这么做?因为试错成本太高——让学生独立挣扎,老师根本顾不过来。
AI的出现,大幅降低了这个门槛。当学生尝试解决真实问题时,随时可以调用AI作为“认知脚手架”——查概念、验思路、要反馈。试错成本骤降,实践先行的优势终于可以被充分释放。
这里所说的“真实问题”,不是教科书上改头换面的练习题,而是那些没有标准答案、需要自己定义边界、可能失败的问题。
这类问题在研究型大学里并不缺。老师们手上有大量的科研课题,其中不少是可以拆解给本科生的。但现实是,即便在头部高校,本科生科研往往更像一种“体验”——走一遍流程、感受一下氛围——而没有被当作教育和学习的核心方式。更多的高校则根本没有这个传统,学生的四年仍然以课业为主,从头到尾在“先学完再说”的轨道上运转。不是没有好题目,是我们还没有真正把它交到学生手里,让他们在挣扎中学习。AI或许正在改变这件事的可行性。
AI时代的教育,理应走向“勒贝格式”:从真实任务出发,沿实践维度反向组织学习。认知的顺序,必须反过来。
二、颗粒度跃迁:不是不用学,而是教学的权重要变
AI时代还需要学知识吗?当然需要。但更准确的问题是:知识传授的颗粒度,应该发生什么变化?如果AI能提取和复制的思维颗粒度越来越细,那教育传授的知识就必须持续向更高的层级迁移——不是教那些可以被序列化的技能,而是把权重移向尚未被攻克的判断层。
看编程语言的演化史就能理解这件事。早期程序员要直接操控机器码,每一个比特都得手动管理;后来有了汇编,再后来有了C、Java、Python——每一次抽象层级的提升,程序员需要操心的底层细节就少一层,思维得以在更高的粒度上展开。从机器码到Python,人并非“不再需要懂编程”,而是“不再需要在那个粒度上懂编程”。
现在,Vibe Coding正在发生:你用自然语言描述意图,AI生成完整代码。抽象层级再次上移。程序员需要操心的,不再是“怎么写”,而是“要做什么”、“好到什么标准算好”。

这条线,从机器码一直连到今天,从未中断。
AI对所有知识领域的影响,都在沿着同一条轨迹展开。教育不是“什么都不用教了”,而是要认真回答:在AI补全了底层执行细节之后,人需要在哪个颗粒度上发起思考?
答案是向上升维:把知识传授的权重向大颗粒度倾斜——向概念层、判断层、问题定义层迁移。小颗粒度的知识仍然要学,但它在教学中的权重应当让位。就像今天的CS教育仍然教计算机系统,但目的不再是培养汇编程序员,而是让学生理解足够的底层原理来支撑更高层的判断。
当然,不同学科的权重调整幅度并不相同。软件工程的底层也许可以大幅交给AI;但数学直觉来源于对具体对象的反复操练,实验科学的判断力建立在与真实物理系统长期打交道的经验之上——这些领域的小颗粒度训练不可轻易削减。颗粒度跃迁的方向是一致的,但速度和幅度因学科而异。目标是实现让AI负责在框架内求解,人类负责构建框架,以及质疑框架本身。
不过,写到这里我自己也有一个隐隐的不安。我做数学出身,一直觉得数学思维的颗粒度极细,那种对具体对象反复操练形成的直觉,是很难被提取和复制的。但最近的经历让我动摇了。我亲眼看到,当你把一个人解决问题的思维方式——不是具体的知识,而是拆解问题、构建中间步骤、判断方向对不对的那套“思维骨架”——足够细致地描述出来之后,AI是可以理解并运用的。模型越强,它能感知到的思维骨架的颗粒度就越细。这意味着,我们以为最安全的那些“人类独有的高阶能力”,护城河可能比想象中浅。那么颗粒度跃迁的终点在哪里?老实说,我不知道。
三、认知外包的陷阱:防线不是后退,而是推高天花板
如果连“教什么”都在被不断侵蚀,那大学最终要培养的,就不能是任何一种固定的能力——因为任何固定的据点都可能被攻克。真正需要培养的,是一种持续向更难问题进军的习惯和能力。
“AI求解,人类构建框架”——这个分工听起来很美,但它隐含着一个危机:当越来越多的认知工作被外包给AI,人类自身的思维能力,会悄悄萎缩。
这不是杞人忧天,而是有实证研究支撑的真实风险,且后果比我们想象的更具生理破坏力。
2025年初,瑞士商学院发表的实证研究证实:频繁使用AI工具与批判性思维能力显著负相关,在年轻群体中尤为突出。同年,MIT媒体实验室给出了迄今最直接的神经科学层面的证据:研究者通过脑电波(EEG)监测54名参与者在三种条件下写作——LLM辅助、搜索引擎辅助、纯脑力。结果:LLM组的大脑神经连接强度最弱。更值得警惕的是,当LLM组被切换回纯脑力写作时,其大脑连接强度仍然弱于从未使用AI的对照组水平——至少在实验观测的时间窗口内,这种差距没有消失。
认知能力的损耗,短期内不会因为“戒掉工具”就自动复原。
我自己就是这个矛盾的活体样本。我每天都在把大量认知任务交给AI——不是当工具用,而是当管家用:它替我拆解任务、调度执行、甚至帮我生成论文评审意见初稿。效率确实惊人。但有时候我也会忽然停下来问自己:上一次完全靠自己从头想透一个问题,是什么时候?我说不出来。这不是矫情,是一种真实的、正在发生的退化焦虑。
面对这种真实发生的萎缩风险,最本能的防御姿态是:找出“AI永远无法替代的人类能力”,然后死守那条防线。
但这道防线注定守不住。创意写作、代码调试、医学影像筛查——这些曾被认为难以自动化的领域,AI已在其中达到甚至超过专业人员的水平。与其在一条不断后撤的边界线上修建防线,是不是可以换个打法:
持续推高任务的天花板。
如果AI可以复制一个人的工作方式,那教育就不能再以“传授可复制的模式”为核心。比模式更重要的,是形成模式的过程——那种在真实问题中反复挣扎、试错、最终长出判断力的经历,是外包不出去的。你可以复制我的品味,但你复制不了我形成品味的那段路。
2015年以前,我用经典数学工具做计算成像——小波、偏微分方程、变分方法。这些是几十年学术积累的结晶,也是我安身立命的本事。然后深度学习来了。我亲眼看到自己精心设计的算法被颠覆——不是因为它们不好,而是相对于这个强大的新工具,原来的问题太容易了。
工具变了,问题就必须变。我开始挑战更难的问题——那些深度学习也搞不定的、需要数学机理与数据深度融合的问题。再后来,大语言模型出现,我开始做AI for Mathematics——让AI辅助数学研究本身。每一次工具换代,我没有退回去守旧防线,而是去找配得上新工具的更难问题。
说实话,这种经历并不特殊。每一代研究者都会遇到工具换代,都得去找配得上新工具的更难问题。手握牛刀,杀鸡有何意义?真正不同的是这一次的速度。过去,工具换代以十年为单位,人有充分的时间适应;而生成式AI从出现到颠覆一个又一个领域,用的是年甚至是月。
这是一个结构性原理:当工具强大到一定程度,简单问题就不再是“问题”了。留给人的,只有那些真正难的任务——需要深度价值取舍、跨学科整合、系统性判断的任务。认知外包的风险并不会因为任务变难就自动消失,但持续挑战更难的问题,至少保证了人始终在认知的边界上工作,而不是在舒适区里把思考权拱手让出。
不过,推高天花板有一个前提条件:必须区分哪些低阶认知是可以安全放权的“脚手架”,哪些是不可移除的“地基”。认知能力是层叠式结构——高阶的抽象判断,往往建立在低阶的具体经验之上。数学家的直觉来自对大量具体对象的反复操练,实验科学家的系统判断力来自对异常现象的长期敏感。如果被交出去的恰好是上层能力的地基,天花板推得再高,也是空中楼阁。历史上,文字、印刷、计算器都触发过类似的认知权力转移,但那些转变以几十年甚至几百年为单位展开,文化和教育体系有时间完成适应。这一次,以年甚至月为单位——旧能力已经交出去了,新能力可能还没长好。
哪些该放权、哪些必须亲手练,是每个学科都需要严肃回答的问题。这也呼应了第二节的判断:颗粒度跃迁的方向是一致的,但速度和幅度因学科而异。
教育应当做的,不是教学生守住某条防线,而是训练他们持续推高天花板的能力——识别更难的问题、定义更好的问题、在不确定中做判断——同时清醒地守住那些不可替代的认知地基。
这也解释了前两节的真正用意。
第一节的“勒贝格式”实践驱动,是在说如何推高天花板。真实世界的高难度任务没有参考答案,失败不会有老师纠错,情境也永远是第一次出现。让学生在这样的不确定性中锻炼判断力,而不是在标准答案的安全区里空转——这是当前以讲授为主的教育体系给得最少的东西。
第二节的颗粒度跃迁,是在说如何守住地基、同时腾出空间。不是不学底层,而是把有限的教学时间重新分配:让真正构成地基的训练留下来,把可以安全放权的脚手架让给工具——省出来的时间,用于拓展跨学科知识面、培养系统性判断力这些过去课程体系中长期缺位的高阶能力。
结语
实践先行,颗粒度跃迁,推高天花板——这三件事,说的其实是同一件事:AI接管了执行,教育就必须上移。
AI对教育的颠覆可能远超本文讨论的范围——整个学制、评价体系、甚至大学的存在形式都可能被重塑。但那是更远的问题。眼下,我们至少可以先做这三件事。
危机面前,“升维”是我能想到的唯一选择。
参考文献
1. Hosseini Maasoum, S. M., & Lichtinger, G. (2025). Generative AI as Seniority-Biased Technological Change: Evidence from U.S. Résumé and Job Posting Data. Harvard University Working Paper.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5425555
2. Brynjolfsson, E., Chandar, B., & Chen, R. (2025). Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence. Stanford Digital Economy Lab.
https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/
3. Kapur, M. (2024). Productive Failure: Unlocking Deeper Learning Through the Science of Failing. Wiley.
https://onlinelibrary.wiley.com/doi/book/10.1002/9781394308712
4. Puech, R., et al. (2024). Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure.
arXiv:2410.03781. https://arxiv.org/abs/2410.03781
5. Gerlich, M. (2025). AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking. Societies, 15(1), 6.
https://doi.org/10.3390/soc15010006
6. Kosmyna, N., et al. (2025). Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. MIT Media Lab.
arXiv:2506.08872. https://arxiv.org/abs/2506.08872
转载本网文章请注明出处