2026年6月18日,北京大学“数字与人文节气沙龙”第63期(2026夏至篇)在北京大学百周年纪念讲堂四季庭院成功举办。本次活动由北京大学社会科学部、大数据分析与应用技术国家工程实验室联合主办,以“大语言模型背景下的汉语中介语语料库平台建设”为主题,特邀对外汉语教育学院姚骏副教授担任主讲嘉宾,对外汉语教育学院教授杨德峰、外国语学院长聘副教授苏祺、中文系副教授万艺玲、大数据分析与应用技术国家工程实验室产品工程部副部长黄晶四位跨学科专家担任与谈嘉宾。当下主流大模型多基于母语标准语训练,缺乏留学生错字、病句等中介语素材,难以精准识别学习者的语言偏误。北大团队依托CCL成熟语料体系,率先搭建百万字级中介语平台,旨在打通中文教育与人工智能的交叉研究通道。沙龙现场吸引了众多语言学及人工智能研究领域的师生到场交流。

沙龙现场
姚骏以《大语言模型背景下的汉语中介语语料库平台建设》为题作核心汇报,他指出,国内现有的中介语料库存在明显短板:主流HSK动态语料库在国别和主题样本上分布不均,难以对学习者的长期语言发展进行有效追踪,而各高校自建的语料也大多未对外开放。为此,团队借助大模型数据需求、OCR文字识别、AI作文批改等技术契机,结合北大CCL语料库多年积累,构建全新平台。语料来自校内预科班及中文系留学生作文,已累计原始语料150万字、精标注文本30万字,覆盖零基础至本科全周期,可追踪两年语言变化,并对比华裔与非华裔写作差异。平台采用“大模型预标注+人工复核”模式,但AI标注仍存在修改过度、遗漏语病、未遵循最小修改原则等问题。目前平台已上线作者溯源、多维度检索、原文对照等功能,后续将优化标注精度,新增词汇语法等级查询,并持续扩充本科阶段样本。

姚骏作主题报告
与谈环节,四位专家从不同学科角度给出发展建议。杨德峰认为,百万字语料库极具学术价值,建议扩大校内采集范围,联动多校共建共享资源;万艺玲补充,北大留学生覆盖全学习层级、在校周期长是独特优势,后续将打通各院系素材收集渠道,拓展海内外合作;苏祺聚焦标注技术,提出完善学习者母语、地域等元数据,用“打分+修改”双约束规范AI输出;黄晶结合大数据落地场景,提议搭建学生习题反馈闭环,用新写作素材持续扩充语料,拆分细分任务改善模型标注缺陷。各方一致认为,中介语库是支撑中文教育与大模型迭代的核心基础资源。

杨德峰、万艺玲、苏祺、黄晶评议报告
本次沙龙依托北京大学人文社科数智化研究基地举办,实现国际中文、现代汉语、数字人文与人工智能等多学科深度对话,系统梳理了中介语库建设痛点、创新路径与发展蓝图,为国内同类项目提供了可借鉴的实践范本。北大团队将持续迭代平台功能,面向全国中文教育研究者开放合作渠道,以丰富多元的学习者语言数据,助推国际中文教学创新与汉语大模型协同发展。
转载本网文章请注明出处