科研成果

SCIENTIFIC RESEARCH ACHIEVEMENTS

版面理解技术

  • 分享

字段1 字段2
字段3 字段4
职称 负责人

版面理解技术应用于知识图谱的知识提取阶段,协助完成从非结构化知识库中提取出实体、关系、属性等知识要素,属于知识提取的基础支撑技术。版面理解技术基于深度学习,解决从结构检索到语义理解的难题,实现主题级和语义级的检索。利用深度学习网络优良的序列处理能力学习数据元之间的嵌套与层次关系,以得到更优的结构识别结果。版面理解技术通过技术成果转化已经成功地应用到若干知名企业的核心产品当中,如方正阿帕比的Apabi Maker和方正电子公司的方正慧云中学生题库搜索与推荐系统,明显提升了产品的功能效果和产品在市场上的竞争力。

1574F

外语教学与研究出版社有限责任公司的出版产品主要为外语教材,需要给教学机构配套开发教学辅助系统/学生学习系统和点读功能,以往系统中出版内容需要在付印PDF文件中逐一拷贝、点读产品需要逐句圈选链接音视频文件。为了解决流程低效率和高错误率的问题,版面理解技术产品需要根据外研社英语基础教材和英语高等教材进行版面理解开发,正确识别出版物各级标题、正文(按句)并输出⻚面信息、结构块标签和位置信息。

3C67E

在该项目中,通过使用版面理解技术,多⻚教材在以分钟为单位的时间里即可完成版面识别、内容块标签、位置信息标注工作,联合麦片编辑系统或外研社基础数字开发系统即形成不同区域的热区并按区拾取⻚面内容,很大程度地减少了编辑人员手工操作的工作量、提高了工作效率和工作准确度。

版权所有©北京大学大数据分析与应用技术国家工程实验室 京ICP备05065075号-1 京公网安备 110402430047 号