4月27日-5月1日,计算机体系结构顶级会议ACM ASPLOS 2024在美国圣迭戈举办,北京大学数学科学学院教授、大数据分析与应用技术国家工程实验室副主任、北京大学长沙计算与数字经济研究院院长杨超与大数据分析与应用技术国家工程实验室助理研究员李秀红团队在本次会议发表了论文《Centauri: Enabling Efficient Scheduling for Communication-Computation Overlap in Large Model Training via Communication Partitioning》,并荣获会议最佳论文奖(Best Paper Award)。该论文成果第一作者为北京大学前沿交叉学科研究院大数据科学研究中心博士生陈畅,通讯作者为李秀红、杨超。其他作者包括朱钱超(北京大学),段江飞(香港中文大学),孙鹏、张行程(上海人工智能实验室)。
颁奖现场
Centauri 流程Centauri是针对大规模模型训练过程中巨大的通信开销,进行通信-计算覆盖优化的框架。Centauri包含通信切分和重叠调度两个部分。针对“通信是负载在设备群上的映射变换”这一核心抽象,文章提出了通信原语(primitive),通信群组(group),通信负载(workload)这三个切分维度。根据这三个维度构造出全面并且可以系统化探索的切分空间。根据模型训练任务的层级特点,在Centauri的调度模块中任务被分成算子级,层级,模型级的不同粒度的调度层。在算子级别针对前向layer内部的通信算子进行贪心的局部调度。在层级别动态地利用反向layer内部自带的算子重叠空间。在模型层级调度micro batch计算以求最大的通信计算重叠。针对多种不同分布式并行配置下,Centauri对于流行大模型可以提升45%的训练性能。
获奖证书
ASPLOS是涵盖跨学科系统研究、交叉计算机体系结构、硬件和新兴技术、编程语言和编译器、操作系统和网络的CCF A类计算机体系结构国际顶级会议。中国大陆机构此前仅在2014年获得过ASPLOS最佳论文奖(占录取论文的4%),以及在2023年获得过杰出论文奖(占录取论文的8.6%)。本次会议共收录文章170篇,录取率为18.4%,共评出6篇最佳论文(占录取论文的3.5%)。
转载本网文章请注明出处