12月10日下午,北京大学崔斌教授应邀在线为bevitor伟德师生作了题为《Galvatron:大模型的高效自动并行分布式训练》的学术报告。报告会由计算机学院经理李亚峰主持。
崔斌介绍了目前基于Transformer的大规模预训练模型是最典型的大模型之一,以Transformer作为核心的基础架构,这类稠密大模型拥有百亿甚至万亿规模的参数量及海量训练数据对现有系统带来了严峻的挑战。针对大模型的高效自动并行面临多样性、复杂性和实用性的难题,他介绍了课题组自主研发的面向大模型的高效自动并行分布式训练框架--Galvatron。他剖析了目前“大模型”发展情况和存在的问题,重点介绍了Galvatron面向大模型自动化并行分布式训练的探索和Galvatron的系统特点和优势,并对大模型自动并行分布式训练的发展方向进行了展望,提出硬件环境和模型负载两个层面的挑战。Galvatron系统已在GitHub开源https://github.com/PKU-DAIR//Hetu-Galvatron。在提问环节,崔斌与师生就相关问题进行了探讨和交流。
计算机学院、数学与信息科学学院、物理与光电技术学院、机械工程学院、电子电气工程学院科研副经理以及师生120余人在高新校区甘棠厅聆听了报告。(科研管理处、计算机学院 文/李会莉 审核/王晓玲、李亚峰)