近日,我校信息工程学院智能计算与农业信息系统团队刘斌教授携其课题组在国际计算机体系结构领域权威期刊《IEEE Transactions on Computers》(TC,CCF A类期刊)上发表题为“GroPipe: A Grouped Pipeline Hybrid Parallel Method for Accelerating DCNNs Training”的研究论文。该成果标志着我校在AI智能大模型加速训练领域迈上了新台阶。
该论文由我校携手美国纽约州立大学和云南大学联合发表。西北农林科技大学信息工程学院刘斌教授担任第一作者,纪泽宇老师与云南大学何臻力副教授共同担任通讯作者,纽约州立大学李克勤教授(欧洲科学院院士,并行与分布式计算领域公认的顶尖学者,国家特聘教授)作为重要合作者,使本次研究成果更具国际影响力。论文针对当前大规模深度卷积神经网络(DCNN)大模型训练中负载不均衡和高通信开销的难题,提出了一种创新的混合并行训练方法——GroPipe。该方法首次将流水线模型并行与数据并行相融合,构建“组内流水线+组间数据并行”的分层训练架构,并通过自动模型划分算法(AMPA)实现计算负载的动态均衡调度,大幅提升GPU资源利用率。为了进一步降低数据并行同步通信代价,GroPipe在反向传播阶段引入“基于分组的延迟异步通信”策略,延迟梯度同步操作,有效减轻全局通信带宽压力,显著提升训练吞吐量。实验证明,在ImageNet数据集上,GroPipe方法相较于主流方案(如DP、Torchgpipe、DAPPLE和DeepSpeed)表现出卓越优势:ResNet系列平均加速比达42.2%,VGG系列达79.2%;在BERT-base模型训练中,性能提升最高可达51%。该成果展示了GroPipe在图像与文本领域的广泛适用性。
GroPipe方法整体框架图
这一成果的发表标志着我校在计算机体系结构领域的A类国际顶级学术期刊——《IEEE Transactions on Computers》(创刊于1952年)上实现了历史性突破。作为全球公认的重磅期刊,该刊以极其严苛的多轮国际同行评审机制著称,堪称学术界对“创新与严谨”最高标准的权威检验。本论文入选,不仅彰显了我校在AI大模型并行训练领域的雄厚实力,更意味着我校科研成果已获得国际学术界的高度肯定,为深度学习大规模训练框架的未来发展注入了强劲动力。
近年来,刘斌教授课题组专注于AI大模型并行训练与高性能计算架构的前沿研究,围绕“高效、可扩展、低开销”三大核心目标,取得了一系列突破性成果。团队的创新实践和系统化设计,大幅提升了大模型训练性能,彰显了我校在AI大模型加速训练领域的科研实力与国际学术影响力。
编辑:张晴
终审:刘玉峰