本报讯(通讯员 何鑫)近日,西电广州研究院盛凯教授团队的论文"Cherry:BreakingtheGPUMemoryWallforLarge-ScaleGNNTrainingviaMicro-Batching"被高性能计算领域的国际顶级会议———2025年国际超级计算会议(2025ACMInternationalConferenceonSupercomputing,ACMICS2025)录用。论文第一作者为团队教师何鑫指导的2021级本科生汪焱,通讯作者为何鑫。
该研究工作针对大规模图神经网络(GraphNeuralNetwork,GNN)训练面临的GPU内存墙挑战,提出了一种新颖高效的微批量训练方法Cherry。Cherry的关键在于利用消息传递流图辅助的分区技术以及基于微批的数据加载机制的有机结合,共同减少微批量分区中的冗余和负载不平衡,并降低训练过程中与数据准备相关的开销。实验评估表明,Cherry能够支持超出设备内存容量的大规模GNN训练,并且无论是在减少内存消耗还是训练效率方面,均显著优于现有方法。该研究成果将有助于显著降低大规模GNN训练的硬件部署成本。