随着大模型相关应用的加速落地,整个行业对算力革命的需求日益迫切。然而,提升算力并非仅靠堆砌GPU就能实现,网络基础设施在其中起着关键作用。近期,腾讯云副总裁郑亚峰深入探讨了大模型时代腾讯在高性能计算网络方面的布局。
当前,大模型参数量动辄达到万亿级别,背后是庞大数量的GPU,这些GPU需要通过算力集群协同完成计算任务。郑亚峰指出,在GPU集群之间的数据交换与通信都依赖网络承接。如果网络带宽不足,延时过长,将导致算力边际递减,反而增加大模型训练的时间成本。因此,具有大带宽、高利用率且信息无损的高性能网络对于当前算力提升至关重要。
郑亚峰以“高速公路”为比喻,形象地描述了业内对计算网络的期待。他强调,在大模型时代,“无拥塞”尤为关键,因为网络堵塞不仅降低大模型训练效率,还可能导致算力损失。为解决这一问题,腾讯云在高性能RDMA网络和网络协议方面进行了深入研究。
首先是腾讯自研的星脉RDMA网络。RDMA是一种高性能、低延迟的网络通信技术,主要应用于数据中心高性能计算。它允许计算节点之间直接通过GPU进行数据传输,无需操作系统内核和CPU参与。这种数据传输方法显著提高吞吐量并降低延迟,使计算节点间通信更高效。
其次是腾讯自研的网络协议TiTa。网络协议是计算节点间传输数据的规则和标准,关注数据传输的控制方式。在大模型训练中,传统网络协议由于固有设计和性能限制,难以满足无损、超大带宽的要求,甚至需要优化数据的“交通规则”。
郑亚峰表示,腾讯云通过自研TiTa协议,颠覆了传统网络“交通规则”,实现了数据交换的无拥塞、低时延,使星脉网络可在90%负载下实现0丢包。TiTa协议内嵌拥塞控制算法,实时监控网络状态并进行通信优化,使数据传输更流畅且延迟降低。
此外,郑亚峰还介绍了星脉网络所搭载的自研白盒交换机以及端到端全栈网络运营系统。这些技术进一步提高了星脉网络的高可用性,缩短了大模型训练系统的部署时间,保证了基础配置的准确性,并显著降低了系统故障排查和自愈的时间。
同时,为了让这条高速公路更宽阔,星脉网络基于腾讯云新一代算力集群HCC,可支持最大10万卡的超大计算规模,满足业务所需。
“为大模型而生的星脉网络,能让算力利用率更高,从而进一步释放AI潜能。与此同时,星脉网络也将继续升级迭代,帮助各行各业加速大模型技术的升级和应用落地。”郑亚峰总结道。
根据实测,星脉实现了AI大模型通信性能的10倍提升、GPU利用率提升40%、通信时延降低40%。日前,腾讯云发布的新一代HCC高性能计算集群,正是基于星脉高性能网络打造,算力性能较前代提升3倍,为AI大模型训练构筑了可靠的高性能网络底座。(文 邵文珊)