自ChatGPT惊艳亮相以来,人工智能迎来了新的热潮。IDC预测,到2023年,中国人工智能市场规模将超过147亿美元,到2026年将超过263亿美元。
AI的发展使越来越多的大模型应用于诸如语音识别、自然语言处理、计算机视觉等场景。而大模型的训练需要依靠超大规模的算力,这对AI基础设施的网络提出了新的挑战。
腾讯云副总裁郑亚峰介绍了腾讯自研星脉高性能计算网络的技术革新。他认为,基于腾讯云的全面自研能力和技术创新,大模型时代的算力提升并非无解。
在大模型时代,算力的提升不再仅靠GPU堆叠线性拉升,更复杂的GPU集群对网络提出了更高的需求。郑亚峰表示,大模型主要涉及数据、算法和算力,人工智能爆发式发展使大模型参数量从亿级飙升至万亿级。训练如此规模的大模型需要通过网络让成千上万个GPU互联互通,因此网络性能至关重要。
据郑亚峰介绍,传统网络协议容易导致网络拥塞、高延时和丢包。而在大模型时代,仅0.1%的网络丢包就可能导致50%的算力损失,从而影响AI训练结果。因此,传统低速网络的带宽远远无法支撑AI算力的需求。星脉网络的出现全方位解决了传统网络的这些难题,为大模型算力带来更高效、更稳定的网络环境。
目前,腾讯星脉网络已经具备业界最高的3.2T通信带宽,能提升40%的GPU利用率,节省30%~60%的模型训练成本,通过腾讯云新一代算力集群HCC,星脉网络可以支持10万卡的超大计算规模,为AI大模型带来10倍通信性能提升。
郑亚峰介绍,星脉网络是腾讯数据中心网络经过三代技术演进的成果。目前,配合自研软硬件设施,腾讯云构建了独立的超大带宽、符合AI训练流量特征的网络架构,并实现整套系统的自主可控,以满足超强算力对网络性能的新需求。
“星脉网络是为大模型而生,它也是腾讯数据中心网络的新起点,未来,也许会有星脉2,星脉3,或者超越星脉的网络。”展望未来,郑亚峰表示,腾讯云还将持续投入基础技术研发,助力数智化转型,助力各行各业在人工智能时代掘金,为大模型解开算力的“紧箍咒”。(文 陈栩文)