『高通量以太网联盟』发布AI超节点Scale-Up场景互连协议白皮书

2025-08-14 16:13:53     来源:

image.png

AI计算集群规模的不断扩大,如何保持算力的线性扩展,这是一个世界性的难题。以并行计算的方式,将模型参数与数据拆分到多个GPU上协同处理。这样虽然可充分利用多GPU算力,但是同时也带来了密集而频繁的数据交换需求。相比传统通用计算,这类任务对网络带宽的要求通常要高出两个数量级。

除此之外,大模型训练中的数据同步具有明显的周期性,这意味着任何一个环节的性能短板——无论是链路拥塞还是设备故障——都可能成为集群的瓶颈,从而影响整个任务的进度与稳定性。

要确保集群算力能够随规模扩展而近似线性增长,就必须最大限度地消除这些网络短板,构建能够长期维持高带宽、低延迟和稳定性能的互联体系。显然,传统网络在设计之初并未针对如此密集的GPU间通信场景进行优化,难以在此类高强度AI负载下保持高效。

因此,需要引入一种以GPU为核心的全新网络架构。这种架构以满足GPU间高速通信为首要目标,从拓扑设计、协议选择、链路管理到拥塞控制,均针对AI的特点进行专门优化。

全球范围内的工程难题无法单靠硬件堆叠解决,必须依赖一系列体系化的技术架构创新,包括拓扑优化、协议演进、链路管理与智能调度等方面的突破。

在这场AI变革中,在大规模GPU相互连接,计算与网络紧密交织,性能不再是一个单一的概念。谁能率先构建出具备长期演进能力的高性能网络互联方案,谁就有可能在未来的算力竞争中占据决定性优势。

面对挑战,在孙凝晖院士提出的C体系技术路线指引下,早在2022年7月,阿里云和中国科学院计算技术研究所联合开启高通量以太网(ETH+)协议的制定。此后一年,2023年7月,由阿里云和计算所发起的『高通量以太网联盟』应运而生。目前,『高通量以太网联盟』会员单位已经超过50家,涵盖云厂商、芯片厂商、系统集成商、科研院所等相关单位。

AI网络进入大争之世,各自为战,还是联盟合作?『高通量以太网联盟』致力于制定面向AI智算场景的高通量以太网协议,推动国内智算网络标准化,并积极融入国际智算网络组织,打造开源开放融合共赢的产业生态。

在Scale out阶段,『高通量以太网联盟』最先提出构建面向AI智算领域的以太网生态,最先实现Scale-Out网络协议的收敛、协议标准发布、及芯片化落地。比如,网卡芯片(2*200G 自研网卡芯片)、交换芯片(25.6T 自研交换芯片)、硅光芯片(1*400G 硅光芯片)等成果;同时,基于阿里云HPN(High-Performance Networking)架构体系,实现全国产的落地方案。

2025年,『高通量以太网联盟』伴随着全国高性能计算学术大会迈上新台阶,努力促进全国产化完整产业链的形成。Scale-Out场景的芯片化落地及国产解决方案已经完成关键性突破。

随着战局的推进,超节点走进数据中心组网,Scale up场景成为舞台C位。在Scale-Up场景,『高通量以太网联盟』促进产业共识,推动协议制定和原型验证,首先提出并始终坚持Scale-Out和Scale-Up网络融合发展的理念,并基于以太网大芯片容量和光互连构建全解耦的UPN(超性能网络)架构解决方案。

2025年8月14日,暖城鄂尔多斯,高通量以太网(ETH +)联盟年度发布会同期举办。

本次发布会涵盖Scale-Up和Scale-Out网络场景,分别发布了:

(1)白皮书:高通量以太网(ETH+)协议(1.1)联盟标准重磅发布;

(2)网卡芯片:全量支持高通量以太网(ETH+)特性的首款国产400G智能网卡芯片;

(3)交换芯片:支持高通量以太网(ETH+)关键特性的首款国产25.6T交换芯片;

(4)硅光芯片:支持高通量以太网(ETH+)ERack+、ORack+的国产硅光芯片;

(5)高超柜(ERack+): 首款高通量以太网(ETH+)64 超节点;

(6)UPN 512: 基于高通量以太网(ETH+)光互联的超节点解决方案。

如图片无法显示,请刷新页面

其中,高超柜在整体架构设计上有如下的核心考量和特点:

1、高超柜在设计之初就定位了高密高带宽高速率,相比其他Scale up技术方案,如NVlink、UAlink等,以太网交换芯片具有大带宽,大Radix,高速率的优势。

2、超节点内部GPU和CPU的配比由于芯片的性能差异以及不同业务需求会存在不同,高超柜支持CPU和GPU解耦和配比灵活调配,CPU 与GPU解耦。而在非解耦方案下,CPU和GPU共同位于Compute Tray内。

3、高超柜的重要目标之一就是要成为一个开放的系统,以开放架构支持高通量以太网生态的芯片和系统快速落地;从机柜到Switch tray、Compute tray,均为开放解耦思想。不同的芯片只要根据规范来提供或设计模组,可快速在高超柜上适配和集成,快速获取性能数据,快速产品化。

4、高通量以太网联盟扎根国内生态,支持国产化是高超柜的重要考量之一,关键部件选择上均考虑了国产化,为国产化出一份力。

以机柜为单位可整体交付和部署,是当今主流的超节点系统方案。高超柜是高通量以太网联盟针对百卡规模超节点的超高密度开放超节点系统方案。

如图片无法显示,请刷新页面

联盟认为,Scale-Up场景需阶段性推进的策略。

第一阶段,2025年8月发布高通量以太网协议1.1,以及ERACK+,并已经完成ERack+ 64原型系统的验证;

第二阶段,推动UPN新型系统架构完成设计和标准制定,构建基于以太网光互联技术的分布式可扩展系统。

AI格局正在快速重塑,不同企业的私有协议与联盟此起彼伏,生态分化明显。在这种背景下,以太网凭借长期积累的生态与广泛的兼容性,依然展现出独特的规模优势。为了将以太网的规模优势进一步转化为产业竞争力,高通量以太网联盟开始承担起推动国产化与体系化落地的使命。高通量以太网联盟将不忘初心,通过打造具备国际竞争力的智算网络,实现AI智算大集群到AI智算大算力的质变。(完)

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

《沙丘:觉醒》全球成绩亮眼,国际市场游戏收入连续四季度强劲增长
洛东生物×厦航空厨 | 解锁健康生活新场景
安璟汇引入O23氧护体系,引爆“物理干预+营养调控”双轮健康养护新范式
《2025开放式耳机品类趋势洞察报告》:品类爆发增长,韶音领跑市场与技术双高地
三星电视重塑客厅场景,驱动“家空间”向多功能美学场域进化
司徕柏镜片荣获「非凡视光品牌大奖」,以AI光学科技引领行业创新
智慧眼正式成为中国可信数据空间发展联盟成员单位
百年匠心:比利时思可昂助眠床垫,以科技重构人类睡眠新范式
2025首届中国AI商业落地峰会在杭启幕 共绘人工智能赋能产业新图景
用AIGC点亮中国硬核之光:硅基大司马如何以“良币”重塑科技传播格局
MongoDB发布一系列产品创新和拓展合作伙伴生态系统夯实AI应用基础
创新引领 与时偕行 富士胶片商业创新(中国)成立30周年
暑假实习通关秘籍:联想小新平板Pro GT天禧AI赋能搞定难题,暑促到手1599元起
测测APP创始人任永亮对话晚点《LatePost》,探讨测测如何用十年熬一碗“AI鸡汤”
京东方能源与钉钉牵手,共建能源行业智能办公标杆
“好呼吸”源于“好算法”!瑞迈特智能呼吸算法打造定制化舒适睡眠体验
加速生物制造创新落地,嘉必优2'-岩藻糖基乳糖入选首批标志性产品
超龄厨电成“隐形杀手”! 换新就上京东815厨电周年庆爆款低至815元
聚焦生态治理,Soul APP创始人张璐团队发布《2025生态安全半年报》
重塑打印市场新格局,紫光系列打印机正式发布
抖音治理恶意营销号最新公告:打击量产迷信内容、以灾害预警骗互动等行为
光学技术突破:图拉斯原感膜定义全新用户体验
巅峰对决!PAC 2025全国总决赛终极之战—— 谁将问鼎冠军宝座?
AI 重塑教育:黄河解析伴鱼 “智能私教” 的破局之道
智元机器人:用 “机器人+具身模型” 重构生产力​
铁威马带头,F4 SSD全闪NAS成数据新星
覆盖140+语言,传神·小尾巴AI翻译机获湖北卫视推介
腾讯Q2财报超预期,AI效益加速兑现驱动广告、游戏显著增长
蘑菇车联AI网络斩获IATW认证 入选“城市交通全场景创新实践成果”
2025中国互联网大会聚焦:顶级域名成企业全球化核心资产