网络当自强:破解AI运力的新卡点与“芯”挑战

2024-08-23 14:17:35     来源:

多年以后,当我们坐在智能新世界的AIGC咖啡馆里回首往事,也许会想起二十届三中全会发出的最强音:推进高水平科技自立自强,为实现中国式现代化提供有力支撑。

那是属于自主创新的黄金时代,也是面临极限压力的难忘岁月。围绕主角AI衍生的算力、存力与运力故事不断演绎新的版本——没有风雨躲得过,但也没有翻不过去的火焰山。

最猛烈的疾风骤雨源自对算力“卡脖子”的恐慌。当GPU的抢购、囤货风潮逐渐退去,人们发现对单卡性能的执念其实是个认知陷阱,重复投资造成的浪费值得反思,而系统创新带来的综合算力改善更为重要,千卡乃至万卡集群日益成为大模型时代的主角。

集群算力的提升是一个系统工程,借助存储、网络能力优化弥补计算短板的创新路径备受青睐。由于大模型以集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性对集群有效算力产生重大影响,因此“以网强算”被寄予厚望,依靠运力实现“弯道超车”似乎并不遥远。

然而,这条路并不平坦,尚需克服诸多障碍。一方面,关于高性能网络协议的标准竞争与利益博弈颇为激烈,践行开放以太网的技术路线殊非易事;另一方面,以太网交换芯片领域巨头当道,尤其是高端数据中心交换芯片具有较高的资金、技术、客户及应用壁垒,目前产业链以海外供应商为主,国产化程度偏低。

显而易见,以网强算必须与自主创新相结合,才能真正绕过险滩,抵达数字化、智能化跃迁的彼岸。在充满不确定性因素的内外部环境下,“网络当自强”不仅关乎AI发展的主动权,而且与关键基础设施的安全密切相关。前路迢迢,行则必至。

以网强算×自主创新的必要性与紧迫性

无论在信息化建设阶段还是数字化转型时期,计算与网络都是IT基础设施的重要组成部分。二者相辅相成,共同打造数字经济的坚实底座。

伴随AI算力需求激增,计算与网络也在不断进化。从某种意义上讲,智算中心即是由以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施组成的综合体——如果说计算堪称中流砥柱,那么网络就是强大根基。

大模型的演进轨迹也证明其并非依赖计算的单边突进。相关统计显示,Transformer模型从2017年诞生至今,制程改进促成的芯片性能提升约8倍,而通过系统创新带来的算力综合性能改善高达1000倍。

在系统创新的路径选择中,建设超大规模、超高带宽、超低时延、超高稳定性的高性能网络无疑占据着C位。特别是在GPU单卡算力受限的背景下,获得同等算力的难度持续增加,以网强算成为突破AI算力瓶颈的不二之选。

值得关注的是,以网强算必须找到适宜的突破口,把握新技术路线的主动权尤为重要——围绕高性能网络协议的创新已如火如荼,这是国内厂商赢得话语权的难得契机。

目前,在AI集群网络中通常采用RDMA技术,包括IB和RoCE两条路线。IB网络技术体系相对封闭,而RoCE的生态较为丰富,很多国内厂商均发布了RoCE无损网络方案,基于开放以太网的技术路线逐渐成为业界共识,国内厂商在标准制定与市场实践中亦拥有一席之地。但不容忽视的是,类似超以太网联盟(UEC)这样以国外巨头为核心的国际组织,也在基于以太网技术路线构建新的生态体系,未来的走向尚需观察。

在网络“芯”制高点谋求突围

在网络自主创新的征途上,选择适宜的“登山”路线固然重要,但要找到高海拔地区的“雪莲花”,进而攀上顶峰,则必须直面“芯”挑战,决胜制高点。

AIGC的迅猛发展对网络基础设施提出前所未有的高要求,GPU的互连接口和带宽即是亟待解决的焦点问题。当下,主流AI大模型集群已采用单GPU卡400G接入,预计到2025年800G会超过400G成为主要发货端口速率。

这相当于对交换机设备和芯片的进化提出了明确的时间表。很长一段时间以来,以太网交换芯片的更新迭代由海外供应商主导:博通在2020~2022年先后发布25.6T带宽的Tomakak4芯片和51.2T带宽的Tomahawk5芯片,其他主流芯片厂商也相继跟进。伴随下一代芯片端口迈向400G、800G,对应的交换芯片能力有望“快进”至102.4T。

为了缩小和海外厂商的差距,满足国内人工智能大规模建设对高端交换芯片的需求,国内厂商不断加大投入力度,在25.6T带宽芯片上已取得突破性进展。不过,受限于制程工艺以及外部干扰等因素的影响,更大带宽芯片的可获得性存在风险,国内厂商的自主创新任重而道远。

需要指出的是,与GPU得到的超高关注度相比,以太网交换芯片有点被“冷落”,以其对整个AI产业发展乃至千行万业智能化升级的深远影响,理应获得更多的关注与支持。

从AI产业演进的角度看,交换芯片能否有效供给,关系到算力底座的建设进程与应用成果——倘若智算中心、AI大模型等关键基础设施的顺畅运行不能得到保障,就很难在人工智能、大数据分析等前沿领域占得先机,与国际先进水平的差距可能进一步拉大,以创新谋求高质量发展的战略也将举步维艰。

站在更宽阔的视角,千行万业的数字化转型已进入深水区,同时面临被AI“重做一遍”的机遇与挑战。此时,以太网交换芯片技术的自主创新与供应链的安全可控显得尤为重要——传统行业的脱胎换骨、新兴场景的精耕细作、关基领域的守正出奇,都离不开网络之“芯”的鼎力支撑,新质生产力的健康发展也需要“芯”动力的保驾护航。

开创“存算运一体”的AI全栈自主创新路径

以终为始,是解决疑难杂症的必由之路。当我们从网络“芯”制高点上重新审视来时路,就更容易发现那些若隐若现的林中幽径,通过“大胆想象、小心求证”,甚至能将它们连缀成通往山顶的大道。

首先,从源头支持AI全栈自主创新。在集群建设阶段不应只关注GPU的国产化替代,而要将存储、网络、软件等环节统筹兼顾。只有以“存算运一体”的思路驱动自主创新产品及方案真正落地,才能为高性能自主网络技术的成长创造必要条件。

其次,多管齐下推动核心技术攻关。一方面需加大政策支持力度,鼓励关键技术自主研发,促进成果转化;另一方面,国内厂商也要积极参与打造标准开放的技术生态和评测体系,持续提升智算中心网络等场景的应用成熟度。

最后,以行业应用带动全产业链各环节协同共进。从传导机制来看,下游应用的遍地开花,将驱动中游整机的快速发展,进而刺激上游创新技术的研发投入,整个产业链有望形成正反馈效应,网络之“芯”将不再高不可攀。

逻辑推演无法替代躬身实践,自主创新网络的未来之路还需要整个产业链的各方力量共同探索,在不确定性中找到最具确定性的解决方案。运力与算力、存力和谐共舞的美好图景就在前方,执着赶路的同行者永不孤单。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

蜂享家有机事业蓝图已启,携圣牧有机私域首发爆款再刷记录
小天才Z10航天定制款上市,开学给孩子准备了一块太空陨石
寒武纪科创力获评 A 级:筑牢知识产权堡垒,精耕专利布局棋局
新壹科技亮相2024世界机器人大会 展示AIGC创新实力
激光匠造,十载华章|SHARP/NEC惊艳亮相BIRTV 2024
纳芯微发布2024半年报,汽车业务占比增长至33.51%
中国电信手机直连卫星服务科技沙龙在济南举办
音质降噪全面升级 三星Galaxy Buds3系列热销中
国内首套碳化硅晶锭激光剥离设备投产
抖音电商生鲜品类免佣后,这些商家获得更多效益与增长
他科普电工知识卖出百万件工具,人民网:新电商带来了普惠式社会改进
新学期高效学习 高性能RTX笔记本华硕天选5 Pro锐龙版售价8999元
超越边界的视觉盛宴:Micro-LED的无缝拼接技术
远光软件亮相2024电力信息通信新技术大会
华为钱包8周年邀你体验NFC碰一碰 快捷省心乐享一夏
828一起畅玩!Mac和低配电脑玩家有福了!无需下载即可玩《黑神话:悟空》
淘云“智”造 “淘”出新未来 阿尔法蛋家族扮靓世界机器人大会
亿万克邀您共赴数博十年之约,下一站:贵阳!
从传统到智能:中关村科金引领跨境电商客服系统升级
携手攀登安全“芯”高地!2024紫光同芯合作伙伴大会安全芯片创新应用论坛圆满落幕
科技与建造协同发展,中建海龙以C-MiC建筑技术打造智造名片
加速AI规模应用,释放企业新质生产力,IBM中国企业级AI巅峰论坛成功举办
数转赢市场,就来828!华为云828营销季重磅启航
心言集团“心元大模型”入选“AI产业创新场景应用案例”
童程童美:校外科技素质教育要成为校内学习的补充
深度融合意图框架和实况窗,鸿蒙原生版出行导航应用让出行更智能,近80款已上架
短剧热潮持续,百度的进击与野望
云原生与AI融合持续深化,华为推动全球智能化新浪潮
惆怅写不出好剧本的影视行业,不如学学《如鸢》
光伏星“领航员”阚辉征:点亮敬老院的每一个朝夕