为什么说MEMS—OXC在智算场景没有未来?

2024-12-12 23:50:11     来源:

智算中心是这一轮科技革命的算力“心脏”,更是国际科技博弈的长期焦点。智算中心建设方案,一直牵动着国人的神经。

期,OXC光交换技术在智算场景的应用,走进了大众视野。这个技术及其解决方案,撑得起智算中心网络吗?

深入技术本质、落地实践、产业进程来看,恐怕都要说一句,OXC技术在智算场景其实没有未来。

技术上看,OXC光交换技术在智算场景中会面临光电协同、不支持AI任务多对多传输等技术挑战,很难有效解决。

实践上看,当前业界仅谷歌一家商用MEMS OXC设备,而谷歌TPU集群用OXC的核心目的是为了解决Torus拓扑的可用度问题,但网络可用度的短板其实是在接入端口,OXC不解决网络可用度问题,所以实际上跟自动配线架没有本质区别。

产业上看,谷歌商用OXC全球仅此一家,根据LightCounting预测,到2029年OXC的全球市场空间约为5亿美元,其中大部分是谷歌, 产业规模仅为电交换的20分之一。

综合上述维度,不难得出结论,OXC技术在智算场景中只是配线架,无法真的规模化落地,也支撑不了超万卡集群智算中心网络。

接下来咱们就从技术的起点到产业的终点,全面掀开智算场景MEMS—OXC的面纱。

技术为起点:为什么说MEMS-OXC只是配线架

简单来说,OXC光交换技术就是在不同的光路径之间进行光信号交换。技术路径包括MEMS、DLC、和DLBS,其中,MEMS技术是目前最主流的方案, MEMS- OXC设备也是目前唯一被谷歌这一家所商用的。

但在超万卡集群的智算中心网络中,MEMS -OXC发挥的作用其实就是配线架。

我们先来看看,智算中心组网是怎么实现的。ODCC(开放数据中心委员会)发布的《AI 数据中心网络建网》报告提到,AI参数面网络有两层Spine-Leaf,以及三层CLOS架构组网,而在AI集群组网实践中,通过三层组网达到十万卡以上的组网规模。

目前,Meta、OpenAI、软等AI巨头,都是通过从两层向三层扩展的组网模式,去构建超大规模集群的。也就是在Leaf层、Spine层之外增加Core层。其中,两层组网使用的是电交换机。比如目前业界唯一的OXC商用实践——谷歌也采用的是光电混合架构。

可以看到,智算中心网络,如果采用两层组网,不需要OXC;如果是三层组网,MEMS -OXC设备在Core层主要发挥的作用是灵活配线,与自动配线架没有本质区别。

引入MEMS -OXC,不仅无法给网络带来增益,还可能制造出额外的问题:

首先,光电协同问题。

如果在第三层引入OXC光交换机,但数据中心网络底层用的还是电交换机,这就需要光电之间的协同、通信、配合,对整个数据中心网络,冲击是比较大的。

举个例子,OXC技术有灵活切换的特征,但对于整网来说,光交换机一会儿连通、一会儿断开,这就需要整个接入层和Spine层,都要随之进行策略调整。

试想一下,智算场景下的大模型训练大多采用并行训练,业务流随时变化,如果数据中心网络随时随地在进行秒级调整,那训练的可靠就很难保证了。任何一个大模型研发团队,恐怕都无法接受训练的高频中断。

其次,OXC与AI业务的适配问题。

OXC光交换技术是不支持多对多通信的,只能进行纯物理的转发。而在智算场景中,AI任务是有很多算法和算子的,不同算法的通信模式都不太一样,可能需要一对多、多对一、多对多等多种转发方式。这些算法的高效通信,OXC技术就很难满足,导致相关智算业务无法开展。

第三大问题,就是OXC的耗能问题。

OXC光交换机的插损很大,也就是信号在光折射的过程中产生了衰减。那么为了弥补OXC的插损,就不得不采用更大功率或更长距离的光模块,这又会导致能耗上升。此外,插损问题,还会导致光模块速率无法演进。

由于上述问题的存在,智算中心结合插损、功耗等多方面进行考量,算一笔综合账,就会发现MEMS-OXC设备还不如自动配线架。

产业为终点,MEMS-OXC无法形成商业闭环

MEMS-OXC不如自动配线架的另一个关键因素,就是商用前景。

我们知道,一项新技术都必须在商业市场中完成闭环,能够通过使用来回收投资,才能吸引基础设施的进一步投入,形成良循环。而OXC技术的产业化,良商业闭环是很难的。

最首要的制约,是成本。

OXC技术的落地需要光交换机的大量使用,并且所有的相关器件如光模块,都需要进行升级,这会导致前期投资巨大,综合成本高。

ODCC(开放数据中心委员会)在《AI 网络光交换机技术报告》中提出,考虑到网络系统和OCS(光交换机)本身的挑战,从端口数量需求、切换时间需求、低成本、高可靠、拓扑易于管理等维度分析,光交换机还需要优化设计以降低插损和回波损耗,以及探索与电交换机组网方案来降低成本等。

而上述投资,都需要从产业用户身上完成商业回报。但如前所说,受限于光交换技术本身的瓶颈,许多AI任务及场景是短期内难以落地的,这就导致OXC的商业不确定强。

这样综合考虑下来,就导致业界落地OXC的步伐明显冷静,基本处于观望状态。

盲目引入OXC,可能是中国智算产业一段弯路

技术不是生存在真空之中的,是寄生在人才、资金、产业、实体经济等多重因素的现实中。

中国智算产业仍处于追赶阶段,资源、人才等都相对不足,既要把握发展前景与机遇,也要面对当下生存、商业的现实挑战,甚至有的还要处理历史遗留问题。

这种情况下,如果国内智算产业将宝贵的资源,投入到并不适合用来组网的OXC身上,可能会导致一系列连锁反应。

比如产业资源的分散,智算中心建设昂贵, 而在组网规模、插损、功耗、成本等方面都没有优势的OXC设备,意味着低效投资,降低科技企业的抗风险能力。

MEMS-OXC设备在智算集群中的落地效果并不显著,解决不了网络可用度问题,引入OXC会影响到AI算力的传输与供给,进而阻碍AI训练、AI推理等业务的韧开展。

更需要警惕的是,对OXC路线的炒作,可能导致国内智算错过对其他技术路线的探索。由此带来的机会成本,是无法估量的。

所以,只能作为自动配线架的OXC,并不适合成为智算中心组网的选择,在智算场景没有未来。眼下,中国智算产业真正该做的,是把自身在成熟交换技术、现有宝贵资源、产业智能化机遇等方面的核心优势,进一步发挥好。

文章转自:脑极体


标签:

猜你喜欢

科技赋能文化传承,中影年年建设数字未来
杭州银行新一代数据复制平台 NineData 上线,助力业务稳步实现异构数据迁移
加速开拓全球业务,金柚网荣登「甲子20:2024中国科技出海领域最具商业潜力榜」
华宝新能携绿能 “赴约”| 为可可西里生态 “续航”
金柚GEO印尼公司成立:着眼于全球化视野,躬身于本土化实践
云智慧跻身2024亚太区ITSM软件市场第八,成唯一入选中国公司
华为mate70发布,光谱摄像头引人注目。看视界为您提供高光谱成像一站式解决方案
诗城镜彩·国风艺韵2024国风眼镜设计大赛决赛圆满举办
腾讯云与BeLive Technology深化合作,加速数字人在东南亚落地
Infor发布行业调研报告,揭示高效组织共同的价值驱动因素
助商家双12大卖 ,相芯AI数字人实现淘宝公域开播!
杭州铭师堂升学e网通携手教育名家,共谋新时代高中育人新篇章
让世界享受“阳光红利”! 正泰新能助力巴基斯坦屋顶光伏并网发电
双城联动 | 桥田智能获汽车装备卓越供应商奖
微步在线荣获中国通信学会科学技术奖一等奖
媒体行见证| 菲沃泰:汽车智能化为纳米镀膜带来更多市场新需求
时空壶 W4 Pro 通话互译功能上线:跨语言远程沟通的重大突破
香港《CEO资本才俊x Entrepreneur资本企业家》创刊20周年志庆
GYMGEST源动智慧余杰:科技赋能体育,助力健康中国
游戏性能再进化 ROG9独家185超高帧率轻松上传奇
科技创新助力高质量发展:党政信息化加速推进
番茄小说年度巅峰榜发布,《十日终焉》《斩神》等作品入选TOP10
带来AI健康新体验 12.12智能手表三星Galaxy Watch热销中
12.12年终好物节 AI平板三星Galaxy Tab S10系列热销中
OLED步入黄金时代 维信诺背后的科技匠心与突破力量
万科物业发布“智选”产品,“弹性定价”开创行业先河
微软张祺:《浪潮将至》是理解 AI 浪潮挑战与机遇的必读之作
创新微传感 小尺寸大作为-----记天津大学精密仪器与光电子工程学院薛茜男副教授
加速应用智能化革新,阿里云智能语音交互等人工智能类SDK已适配原生鸿蒙
“冬天就适合吃火锅”抖音播放量46亿次!年轻人爱上了时令消费