谷歌TPU革新网络结构,搅动AOC/DAC/光模块市场
谷歌推出AI模型Gemini,与OpenAI的GPT4竞争。
其实最终看下来,重点不在于Gemini到底比GPT4强还是弱,至少Gemini目前来看具备了和GPT4同台竞技的档次。
互联网巨头的军备竞赛,关键在算力。而算力的核心(占投资90%)的英伟达GPU芯片毛利率高达74%,并且还缺货,配套的800G光模块因为电芯片供应紧张,同样缺货。
这种情况下,让各个互联网巨头进退两难,一方面要加大投资避免落后,一方面希望降低算力成本避免被GPU和800G光模块卡脖子。
谷歌Gemini的推出,关键是给亚马逊/META/腾讯/字节等一众互联网公司趟出一条道路,“硬件不用英伟达也能战”!
谷歌过去的形象一直是,虽然商业化能力不行,但行业趋势的把握一直是遥遥领先。
AI的快速推进,一定需要算力打骨折来支持。
目前谷歌OPU全方案成本比英伟达方案降低50%以上,主要通过TPU/交换机/光模块三个地方降本。
谷歌TPU架构主要变动有以下3个:
1.第五代TPU:训练性能提高2倍,推理性能提升2.5倍,成本降低50%!
2.采用OCS光交换方案,传输部分整体成本降低,且传输骨干网后续不用升级
3.架顶交换机和上层汇聚交换机采用OCS光交换机,则下图中1的连接将会替换为56G和100G定制有源光缆,图中2部分将不再需要使用昂贵的800G光模块替代为有源光缆,光连接器总成本降低70%以上。
谷歌TPUv4内存带宽为1200GB/s,Slice之内的片间互连(ICI)通过六个50GB/s链路提供300GB/s的数据传输速率,假设使用6个50G光路来传输到柜顶OCS交换机。而英伟达H100 单卡也最高支持600GB/s的数据传输速率,所以需要使用昂贵的800G光模块,之后分成8路100G光路经过光纤传输。
TPU集群方案堪称集中力量办大事、分布式技术的典范,假设2个TPU的算力和与1个H100相当,而同样传输距离的12个56G光模块价格仅为1个800G光模块的1/2不到,据业内人士透露谷歌还使用了长飞旗下长芯盛生产的有缘光缆来替代光模块降本,那单位算力TPU光连接件总成本降为英伟达方案的1/3。
总结 用成熟的标准化产品太替代相对先进的800G光模块,谷歌TPU方案大幅减少了800G昂贵光模块的使用,并大幅10倍以上增加了相对便宜的低速率有源光缆的使用,整体降低了光连接器件总成本60%以上。
顶级土豪800G光模块玩家掉落了一点尘埃,落在卑微的AOC有源光缆行业上成了一座幸福的山。
在过去AOC有源光缆可谓是一直处于一个鸡肋的地位,拼成本比不过铜连接,拼性能比不过光模块+跳线。这次随着谷歌TPU全光连接方案的推行,AOC的风终于来了。
其实通俗来说,AOC就是将光模块的主要器件在工厂和光缆预制在一起,因为预制了所以可以减少DDM和一些配套的组件,再加上工厂批量生产,减少了在数据中心光纤头被污染带来的调试成本。通俗来说AOC就是光模块的预制菜,主打性能够用/便宜。下附图为常规光模块和AOC的图示,光模块使用时需要搭配光纤现场接插使用。
下副图为谷歌TPU线路连接示意图,密密麻麻的3D结构,10倍以上的光连接器用线量。
下副图为英伟达的网络结构,相对简洁一些,光连接件单位性能强,个数少,投资大。
下图为100G光模块和有缘光缆形态差异