构筑“腾讯云智算”品牌:智能高性能网络IHN为AI而生

2024-09-26 20:03:16     来源:

大模型、AI、算力,是科技行业当前最热门的词汇。大型科技企业纷纷入局,腾讯作为AI Infra的主流玩家,在9月5日开幕的2024腾讯全球数字生态大会上发布了新一代大模型“混元Turbo”,以及AI Infra品牌“腾讯云智算”,加速释放AI生产力。

其中,腾讯云在大会的“AI基础设施专场”重磅发布了智能高能网络IHN。作为“腾讯云智算”的网络底座,IHN为“腾讯云智算”的卓越能提供了坚实的基础。腾讯云网络VPC产品负责人王营对IHN进行了全面解析,深入分享了IHN产品的网络架构和技术创新。

算力集群依赖网络

2017年Transformer时代开启,AGI展现出变革经济社会的巨大潜能,各类基于大模型的AI应用,例如聊天机器人、文生图、文生视频纷纷面世。大模型从GPT3.0逐步迭代至GPT4,集群规模也从百卡、千卡、万卡逐步提升至十万卡,展现出AI对算力的强劲需求。

数据显示,在过去四年间,推理算力提升了32倍,训练算力提升了16倍,两者均呈现出陡峭的增长曲线。然而,相比之下,网络带宽的增长仅为4倍,这一增速远不及算力的飞跃,导致了网络带宽在支撑快速增长的算力能时显得力不从心,陷入“拖后腿”的尴尬境界;此外随着芯片厂商加大GPU布局,智算中心内出现了越来越多来自不同厂商、不同型号的GPU,网络侧的“担子”愈加沉重,亟待支持高效的异构组网方案,提高算力能。

王营谈到了四个挑战:

一是通信带宽,AI大模型场景需要支撑PB级训练数据,GPU卡间需要频繁通信,训练过程中通信占比最高可达50%,通信带宽影响算力能发挥。

二是网络丢包,训练情况下通常使用RDMA网络进行加速数据的传输,RDMA对丢包比较敏感,根据相关研究报告,网络持续出现0.1%的丢包,可能会导致50%的算力损失。

三是网络延时,AI训练依赖的RDMA网络对延时极度敏感,不同的网络架构延时差最高能够达到5倍。

四是网络故障,大规模集群使得网络故障概率水涨船高,算力卡、光模块、线缆均会导致AI训练任务出现中断,需要从上次存档点重新训练,将造成算力的巨大浪费。

可以说,算力集群的实战表现,严重依赖底层网络能,大集群不等于大算力。

能网络IHN特征详解

面向智算时代,业界首先需要一套大带宽、低延时的无损网络支撑GPU的超强算力;其次,需要极简的运维,提供网络自愈和快速排障能力,提升训练效率;最后,需要具备超强的兼容,满足异构算力接入和上下游计算、存储协同,构建“算存网”一体化方案。

王营指出,腾讯云智能高能网络IHN是基于支撑腾讯万卡集群的星脉网络技术,打造的卓越能与创新价值的商业化产品,旨在解决传统以太网架构与算力基础设施匹配度低的难题。从架构看,腾讯云智能高能网络IHN分为四个部分:建设系统、控制系统、运维系统、业务网络。

首先是建设系统,一套千卡的GPU集群,一天的空闲最高可产生七十万元的闲置成本,可见网络搭建效率的重要。IHN提供了从建设到验收到交付的自动化建设系统,通过建模和自动化等多重手段,将千卡集群规模的建设时间控制在30天以内。

其次是控制系统。如同建设高速公路需要有信号控制系统,IHN打造的网络控制系统和端侧控制系统,可实时控制发送报文的路径和效率,提前规避在网络中出现拥塞,实现全局业务流的精准监控、决策和调度,实现分钟级的网络拥塞消除,打造“算力高速公路”。

再次是运维系统。腾讯云IHN运维系统,基于端到端全链路信息采集,实现360度立体无死角监控,支持毫秒级调度、分钟级定位故障和快速自愈。基于系统化的运维流程,配合大量的自动化排障工具,IHN可做到网络故障1分钟发现、3分钟定位,最快5分钟恢复。

最后是业务网络。IHN采用了腾讯全自研的网络设备,包括支持25.6T/51.2T容量交换机,200G/400G硅光模块。基于多轨道网络架构,实现AI流量亲和,路径延时降低40%以上。配合腾讯自研的TCCL集合通信库,实现异构并行通信,训练效率提升20%。同时兼容多个厂商、多种GPU卡,实现异构卡混合部署。

为适配不同场景下客户的需求,如产权独立、自主可控、按需订阅等,IHN支持公有云和私有云的交付形态,提供多产品深度协同,一站式的解决方案。王营透露,IHN产品已在腾讯集团内部深度使用,作为混元大模型infra网络底座,支持超万卡集群规模、多型号异构算力接入、分钟级故障自愈能力,向上支撑了超过700种集团业务。

基于在腾讯现网业务中的IHN应用,每一轮训练迭代,网络利用率基本稳定在90%以上高位,相比标准以太网架构提升了60%;通信在训练过程中占比降至约6%;各类能指标均有不同幅度的提升。

结语

面向未来,腾讯云将继续秉承科技创新的理念,持续升级AI基础设施能力。据悉,下一代IHN产品将推出单网口支持800G、整机102.4T容量的自研交换机,具备单GPU直出3.2T超节点特,并支持在网计算能力,为客户提供更高带宽、更强能的AI网络方案,成为企业拥抱智算时代的重要帮手。


标签:

猜你喜欢

星纪魅族 AR 智能眼镜 StarV Air2,提供全天候 AI 体验
老而不衰成现实?《Nature》期刊证实:青春胶囊“益好泰”是关键
星纪魅族 AR 智能眼镜 StarV View 付定破万, 打造沉浸式巨幕体验
杨浦科创集团携手华为云,共探企业出海与AI革新
华为侯金龙:积极推进构网型储能产业高质量发展,助力新型电力系统建设
具身智能“奇点”将至,Coohom Cloud为具身智能突破数据瓶颈
超第二名3000倍!华为云图引擎服务GES刷新行业记录
把直播间搬进数贸会——知识矩阵大健康内容生态“播”动全场
百信揽获2024数字生态信创领军企业与鲲鹏服务器优秀产品两项大奖
从奇幻世界,看金柚网智能员工管理系统「梧桐people」提升企业管理效率
MG动画模板免费网站——秒出PPT动画
旅行“好搭子”,买云南移动国庆流量包出游更chill
新华三参与第八届上海人工智能大会,以灵犀智算解决方案推动产业升级
全明星计划 | 毛子 × AORUS“猛男粉”定制主机:性能与颜值的硬核秀场!
文远知行Robotaxi将上线Uber!阿联酋成首个启动城市
2024未来【士】界大会:让科技创新引领产业未来
自律过十一 健康神器三星Galaxy Ring十一热销中
开创“北京模式” 引领数智生活——中国移动北京公司勇担首都通信业发展主力军
网易伏羲范长杰:群体智能引领AI通向物理世界|2024具身智能大会
华为云与香雪制药签约智慧中医诊疗大模型,广州首个华为云盘古大模型项目落地黄埔
北京超级爸爸教育科技有限公司与央视动漫集团达成联合开发合作
多项荣誉见证!树根互联推动企业数智化转型再上新台阶
2024Medtec暨国际医疗器械设计与制造技术展于9月25日盛大开幕
Elastic亮相云栖大会,在阿里云上隆重发布企业版
全线入围!联想拿下中直机关台式计算机、便携式计算机采购大单
华为云AI Native Cloud重塑云基础设施,助力企业释放AI创新潜力
助力少儿百科知识科普,“斑马知识补给站”闪耀北京最美中轴线
直击2024工博会丨施耐德电气携手日盈电子,以精益管理提升企业竞争力
华为升级多项计划,助力生态人才发展
数字人技术赋能数字经济,相芯科技亮相第三届全球数字贸易博览会!