刘轻舟介绍,随着新能源智能车企的快速发展,海量样本数据大模型训练成为车企发展的必需业务场景,也是智能车企发展的关键。重庆移动聚焦车企普遍关注的先传后训方式导致算力资源利用率低、敏感数据出园区导致安全担忧等痛点,携手华为推出了智算互联网络解决方案。该方案基于新一代路由器,创新性采用弹性存算拉远架构,并结合广域RDMA无损网络技术,兼顾了数据安全、海量数据传输效率及算效提升的诉求。
刘轻舟指出,考虑到业务发展初期,运营商的网络建设成本及客户大模型计算成本,重庆移动首创提出了广域RDMA+G-SRv6的无损网络融合方案,采用RDMA、深度负载分担、智能流调度和逐流反压等关键技术,同时利用客户侧已有的标准存储,确保客户数据在智算中心不落盘,通过新一代智算设备互联实现网存协同。该方案面向客户提供确定性、弹性、可信智算互联专线及智算算力租赁服务。
存算拉远架构创新:存算拉远架构将原始数据留存在客户本地,避免传输过程数据泄露对企业造成的损失。在智算中心计算时,采用边传边训的方式,极大降低了算卡空闲率,缩短训练整体总耗时时间,有利于智算算力服务的普及和推广。
智能调度技术创新:智算互联网络解决方案通过带宽有效利用率提升及时延、丢包的优化来确保高吞吐率,降低计算服务器的等待时间,提升智算中心的整体算效。同时,还基于多种IPv6+技术,实现不同网络路径的负载均衡精度控制在5%以内,带宽利用率提升到90%以上,显著提高了网络传输效果。
通过一系列的技术创新,重庆移动存算拉远项目在超长距离网络中,训练效率提升近1倍,月度迭代训练任务数提升近70%。极大解决了算力空闲等待时间长的问题,大幅降低企业使用大模型训练的成本,为高效算力服务的推广,加速普惠算力服务千行百业贡献了重要力量。
展望未来,重庆移动将持续携手产业伙伴,打通计算、网络、安全等产业,基于算存模式,推动关键技术的深度融合与创新,不断打造更高质量的智算专线,实现跨通信、计算为一体的协同运作,提高整体产业的竞争力。