最近,我刷到一张图,看完脑瓜子嗡嗡的。
它,小小一颗,冷静内敛,却有力量!
这是一颗被称为DPU的数据处理芯片,数智时代的核心芯片之一,速度飚到400Gbps,国内领先,堪称芯片界的超跑!
最终,还是被“国家队”搞出来了!
这颗芯片的相关消息,是从刚刚落幕的「2024中国移动算力网络大会上」爆出来的!100%真实!
我忍不住好奇起来:除了这颗芯片外,以中国移动为代表的“国家队”,这些年在五大核心技术上(芯片、计算、存储、网络、数据库),有哪些突破?在业界处于什么水平?
这五大技术可以看作是IT领域的基石,每一样拿出来都能“卡脖子”。
于是,我再次回看这届大会,发现了不少“线索”。
原来,近几年,在公众视线之外,中国移动靠着一股自主创新研发的狠劲,闷头把这五座高峰,轮番爬了一遍。
今天我们就来扒一扒,到底有哪些突破?↓
一、芯片的突破
DPU是数智化时代的核心芯片之一,必须拿下!
未来数据中心的标配是【CPU+GPU+DPU】,CPU负责通用计算,GPU负责AI加速计算,DPU则专注于数据处理。
DPU如同数据中心里的“快递员”。
不仅跑得飞快(拥有高速数据处理能力),还特别擅长打包(数据压缩)、加密(确保安全)、分类(数据筛选)以及高效配送(数据传输)。
于是,中国移动联合产业链共同打造出一款中国芯:大云磐石DPU。
这款芯片到底啥水平?
带宽达到 400Gbps,论性能,算是王炸级别!
“磐石”不止有DPU,还有服务器,中国移动一鼓作气推出了「大云磐石服务器」,其中就搭载了这颗DPU!
有人说,大云磐石服务器就像是“海王”,一机多芯,能搭载四种不同品牌的CPU。
“变芯”麻烦吗?嘿嘿,相当简单!
只需通过更换计算板即可平滑完成平台切换,磐石服务器内部构件都极为标准化和模块化,方便国产化替换、零部件能复用,成本可控。
最终,多芯异构下的磐石服务器,就成了数据中心中最狠的那个“角儿”了!
扛起各种狠活、大活儿,不在话下!
二、算力架构的突破
先看一条炸裂新闻↓
NEWS:
4 月 28 日消息,中国移动宣布全球运营商最大单体智算中心——中国移动智算中心(呼和浩特)目前已投产使用。
该中心入选“2023年度央企十大超级工程”,支持万张 AI 加速卡互联并行训练,部署约 2 万张 AI 加速卡,AI 芯片国产化率超 85%,智能算力规模高达 6.7EFLOPS。
万卡集群,如何调度?如何激发其最强战斗力?
移动云自研了超大规模高性能的异构计算架构——大云COCA2.0,能够操控不同处理器(CPU、GPU、NPU),为不同计算任务匹配最佳算力资源。
大云COCA2.0是异构计算架构,包含三大核心模块(DPU、GPU、HPN),同时支持多种指令集的CPU(X86、ARM等)。
由此,移动云完整的计算能力体系展现出来:底层是国产化磐石算网原生硬件,中间是自研的大云COCA异构计算架构,上层是自主可控的新一代云计算产品。
底座坚如“磐石”,大云COCA软硬协同,云产品托起百业千行。
三、存储的突破
在存储这块儿,移动云发布了大云天权存储2.0创新技术和企业级数据湖存储产品。
「大云天权存储2.0」包含一系列存储创新技术,其中,移动云存储团队自主研发的新一代全闪存储引擎,成为构建移动云先进存力的基石。
这块“基石”,面向多协议、百万级IO、EB级规模设计,统一存储架构,全面支撑起移动云上各项存储产品和服务。
为了飙到极致性能,“天权2.0”采用了端到端RDMA和全用户态技术栈,消除额外开销,单路时延低至150μs,端到端吞吐突破4GB/s。
面对当前AI大模型对高性能文件存储的需求,移动云依托自研「天权存储2.0」的创新能力,让文件存储的能力再次飞跃,支持百GB/s带宽吞吐,大模型训练快照秒级加载。
同时,通过自研数据链接(Bucket-link)技术,实现对象存储和文件存储间的数据高效流转。
这种能力不仅提升了大模型训推场景的文件流转效率,对于数据备份、数据迁移、跨区域数据共享等场景,也有巨大提升。
移动云文件存储系列在智算实战中,海量小文件OPS可达数十万级。
同时通过客户端缓存能力,多轮epoch训练数据加载性能提升5倍,成为大模型训练、推理的首选存储类型。
此外,移动云还发布了企业级数据湖存储产品。
该产品基于存算分离架构,内置数据加速引擎,通过缓存加速来支持各种计算任务,提升数据湖存储的性能,从而帮助企业更高效的进行数据分析和处理,释放数据价值。
四、网络的突破
中国移动在网络领域的突破,主打“算网一体化”,承载“通智边端”多样化算力,覆盖入算、算内、算间多场景连接,满足高可靠、低时延、大带宽需求。
首先看全栈信创云网络架构,其核心是移动云新一代SDN。
作为整张云网络的大脑,实现了业务面、参数面一体化管控,智算、通算一体化纳管,万卡集群多租户隔离,公有云、私有云、专属云、智算云架构归一。
同时,SDN全部组件已完成国产化适配,支持国产网络芯片可编程,支持开放白盒,保障供应链安全。
移动云构建了弹性开放的NFV平台,支持功能丰富的云原生网元,单实例百G吞吐,秒级扩缩容。
并且开放标准接口,支持第三方网元接入(FW、WAF等),功能更丰富。
在这其中,为了提高虚拟网络转发性能,基于磐石服务器+磐石DPU,移动云研发了遵循COCA架构高性能网关(vRouter),单设备吞吐>600Gbps,芯片转发时延<3μs。
面向智算集群对高性能、低延迟网络的需求,移动云推出了磐石智算交换机,这是运营商领域首款51.2T高性能交换机,支持大规模万卡集群组网。
不仅如此,为进一步优化智算网络、降低GPU空载等待时间,移动云还研发了端网一体全自适应路由协议,并主导IETF国际标准协议FARE(即全自适应路由以太网)。
交换机侧和智能网卡侧协同,采用“包喷洒”技术+乱序重排,实现逐包(per-packet)全局负载均衡,全面提升链路利用率。
最后,面向算网融合、多云协同场景,移动云又拿出了业界首个异构多算力互联产品,为用户提供灵活入算、算力互联、按需弹性、差异化的网络服务。
五、数据库的突破
移动云自研了新一代云原生数据库,包含三种产品形态:集中式、分布式、分析型。
集中式云原生数据库,好比“中央金库”,采用四元解耦架构,突破单机瓶颈,支持存算一体和存算分离双形态。
分布式云原生数据库,就像各地“分行”,实现应用无限扩展,全局事务强一致,金融级保障客户服务在线。
而分析型云原生数据库,像给客户请了个“精算师”。支持数据实时分析,使用0-ETL一键入仓,打造企业级数仓。
一圈扒下来,越扒越惊喜。
没想到,中国移动悄悄地爬过了一山又一山,五座高峰全部登顶!
登顶之后的中国移动,毫不懈怠,继续坚持自主创新的发展战略,为各行各业的数字化转型提供强有力的技术支撑。
写这篇文章时恰值517世界电信日,而今年电信日的主题为“数字创新促进可持续发展”。
这就好像是为中国移动量身定制的攀登背书,技术创新,自研为王,攻坚克难,志在巅峰…
突然间,画面感很强!