华为云发布EMS弹性内存存储服务,打破AI内存墙

2024-06-22 13:55:12     来源:

6月21日,在华为开发者大会2024上,华为云CTO张宇昕以“AI Native的华为云,系统创新 X 服务重塑,赋能万千开发者”为主题发表演讲,全面介绍了华为云如何通过“为AI” 进行全栈系统创新,同时“用AI” 重塑系列云服务,从而打造AI Native的云。并正式发布了华为云存储重磅新品EMS弹内存存储服务。

张宇昕表示,目前AI业界普遍认为显存容量和带宽不足已经成为限制AI训练和推理过程中算力发挥的关键障碍,这就是业界常说的AI内存墙难题。华为云为解决该难题,首创EMS弹内存存储服务,在NPU计算层和持久化存储层的两层架构之间增加弹内存存储层,成功打破AI内存墙,实现显存按需扩展。目前EMS弹内存存储服务已经在华为内部IT系统和多个行业核心业务系统得到应用。

华为云CTO张宇昕

据相关统计数据,显存容量增长速度远远落后于大模型存储需求的增长速度。如下图所示,典型的Transformer大模型的参数量每两年以240倍的速度增长,而业界典型的AI NPU卡的显存容量仅每两年翻两倍。这种大模型参数量与AI NPU卡显存容量增长速度之间的巨大差距,意味着在训练和推理时客户往往不得不采用堆砌AI NPU卡数量的方式获得更大的显存容量,这将造成大量昂贵AI算力的浪费,增加了客户的AI训练和推理的成本。

图:SOTA 模型的参数量增长趋势和 AI 硬件显存容量增长趋势

本次华为云发布的EMS弹内存存储服务,基于Memory Pooling专利技术,将显存与DRAM进行池化和整合,把传统的云基础设施“计算-存储”分离池化的两层架构升级为“计算-内存-存储”分离池化的三层架构。AI算力和内存(显存+DRAM)进行了解耦,实现了“显存扩展”、“算力卸载”、“以存代算”三大功能来打破AI内存墙。

大模型训练通常采用参数并行,将模型参数分别存到多张卡的显存中。在使用EMS后,通过“显存扩展”功能我们将模型参数进行分层存储,频繁更新的参数存储在显存中,不频繁更新的参数存储在EMS中,这样就不再需要依赖增加AI加速卡来堆砌显存容量了。华为云只用了不到一半的NPU卡就存下了盘古大模型 5.0,NPU部署数量降低了50%。

大模型推理过程包括模型计算和KV相关的计算,其中模型计算显存占用较小,但是算力需求却很高。与之相反,KV相关计算的显存占用很大,AI算力需求却并不高。这两种计算过程对算力和显存容量的不同需求造成AI NPU卡不能很好地发挥能。例如,华为的一款NPU卡在运行大模型推理时本来只能支持8个并发。我们将KV相关计算任务卸载到EMS中,而模型计算仍在NPU中进行。单卡的并发提升到了16个,AI推理能提升100%。

最后是以存代算。大模型推理中为了节省显存,历史对话的KV计算结果都不会保存,后续推理都只能重新计算KV,导致新推理请求的首Token时延超过1秒,影响了推理体验。现在,通过EMS对显存进行扩展后,我们可以将历史KV计算结果保存在EMS中,供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内,降低了80%。

EMS弹内存存储是业界云厂商中首个在实际场景中得到使用的内存存储服务,通过Memory Pooling专利技术实现了“显存扩展”、“算力卸载”、“以存代算”三大功能来打破内存墙。不仅如此,面向整个AI场景,华为云还形成了EMS弹内存存储+SFS Turbo弹文件存储+OBS对象存储的AI-Native智算存储解决方案,实现万亿模型存的下,训练任务恢复快,海量数据存的起,全面引领AI时代数据存储变革,帮助客户构建AI Native的基础设施。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

DTW 2024 | 华为联合TM Forum举办绿色发展论坛,加强产业协同,推动网络绿色化转型
十方融海荣获2023快手·磁力引擎年度行业先锋奖,科技教育实力再获行业认可!
“创想无限” 华为开发者大赛2024正式启动
华为云打造下一代云基础设施CloudMatrix,开启智能算力新纪元
自己的降落伞自己先跳 华为云用盘古大模型重塑云服务
腾讯元宝AI解析能力升级,支持千万字超长文处理
腾讯元宝AI解析能力升级,支持千万字超长文处理
汽车座舱热管理新纪元:爱尚家科技EAC2024现场展现创新实力
万数汇海,同创共赢,openGauss Developer Day 2024圆满举办
三度携手美洲杯,布局全球王牌之队,TCL电视销量蝉联全球第二
华为开发者大会2024今日召开,HarmonyOS NEXT开启AI大模型时代OS新体验
TCL连续八年上榜谷歌x凯度BrandZ中国全球化品牌50强
贝昂智能冉宏宇博士在ICOPS2024会议上分享等离子体技术应用
华为云张平安:昇腾AI云服务持续优化,加速AI大模型的开发
华为云发布盘古具身智能大模型,推动人形机器人技术再升级
华为云盘古大模型5.0重塑工业设计,让所想即所见,所见即所得
华为发布开发者布道师计划,3年发展超过3000名华为开发者布道师
华为云盘古气象大模型再升级,挑战公里级区域预报
热轧生产线年收益增9000万!盘古大模型对这家钢铁集团做了啥?
华为云盘古媒体大模型,让视频制作效率提速
华为云盘古大模型5.0 让更多车辆都能用得上智驾
鸿蒙先锋共筑星河 | “南方基金App”全面拥抱HarmonyOS NEXT
鸿蒙先锋共筑星河丨北大学子开发鸿蒙原生应用,用代码编写智慧校园
华为云重磅发布盘古大模型5.0,加速大模型行业落地
自主设置,通话无忧!天翼防骚扰护您通讯安全
2024华为云中企出海全球峰会开幕!AIGC“真人”营销视频创作神器万兴播爆亮相
我国生成式人工智能市场规模约14万亿,大模型商业化落地潜力巨大
这一次,钢铁侠的Jarvis要跑到设备上
学而思与全球知名科普出版品牌DK达成合作,共创优质科普内容
凯捷咨询携手华为云发布数字化零售解决方案,共创数智零售新生态