华为云方国伟:AI Native Cloud 全栈系统性创新,重塑云基础设施

2024-09-25 11:25:34     来源:

近日,在华为全联接大会2024(HUAWEI CONNECT 2024)期间,华为云举办以“AI Native Cloud 全新为AI负载和应用设计的云基础设施”为主题的专题论坛。论坛上,华为云首席产品官方国伟发表了“AI Native Cloud 全栈系统性的持续创新”主题演讲,详细阐述了在AI时代,华为云如何通过AI Native Cloud 全栈系统性持续创新,全面重塑云基础设施。

华为云首席产品官 方国伟

在演讲中,方国伟表示,全新一代的AI技术将驱动全行业进一步加速数字化、智能化升级已成为产业共识。随着人工智能进入大模型时代,云基础设施所面临诸多挑战。方国伟以业界趋势和华为云自身实践,总结出AI时代的云基础设施面临五大关键挑战,包括AI算力资源建设与管理挑战、极致性能与成本挑战、稳定性与快速恢复挑战、工具链完备性与易用性挑战、大模型安全风险挑战。

针对云基础设施面临的五大挑战,为了更好的支撑AI模型和应用生于云、长于云。方国伟提出,华为云AI原生云基础设施围绕五大方面持续创新“全景算力、高性价比、稳定可靠、开箱即用、安全可信”。

· 全景算力

为了更好的满足新一代模型对于训练算力的规模倍增需求以及未来推理场景可能无处不在的前景。华为云的云基础设施,主要向两个方向演进:

1、 华为云将算力平台从传统的单体、通用算力,升级到基于CloudMatrix的下一代AI原生云算力平台,通过全栈系统性设计,突破算力边界和网络边界,为客户提供一切可池化、一切皆对等、一切可组合的云矩阵算力。CloudMatrix采用新型高速互联总线,将CPU、NPU、DPU、存储和内存等多种资源完全对等互联起来,实现从集群到数据中心级的资源池化,满足AI时代对于算力的大规模、高效稳定、弹性灵活的需求,并能为业务带来明显的效率提升。

2、 进一步推进全场景分布式云的构建,让算力可以无处不在,并实现全局调度。从客户访问的时延维度角度,华为云通过部署中心Region、区域IEC和客户本地CloudPond系列化的云基础设施,提供少于30ms、10ms、5ms的接入时延,为企业打造满足不同场景业务需求的“确定性时延”体验。

·高性价比

单个GPU/NPU的显存有限,是业界公认的影响大模型训练和推理效率的一个难点,即业界的内存墙难题。华为云首创EMS弹性内存存储服务,在NPU显存和持久化存储两层间增加弹性内存存储层。基于Memory Pooling专利技术,通过显存扩展、算力卸载、以存代算三大创新来打破内存墙。

1、 首先是显存扩展。大模型训练通常采用参数并行,将模型参数分别存到多张卡的显存中。在盘古大模型5.0的训练中,华为云将模型参数分层存储在显存和EMS,只用了不到一半的NPU卡,就存下了万亿参数的大模型,算力节省超过50%。

2、 其次是算力卸载。大模型推理过程中包括模型计算和KV计算,其中KV计算的显存占用很大。华为的一张NPU卡在运行大模型推理时原本只能支持8个并发。华为云将KV计算任务卸载到EMS和CPU上,而模型计算仍在显存和NPU进行。单卡的并发提升到了16个,AI推理性能提升100%。

3、 最后是以存代算。大模型推理中为了节省显存,历史对话的KV计算结果都不会保存,后续都只能重新计算,导致新推理的首Token时延超过1秒。现在,华为云可以将历史KV计算结果保存在EMS里,供后续推理直接调用。优化后推理的首Token时延降低到0.2秒以内,优化了80%。

·稳定可靠

几乎所有训练大模型的客户均会面临到大规模集群训练稳定性的问题,华为云也把它作为一个重点的难题来进行攻关。华为云昇腾AI云服务,通过搭建覆盖全链路场景的可观测性和可靠性管理方案,实现故障可诊断、可衡量、可恢复。

可诊断:可诊断全链路多部件的故障(服务器、网络、平台、作业等),支持诊断300+通用故障,100+NPU故障,50+网络故障,故障诊断覆盖度95%+。

可衡量:1分钟故障检测,5分钟故障诊断。

可恢复:故障诊断根因后,10分钟进行故障隔离和恢复,故障恢复成功率99%。全链路恢复加速,实现CKPT写入读取、图编译、建链、调度全链路优化。华为云已实现千卡集群长稳训练40天以上,故障自动恢复,无需人工介入,故障端到端恢复时长小于30分钟。下一步华为云还将持续优化,预计24年底端到端故障恢复时长将降低至10分钟以内。

·开箱即用

为了方便客户获取和使用AI算力,更好的基于百模千态进行业务创新。华为云全新升级了ModelArts Studio,聚焦优质大模型全场景性能精度提升,构建云上大模型一站式模型开发托管服务,践行大模型即服务MaaS(Model-as-a-Service)理念。

开箱即用,一站式模型应用托管服务:提供模型调优、压缩、部署、评测等全栈工具,功能覆盖大模型全生命周期,支持用户即开即用,低门槛使用各类大模型。

模型全、免配置、免调优、性能优:业界SOTA大模型覆盖度99%,预置最优超参配置,基于昇腾算子、显存优化,大模型训练与推理性能大幅提升;并围绕大模型性能与精度评价体系构建标准化自动流水线。

同时,华为云基于OBS对象存储服务之上提供了构建了实现语义向量化的知识湖存储,简化客户针对海量非结构化数据实现RAG方案的难度。基于将对象的读、写、算分离,可以把千亿级对象规模场景下的读性能,从百毫秒级降到十毫秒以内,实现大规模低延时的效果。同时,华为云把对性能要求比较高、频繁访问的索引层放在了内存层,并结合更便宜的对象存储来实现持久化层。这样通过高低结合,把整个成本做得更优,能做到50%成本降低。

·安全可信

人工智能进入大模型时代,引入了新的攻击面,平台、插件、环境、工具链等都面临新的威胁风险,结合安全权威机构OWASP的总结及华为的自身实践,从全栈和大模型生命周期关键阶段视角看大模型安全风险,总结了四大安全风险,包括:基础运行环境安全风险、训练数据安全风险、模型内生安全风险、内容应用安全风险。针对大模型四大安全风险,华为云推出4+1大模型安全解决方案:

基础环境安全:通过安全云服务,提供基础环境安全,默认合规等保三级。

数据安全:通过数据安全中心DSC和ModelArts的数据工程平台,保证训练数据防污染防泄露,推理数据隐私合规。

模型安全:通过ModelArts给模型加密,实现模型资产防盗取。

内容安全:通过ModelArts Guard,防御Prompt攻击,提供内容审核合规。

最后通过安全云脑实现一图可视,感知威胁,全局联动处置的安全运营。

最后,方国伟总结到:“华为云在过去数年中专注于云基础设施的全栈系统性创新,为即将到来的企业智能化浪潮做好了充分准备。今天,向大家分享了华为云AI原生云基础设施在‘全景算力、高性价比、稳定可靠、开箱即用、安全可信’等五个关键维度所取得的重大突破。这些创新将使企业能够将最先进的AI技术无缝集成到其核心业务中,更好支撑企业AI业务的创新生于云、长于云。华为云的愿景是让AI业务在云端蓬勃发展,为客户提供持续创新的沃土,助力客户在AI 驱动的新世界中保持领先地位。”

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

瞄准“内容+服务”做到有效规划引导,作业帮学习机上半年全网销量第一
朴牛科技荣获专精特新企业认定,引领分布式光纤传感技术创新
永信至诚「数字风洞」支撑高校新生网安赛事 NewStar CTF 2024网安新星赛开赛
盯盯拍混合组网三路记录仪Z60震撼上市,全新数字影像带来非凡体验
城市数智化创新高峰论坛成功举办:共筑城市智能体,共赢城市数智化
用当代视角解读历史,罗振宇《文明之旅》抖音播放量达1.3亿
以旧换新见效,9月上半月报废汽车回收同比增长85%,懂车帝开放申领中
健康护学,守望成长:松下空调广雅中学公益行
抖音公益开展“美好中国丰收季”活动,以数字能力助力三农发展
全球近视防控高峰论坛与中国经验分享会隆重召开——近视防控“中国经验”走向世界,助力守护全人类眼健康
《福布斯》大赞华为MatePad Pro 12.2英寸:实力亮眼,超越苹果
浪潮KaiwuDB 携手开放原子“校源行”走进江南大学
派拓网络 安全防为先 | 云原生全面守护网络安全
UPDF亮相2024云栖大会:AI重塑文档编辑体验
七牛云成功过港交所聆讯,巩固中国音视频PaaS领域前三甲地位
手掌即钥匙,安全又便捷!腾讯云助力小米智能门锁M30 Pro秒级刷掌解锁
施耐德电气携手万华化学,深挖流程工业的卓越运营价值
生活美学的潮流典范 三星AI神系列冰洗产品树立现代家居新风尚
破解AI算力瓶颈:高通量以太网ETH+协议解锁智算新动能
鸿蒙智行及运动健康等多款新品亮相华为秋季全场景新品发布会
绿智创新闪耀2024工博会,施耐德电气打造未来工业影响力
精彩早知道!相约 2024 青云科技 AI 算力发布会
颜值与实力并存 三星Galaxy Z Flip6成折叠屏手机新选择
智源研究院与百度达成战略合作 共建AI产研协同生态
AI赋能行业变革,华为云云商店助力中赋能打造数智化可信交易平台
半导体设备智能化新突破:格创东智AMS、FDC、THD全面监控方案
解疑揭秘丨超频8000MT/s究竟需要什么主板?
华为钱包“碰一碰”,“华”样假期更精彩
XR电影重磅荣誉!金梦貘·最佳XR作品提名及夺魁名单公布
通达OA助力小微企业成长新策略-央企贡献,福利升级!