华为存储携手中科弘云发布AI推理加速方案破解长序列推理难题

2025 年 12 月 23 日，华为数据存储与中科弘云在上海练秋湖联合举办发布仪式，正式推出 AI推理加速联合解决方案。该方案以华为 OceanStor A 系列存储为数据底座，深度结合中科弘云 HyperCN 智算互联网云服务平台，通过软硬件协同创新，有效提升算力资源利用率、优化长序列推理体验，为 AI推理应用的规模化落地提供坚实支撑。

当前，AI产业发展重心已从模型训练转向推理应用，随着大模型应用场景不断拓展，Token调用量呈爆发式增长，长序列推理面临 “推不动、推得慢、推得贵”三大核心问题。同时，算力平台需适配多元存储、异构算力以及不同AI框架，叠加算力孤岛化、成本黑盒化、开发碎片化与迁移协同等复杂痛点，进一步制约了AI应用发展。

为破解上述困境，华为数据存储与中科弘云发挥双方技术优势，强强联合推出AI推理加速联合解决方案。该方案深度融合华为OceanStor A系列存储产品、华为UCM推理记忆数据管理技术以及中科弘云HyperCN平台能力，通过KV Cache多级缓存管理、秒级算力调度、分钟级大模型推理部署及全流程AI工具链，把智能算力精准输送至业务一线，为企业业务赋能。该联合方案的核心优势如下：

l 异构管理：支持平台、计算与存储的协同联动，适配英伟达、华为昇腾、寒武纪等多元AI算力，兼容MindSpore/vLLM/SGLang等主流框架，并通过Kubernetes与华为OceanStor A系列存储实现无缝对接。

l 算力调度：对算力资源进行细粒度切分与池化处理，按需灵活调度，实现资源利用率最大化；具备集群作业调度、运维监控、故障恢复等功能，支持分钟级任务恢复与系统健康监测。

l 推理加速：依托UCM将KV Cache持久化至华为OceanStor A系列存储，实现推理记忆全量保存，减少重复计算；融合Prefix Cache、GSA稀疏加速等算法，有效降低首Token时延（TTFT），让长序列推理吞吐与体验得到倍数级提升。

l 端到端AI工具链：覆盖数据管理标注、算法开发、大小模型训练推理、智能体开发全流程，支持传统机器学习与深度学习开发，实现AI资产的统一建设与集中管理。

经过实测，在智能问答场景中，该方案实现TTFT降低57.5%，且序列长度越长，TTFT降低效果越显著；在长文档推理场景中，结合GSA稀疏加速算法，当序列长度为39K时，并发能力提升86%，推理吞吐提升36%，大幅提升推理效率与体验。

目前，该联合方案已在能源电力、智能制造、国家实验室等关键行业启动试点应用。未来，华为将与中科弘云持续深化战略合作，聚焦技术创新与产业需求融合，助力更多企业加速数智化转型步伐。

中科弘云是由中科计算技术西部研究院孵化的国家高新技术企业，业界领先的企业级智算云平台软件和服务提供商，北京市AIGC产业链算力层“专精特新”企业。中科弘云拥有涵盖异构算力调度、全流程算法开发工具链和企业级智能体平台的全栈智算云平台解决方案，已服务制造、能源、电力、交通等关键行业的上百家头部客户。

华为存储携手中科弘云发布AI推理加速方案破解长序列推理难题

相关阅读

猜你喜欢

热点图片

要闻