浪潮信息元脑R1服务器支持开源框架SGLang,单机DeepSeek 671B并发过千

2025-02-26 18:21:37     来源:

浪潮信息元脑R1推理服务器已完成对开源框架SGLang最新版本的深度适配,成功实现在单机高性能运行DeepSeek R1 671B模型时可最大支持超过1000路的用户并发访问。

DeepSeek R1参数量达到6710亿,采用了MLA注意力机制和共享专家、路由专家共同组成的混合专家(MoE)架构,其创新的模型架构也带来了在推理服务上的性能挑战。浪潮信息团队从AI服务器和推理框架入手开展了协同优化工作。

元脑R1推理服务器NF5688G7原生搭载FP8计算引擎,针对DeepSeek R1 671B模型部署速度快且无精度损失,1128GB HBM3e高速显存满足671B模型 FP8精度下不低于800GB显存容量的需求,单机支持全量模型推理情况下,仍保留充足的KV缓存空间。显存带宽高达4.8TB/s,完美契合DeepSeek R1模型"短输入长输出、显存带宽敏感"的技术特征,在推理解码阶段可实现极致加速。在通信方面,GPU P2P带宽达900GB/s,保障单机部署张量并行最佳通讯性能。

SGLang是新兴的开源推理框架项目,其得到活跃的社区支持,并在工业界获得了广泛应用。SGlang的核心特性包括:快速的后端运行时、灵活的前端语言、广泛的模型支持等。尤其值得关注的是,SGLang针对MLA注意力机制开展了针对性的工程优化,并在框架上对MoE架构的推理做了优化设计。SGLang也是最早适配DeepSeek v3和R1的优选推理框架之一。

目前,元脑R1推理服务器 NF5688G7已完成SGLang最新版本 0.4.3的适配优化工作。通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践,在元脑R1推理服务器 NF5688G7上运行DeepSeek 671B R1模型,成功实现了单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现。

单路并发性能测试日志,根据TPOT换算用户解码性能为33.3 tokens/s

DeepSeek R1 671B是一个稀疏度较高的MoE架构模型,具有模型参数量大、计算量小的特点。和Dense模型相比,在满足KV cache的显存占用的前提下,可以支持更高的并发访问需求。实测数据表明,基于单台NF5688G7,在使用DeepSeek R1进行带思维链深度思考的短输入长输出的问答场景下,使用100/1000作为输入输出长度,实测在单个用户并发时的解码性能为33.3tokens/s;在16个用户并发时,每个用户有约20 tokens/s的解码性能;在64个用户并发时,每个用户有约10.4 tokens/s的解码性能。而在使用1024个用户并发访问的极限测试时,单台NF5688G7实现了3975.76 tokens/s的吞吐性能,可以满足超高并发场景下多用户使用需求。

1024路并发性能测试日志,测试使用了1000/1000的输入输出长度,实现了3975.76 tokens/s的总设备吞吐

浪潮信息团队正与业内团队密切合作,在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力,旨在为用户带来高性能、高效稳定、性价比高的DeepSeek大模型部署服务方案,助力大模型快速落地应用。

浪潮信息是全球领先的IT基础设施产品、方案和服务提供商,通过发展新一代以系统为核心的计算架构,打造开放、多元、绿色的元脑智算产品和方案。浪潮信息致力于AI计算平台、资源平台和算法平台的研发创新,并通过元脑生态携手领先伙伴,加速人工智能的创新和应用落地。

 

标签:

猜你喜欢

谁将是2025 AI战神?宏碁暗影骑士·擎50系新品碾压级上新!
泸州发展控股集团携手杭州“六小龙”云深处科技,共启发展智能新篇
标普全球发布《可持续发展年鉴》:宏碁位列前5%
闪念贝壳 AI 语音笔记如何助力高效工作与学习
圣元优博瑞霂奶粉联合妈妈网打造母婴营销标杆案例,以真实加持信任
超百家伙伴参与超算互联网DeepSeek“AI加速计划”
​湖南首个城市级DeepSeek应用落地长沙 万兴科技百万年薪抢滩人才市场
超百家伙伴参与超算互联网DeepSeek“AI加速计划”
三星Galaxy S25+:超越期待的旗舰手机 智能体验全面升级
成都双流机场T1航站楼焕新,川航抖音直播推200元起机票次卡
MiniMax成立智能硬件产业创新联盟,以开源开放繁荣全球AI生态
抖音春节主题纪录片《四海同春年味纪》圆满收官,正片播放量破亿
5G-A与AI融合创新:MWC 2025揭秘移动AI未来图景
携手土耳其知名体育俱乐部 智能家居领导品牌追觅科技开启全球化新征程
老工业区爆发新生命力,酒仙桥首个“智算科技公园”基础设施落成
为生活添彩 为穿搭增色 与三星Galaxy Z Flip6共赴春日之约
山海Cerakey纯色陶瓷键帽:极简主义中的永恒美学
民企全面拥抱DeepSeek 《恒友汇嘉年华》携清华大学人工智能菁英解码AI平权
天虹选择华为云昇腾AI云服务,基于DeepSeek展开业务创新
美的小家电“365天只换不修”服务再升级,解码背后的“用户思维”
三星推出全新消费级固态硬盘9100 PRO 迈入 PCIe 5.0 新时代
首都在线发布DeepSeek一体机,赋能千行百业智能升级
快讯!基于满血版DeepSeek-R1+华为云Stack山西煤炭工业互联网平台成功部署应用
安馨电首个光储充光伏智能充电车棚在奉贤区南桥镇正式启用
国家工信部举行国家高新区发展新闻发布会:用“一个指南、一套体系、一批经验”,加快推进高标准数字园区建设
米尔肯研究院重归香港,举办第二届全球投资峰会-旨在衔接国际金融市场
联想京东超级品牌日多校联动 为AI焕新 全国巡补
普渡机器人PUDU SH1落地日本龙宫城温泉酒店,助力清洁效率提升超80%
当“她营销”陷入标签困局:ubras隐形支撑 从“仅她可见”到“共同关切”的善意破局
用WiFi万能钥匙连接公共WiFi 降低潜在网络风险