又一权威榜单发布!腾讯云知识引擎等产品位列DeepSeek-R1性能评测TOP3

2025-02-26 17:03:31     来源:

近日,由中国软件评测中心人工智能部组织的DeepSeek-R1性能综合测评,对国内外十余家平台的服务效果进行了全方位评估。此次测评涵盖了20道代码题及四项长推理任务,从完整回复率、截断率、准确率、推理深度、吞吐速率以及token消耗等多维指标进行对比。测评结果显示,各平台在答案正确性上总体表现相近,但在响应速度、推理深度及多模态功能支持等方面则呈现出明显差异。

以下为测评内容详情:

DeepSeek于今年1月20日发布开源R1版本大模型,性能对标 OpenAI o1 正式版,自问世以来凭借低训练成本和国际领先的性能引发全球热议。各大云服务商、芯片厂商等第三方服务商陆续上线 DeepSeek R1 服务。由于各平台技术实力、资源投入以及优化策略存在差异,DeepSeek的部署效果参差不齐,在功能设置、用户体验和模型适配程度上各有不同。为深入了解各平台提供服务的DeepSeek的性能,中国软件评测中心人工智能部选择十余家国内外服务的厂商开展了全面评测。

一、代码测试:客观分析结果

为确保测评结果的客观性,本次测试选用了20道代码题,涵盖不同编程领域和难度级别,测评所部署DeepSeek R1模型第三方平台的结果差异性,并从完整回复率、截断率、无回复率、准确率、吞吐量等方面进行分析。测试基准主要包含以下关键指标:

1.完整回复率:指模型能完整回答代码题的比例;

2.截断率:即模型回答过程中出现内容截断的比例;

3.无回复率:表示模型在规定时间内无法给出任何回复的比例;

4.准确率:衡量模型回答的正确性;

5.吞吐量:指单位时间内模型能处理的任务数量,反映模型的处理效率和性能稳定性。

图1: 第三方平台DeepSeek-R1稳定性评测总榜

随着 DeepSeek R1 部署时间增长,各厂家线上平台的 DeepSeek R1 表现逐渐趋同。以纳米 AI 为例,短短三天就大幅缩小了与头部厂家的差距,在答案正确性和思考过程方面都有不错的表现。在本次代码测试能力评估中,十二家平台最终都达到了良好水平。

为测试不同平台在不同时间段的使用效果差异,选取一个代码题,以两小时为一节点,共测四次。其中,纳米AI、POE、天工AI推理反应快,讯飞开放平台、派欧算力云、POE推理能力强,POE、纳米AI、秘塔AI速度快,但无问芯穹、天工AI以及百度智能云在下午4:30的测试时间段上出现了截断以及未回复的情况。

图2: 各平台在不同时间段的使用效果

为进一步体现平台间的具体差异性,我们进一步采用具有较长推理过程的算命问题展开探索,以求对比DeepSeek R1在各平台上部署使用效果。

二、赛博算命:趣味探索部署效果

在这一环节,我们精心设计了四个别具一格的测试题目,旨在全面检验各模型的能力。

1.经典台词问答:赵丽蓉老师在小品中的经典台词“宫廷玉液酒”,其下一句是什么?

2.网络旧梗回顾:网络曾经风靡一时的“不要迷恋哥”,下一句是什么?

3.汉字识别:有一个左右结构的汉字,左边是“木”,右边是“乞”,请直接回答这个字。

4.赛博算命:请扮演一位资深命理师,你对《穷通宝鉴》《滴天髓》《三命通会》《子平真诠》《千里命稿》《五行精纪》等命理典籍熟读于心。现在请根据我给出的出生信息,进行专业的八字分析:出生时间为1993年11月07日13:33,性别为男,重点分析其人品、财运和婚姻状况。

测试过程中,重点关注以下评价指标:推理时间、推理字数、总字数、推理字数占比、吞吐速率以及回答的正确与否(比率)。其中,吞吐速率反映平台的部署效果,推理字数体现模型的深度思考能力,推理时间关乎实用性。

经过测试,各模型在这四个问题上的表现与之前代码能力测试的结果相似。多数平台能够迅速且准确地找到答案,然而,无问芯穹、POE、秘塔 AI 搜索以及天工 AI 在回答过程中出现了不同程度的错误。

图3: 测试准确率

图4: 第三方平台DeepSeek-R1性能评测总榜

在使用各平台的过程中,除了响应速率和吞吐量存在差异外,不同平台的推理能力也各有千秋。以百度智能云、讯飞开放以及火山引擎这几个平台为例,它们在处理相同问题时,推理字数占比均为60%以上。

图5: 总时间及吞吐率

图6: 推理字数

三、用户体验感分析

为深入了解各平台的线上版本用户使用感,分析平台便捷性、功能的多样性程度,我们从联网、文件上传、清除上下文、语音输入、上传图片以及模型输出速率等关键功能进行分析。综合测评分析火山引擎、百度智能云、腾讯云大模型知识引擎等平台综合评价较高POE在功能性上更胜一筹,不仅能够支持语音输入,还能够进行文件上传;仅有秘塔AI、腾讯云大模型知识引擎两家支持图片上传。

图7:用户体验性测评汇总表

四、结果分析

1.各平台正确率区分小,性能的资源效率差异较大

各平台在正确率上没有较大的区分,但在深度思考时间以及吞吐速率的表现却大相径庭。火山引擎、纳米AI搜索等平台在既保证了准确率的情况下,吞吐速率也较快。无问芯穹、百度智能云、讯飞开放等平台虽正确率较高,但吞吐速率较低,用户体验受限。以无问芯穹为例(硅基流动平台无响应),吞吐速率仅为9字/秒,尽管能够得到较为准确的答案,但是在使用体验上很是卡顿,甚至会出现截断的情况;POE平台以33.78字/秒的吞吐速率领先,但正确率仅50%;

2.基础代码任务中表现差异

火山引擎、讯飞开放等代码任务能力较强;硅基流动与百度智能云在代码任务中出现少许截断或未回复情况。

3.长推理任务的深度思考能力分化明显

百度智能云、讯飞开放、火山引擎等平台的生成内容的总字数都接近三千字,其中推理字数占比分别达到68%、69%以及60%,展现出更强的逻辑延展性,而纳米AI等平台仅能提供浅层推理,反映出各平台在深度思考能力上的差异。

五、深度思考能力差异性解析

长推理任务的深度思考能力差异背后,隐藏着一个容易被忽视但十分关键的因素——token值的消耗。在自然语言处理中,token是文本处理的基本单位,模型处理文本时会根据输入和输出的token数量来消耗资源,这直接关系到成本和使用体验。由于不同平台在模型架构、优化策略等方面存在区别,回答相同问题所耗用的token数量差距显著。

对于用户而言,平台的响应速率和吞吐量固然重要,但每次问答所消耗的token值同样不可小觑。token值消耗直接影响使用成本,如果在频繁使用的情况下,token消耗过大,无疑会增加用户的使用成本。因此,在选择平台时,用户有必要综合考虑这些因素,权衡不同平台在功能表现与token值消耗之间的平衡,从而选择最适合自己需求的平台。

后续不断完善测评内容,将对更多服务商进行API、私有化部署等测评,敬请关注!

联系人:沈老师

电话:18910748987

 

标签:

猜你喜欢

三星Galaxy S25+:超越期待的旗舰手机 智能体验全面升级
成都双流机场T1航站楼焕新,川航抖音直播推200元起机票次卡
MiniMax成立智能硬件产业创新联盟,以开源开放繁荣全球AI生态
抖音春节主题纪录片《四海同春年味纪》圆满收官,正片播放量破亿
5G-A与AI融合创新:MWC 2025揭秘移动AI未来图景
携手土耳其知名体育俱乐部 智能家居领导品牌追觅科技开启全球化新征程
老工业区爆发新生命力,酒仙桥首个“智算科技公园”基础设施落成
为生活添彩 为穿搭增色 与三星Galaxy Z Flip6共赴春日之约
山海Cerakey纯色陶瓷键帽:极简主义中的永恒美学
民企全面拥抱DeepSeek 《恒友汇嘉年华》携清华大学人工智能菁英解码AI平权
天虹选择华为云昇腾AI云服务,基于DeepSeek展开业务创新
美的小家电“365天只换不修”服务再升级,解码背后的“用户思维”
三星推出全新消费级固态硬盘9100 PRO 迈入 PCIe 5.0 新时代
首都在线发布DeepSeek一体机,赋能千行百业智能升级
快讯!基于满血版DeepSeek-R1+华为云Stack山西煤炭工业互联网平台成功部署应用
安馨电首个光储充光伏智能充电车棚在奉贤区南桥镇正式启用
国家工信部举行国家高新区发展新闻发布会:用“一个指南、一套体系、一批经验”,加快推进高标准数字园区建设
米尔肯研究院重归香港,举办第二届全球投资峰会-旨在衔接国际金融市场
联想京东超级品牌日多校联动 为AI焕新 全国巡补
普渡机器人PUDU SH1落地日本龙宫城温泉酒店,助力清洁效率提升超80%
当“她营销”陷入标签困局:ubras隐形支撑 从“仅她可见”到“共同关切”的善意破局
用WiFi万能钥匙连接公共WiFi 降低潜在网络风险
BYDFi携手Safeheron即将推出MoonX 打造Meme交易最安全阵地
百度短剧:生态赋能下的行业新航向——从流量盛宴到长效价值重塑
美图公司旗下WHEE登上App Store图形与设计分类榜第一
深化合作!大族机器人携手长荣科,共同助力制造业转型升级
MongoDB宣布收购Voyage AI,助力企业构建可信赖的AI应用程序
周口市举办科技教师人工智能技能提升培训会,中国软件行业协会NCT青少年编程能力测试参会亮相
三星Galaxy Buds3系列深受学生党青睐 新学期入手太超值
鸿蒙原生版WPS体验升级:一键登录+跨端创作定义全场景办公