DeepSeek-R1 网页端稳定性测评:天工AI位居总榜第二

2025-02-17 11:43:20     来源:

近日,第三方AI评测机构SuperCLUE发布了《DeepSeek-R1网页端稳定性测评报告》,「天工AI」在第三方平台的测评中,取得了总榜排名第二、完整回复率排名第二、准确率排名第二的优异成绩。

#背景介绍

随着人工智能技术的迅速发展,推理模型DeepSeek-R1凭借卓越性能和复杂任务处理优势迅速走红。但因用户激增和外部攻击,其稳定性问题日益显现。为此,多家第三方平台推出支持DeepSeek-R1的优化服务,致力于提供更稳定、高效的体验。

为了给用户提供一份全面、客观的参考,帮助他们选择最适合自身需求的服务平台,SuperCLUE对支持DeepSeek-R1的多个第三方平台进行了稳定性测评。本次测评选择了12个第三方平台,使用20道原创小学奥数推理题来考察在各个第三方平台上使用DeepSeek-R1的实际效果,从回复率和准确率等方面进行评估,以下为详细测评报告。本次测评体验主要针对第三方平台的网页版本;当前是首次体验测评,仅代表发布时点的稳定性;后续计划对该类平台,包括网页端、API、APP、本地部署版本等进行跟进测评。

排行榜地址:www.SuperCLUEai.com

# DeepSeek-R1稳定性测评体验摘要

测评要点1:各个第三方平台使用DeepSeek-R1的完整回复率表现差异较大。

字节火山引擎(100%)、天工AI(95%)以及秘塔AI搜索、无问芯穹和商汤大装置(各90%)表现出色,稳定性优异;而百度智能云、腾讯云TI平台和硅基流动的完整回复率均低于50%,当前显示出明显的不稳定性。这一结果凸显了稳定性在平台选择中的关键作用。

测评要点2:整体来看,所有平台的准确率都相对较高,这表明 DeepSeek-R1 本身是一个非常强大和可靠的模型,能够为各种第三方应用提供较为稳定的高准确率支持。除了完整回复率低于50%的第三方平台,其他九大平台的平均准确率达到了85.76%,最高准确率达到了100%,最低准确率也有78%。

#榜单概览

完整回复率 + 截断率 + 无回复率 = 100%

完整回复率:模型给出完整回复,不存在截断、无响应等问题,但不考虑答案正确与否;再除以总题目数得出比例。

截断率:模型在回复过程中出现断开的情况,未给出完整的答案;前者再除以总题目数得出比例。

无回复率:模型由于特殊原因,如无响应/请求出错,未给出答案;前者再除以总题目数得出比例。

准确率:对于模型给出完整回复的题目,模型的答案与正确答案一致的比例;正确答案,只看最终答案,不检查解题过程。

#测评方法

1. 对于每个第三方平台,使用20道小学奥数题进行统一测试。

2. 由于测评集为推理题,输出较长,因此对于所有支持调节最大输出max_tokens参数的第三方平台,我们均将该参数调为最大,其他参数保持平台默认。

#测评结果

(1)完整回复率

字节火山引擎、天工AI、秘塔AI搜索、无问芯穹和商汤大装置的完整回复率均达到了90%以上,其中字节火山引擎的完整回复率达到了100%,而百度智能云、腾讯云 TI 平台和硅基流动的完整回复率不足50%。在截断率方面,腾讯云 TI 平台达到了95%,出现无响应/请求出错这种情况最多的是硅基流动,达到了75%。

(2)准确率

准确率统计的是在所有完整回复的题目中模型回答正确的题目占比。九个第三方平台使用Deepseek-R1的平均准确率达到了85.76%,表明 DeepSeek-R1 本身是一个非常强大和可靠的模型,能够为各种第三方应用提供较为稳定的高准确率支持。

#示例展示

题目:一只青蛙早上6点从深为10米的井底向上爬,它每向上爬2米,因为井壁打滑,就会下滑0.5米、下滑 0.5米的时间是向上爬2米所用时间的二分之一。6点 12 分时,青蛙爬至离井口 2.5米处,那么青蛙从井底爬到井口时所花的时间总共多少分钟?

标准答案:15.2 分钟(即15 分钟 12 秒)参考答案(来自模型:Gemini-2.0-Flash-Exp):

#原因分析

1. 不同平台对模型最大输出长度的限制可能是导致回复中断的关键因素之一。根据相关统计,部分第三方平台未提供对max_tokens参数的灵活设置(百度智能云、腾讯云TI平台等),这使得模型在生成较长回复时更容易发生截断现象,不可设置max_tokens参数的第三方平台平均截断率为39%,可设置该参数的第三方平台截断率为16.43%。特别是在本次实验中,由于采用了数学奥数测试集,题目复杂度较高且解题步骤较为繁琐,模型需要生成的内容长度显著增加,进一步加剧了因 token 限制而导致的输出截断问题。

2. 平台用户负载可能是影响其模型服务稳定性的潜在因素。

考虑到不同平台的用户量级存在差异,用户数量较高的平台可能因服务器负载过重而面临更高的不稳定性风险。平台服务稳定性不足,或将间接影响模型生成回复的完整性和推理速度。

# SuperCLUE结论和建议

1. 不同第三方平台在部署和运行DeepSeek-R1时表现出的稳定性存在显著差异。建议在选择平台时,综合评估其技术架构、资源调度能力以及用户负载情况,并结合自身需求(如回复率、推理耗时等指标)进行权衡。对于追求更高稳定性的用户,可以考虑用户量较少但资源分配更均衡的第三方平台,以降低因高并发导致的性能波动风险。

2. 数据显示,字节火山引擎、天工AI、秘塔AI搜索、无问芯穹和商汤大装置等平台的完整回复率均达到90%及以上,表明这些平台在模型输出完整性和可靠性方面表现优异。对于需要确保高回复率的应用场景,可优先选择这些平台作为技术支持。 在“实现通用人工智能,让每个人更好地塑造和表达自我”这一企业使命的引领下,昆仑万维及其旗舰产品「天工AI」,始终致力于将最先进的AI研究成果转化成用户喜爱的产品。未来,「天工AI」将探索DeepSeek R1模型与天工AI自研算法的深度结合,强化多模态交互(如语音、图像、视频融合)能力,以DeepSeek-R1为技术支点,撬动从个人用户到企业客户的全链条价值创造。

天工AI地址:

www.tiangong.cn

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

浪涌未来泳池机器人亮相“人工智能+”创新发展大会 展现庭院机器人赛道硬实力
开门红观世界,云畅享蛇年盛典正大开启!
来京东先人一步预约OPPO Find N5 1元锁定腾讯视频会员季卡
杭州科技七小龙WiseDiag-Z1发布,医学领域性能测试全球第一
DeepSeek加持!咪鼠科技&泰凌微联手实现智能办公快人一步!
MOVA割草机器人CTO秦岭:海门中学学霸打造下一代割草机器人
蓝瀚互动成为impact.com中国独家合作伙伴|引领中国品牌破局全球
开箱即用 攀升DeepSeek AIPC主机全新上市
千帆DeepSeek一体机首发四款机型,单机8卡即可使用R1满血推理服务!
小牛电动率先全面部署DeepSeek,智能出行进入新纪元
群核科技递表港交所,有望成为“全球空间智能第一股”
三星Galaxy S25系列新品开售,携手闪回收推出以旧换新活动
调用系统相机+隐私安全升级,鸿蒙原生版微信用「基因差异」证明自己不是安卓平替
岩土工程行业公认的智能化技术领军人物——王陶
共创新生态!宏碁服务与知名服务器厂商安擎签署战略合作
用“中国视野”,讲全球故事
贵州新闻联播报道贵州银行首批4个“适老服务网点”通过国家级认证
“尼康影像与摄影大赛”征稿时间延长
DeepSeek × 章鱼AI大模型平台,格创东智引领工业AI变革
施耐德电气:以数字化转型之钥,解锁OEM行业创新价值
魔法原子MagicBot惊艳亮相人工智能大会 以“特邀礼宾员”身份中科院院士献聘书
测测APP推出情人节特辑:用AI破解爱情难题,让浪漫更科学
黑胶豆Technics EAH-AZ100真无线耳机荣获《What Hi-Fi?》最佳高端无线耳机
云山好物团队探秘千年酒香 —— 闯王酒业溯源之旅纪实
福柱嘉溯源河南焦作温县,助力乡村振兴
瓴羊Quick Audience接入DeepSeek,营销文案创作效率提升高达3倍
筑巢引凤,打造算力应用高地!天翼云助推苏州市工业园区向新发展!
开学装备升级指南!鸿蒙原生版学习App的“效率外挂”藏不住了
魔法原子亮相“人工智能+”创新发展推进大会 成为官方指定应用人形机器人
万国数据董事长兼CEO黄伟荣膺“2024彭博商周年度人物50人”