5道高考题,讯飞星火X1升级版和DeepSeek谁才是当仁不让的数学状元?

2025-03-07 11:18:36     来源:

3月3日,科大讯飞完成星火深度推理模型X1的全面升级,并基于星火X1首发星火医疗大模型X1,在诊断推荐、健康咨询等医学任务上效果领先。

作为国内首个,也是迄今为止唯一一个采用全国产算力训练的深度推理大模型,星火X1在模型参数量较少的情况下,实现了数学能力与DeepSeek R1和OpenAI o1对标;讯飞星火X1的升级,表明基于国产算力训练的全栈自主可控大模型具备强大实力和创新潜力。

测试集合来源:中文测试集来自2023/2024年各学段考试真题/模拟题/竞赛题,英文测试集来自AIME 2024/2025和MATH 500竞赛集

我们在星火X1升级后的第一时间,将其数学能力和DeepSeek做了简单对比,用的5道测试题含金量颇高,全部来自《2024年全国统一高考数学试卷(新高考Ⅰ)》,两大模型答卷情况如下:

小提示:由于高考试题较难,大模型给出的解题过程往往很长,用截图的方法很难一次截取完整,需要两次,因此下面给出的同一问题的解答截图。

题目1:

甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后轮次中不能使用).则四轮比赛后,甲的总得分不小于2的概率是多少?

星火X1解答如下:

DeepSeek R1解答如下:

星火XI开门红,先胜一局,给出了正确答案,且解题过程相当清楚。DeepSeek大意失荆州,给出了错误答案。

题目2:

星火X1解答如下:

DeepSeek R1解答如下:

这局表现整体不错,两款大模型都给出的正确答案,看来DeepSeek终于睡醒了,老虎要发威了。

题目3:

星火X1解答如下:

DeepSeek解答如下:

两大模型再接再厉,并驾齐驱,再度拿下一城。

题目4:

星火X1解答如下:

DeepSeek R1解答如下:

这是一道典型的差数列问题,两大模型均给出了准确答案,表扬!

题目5:

星火X1解答如下:

DeepSeek解答如下:

星火X1解答正确,DeepSeek刚展现出来的猛劲似乎又过了,在一道看起来并不很难的题上栽了跟头,错失一城。

小结:

至此,笔者兴致勃勃举办的这场友谊赛暂告结束,从整场赛事的表现来看,两款大模型在解答问题前,都会进行类人思考,并将思考过程完整呈现出来,其中包括题意分析,解题过程中要用到的知识点及详细的推理逻辑等,并会在发现问题时及时反思、纠错,应该说这一功能相当有用。因为它会让用户在得到答案的同时,知其然,更知其所以然,从而举一反三,弄懂一大类题的解法。

此外支持识图解题,而且识别率超高,无论是手机拍的纸质试卷、作业,还是网上的截图,都能轻松识别并解答。两大模型的这一特点,很好地解决数学公式、图形难以用键盘输入的痛点。

只是在解题正确率方面,两大模型表现出一定差异,相比之下,星火X1的正确率要更高一些,5题全对,成为本次“摸底考试”的“尖子生”,DeepSeek则失误了两题,以一道题20分,满分100来算,此次比赛刚好及格。

讯飞星火深度推理大模型X1升级版之所以有这样的表现,或许与其此次新增的两大创新技术有关。

这两大技术一是通过高效的领域数据自动化挖掘和多类型数据合成算法,构建了海量的数学领域预训练数据,从而显著提升了基座模型的数学专业能力;

二是基于评语模型与强化学习算法,实现了大模型长思维链的激发,同时评语模型还促使大模型在推理过程中进行反思验证,进一步提升了模型在推理阶段的准确性。

 

标签:

猜你喜欢

青海移动联合华为创新RuralStar Plus解决方案荣获2025年世界移动通信大会大奖
做自己的女明星,绿源 LOOPY 联名骑行搭子给你无限力量
精致生活从“她”开始 三星AI神系列洗护产品点亮三八节仪式感
华为GigaGreen Radio荣获GSMA GLOMO“最佳移动网络基础设施奖”
华为GigaGear解决方案荣获GSMA GLOMO“最佳移动技术突破奖”
抖音电商公布九大商家扶持政策进度 2025年已补贴商家超30亿元
谁更聪明?讯飞星火深度推理模型X1升级版和DeepSeek数学能力大PK
今元橙长全新升级:破界而生,推出「生存态领导力实践」核心课程
陈旺松:以创新引领LED交通智控领域的未来
全球入选率不到10%!瓴羊Quick BI荣获2025 iF设计奖
迪洛斯人工智能签约锦江区重点项目,推动AI应用场景落地
最新推理模型 QwQ-32B 上线青云科技AI算力云,速来体验!
佳都科技变更回购用途并注销彰显发展信心 “AI+大交通”筑牢增长基石
Mac系列新品京东首发 国家补贴叠加教育优惠至高可省3500元
华为Ambient Site Enabled AN L4 荣获GTI Awards“5G-A×AI融合创新奖”
网络智能化引领未来,华为IntelligentRAN再获GLOMO殊荣
获“车路云一体化优秀服务提供商”,四维图新专业能力获行业认可
三谋这次“玩大了”!吕布扮演者时隔三十载再度披挂上阵!
传统鹤庆银器成抖音直播间爆款,离不开这位从艺47年的老银匠
解锁AI时代开会新方式,鸿蒙原生版飞书已支持AI会议智能总结
2025两会,这几个关键词关联出重要信号
中国移动携多款搭载“灵犀”终端智能体AI产品亮相MWC2025
MWC 2025:华为狂揽26项权威媒体大奖,引领极致智能新体验
“三八节”女性运动消费升温,跳伞、网球场、健身房抖音团购增长超2倍
再掀高效热潮!爱旭N型ABC组件“焕新”亮相山东展
锁定,巴塞罗那!
汉王科技墨水屏系统接入满血版DeepSeek,AI助手一键开启深度思考
TECNO 于 MWC 2025发布全新AI生态成果,引领智能科技未来
迈向全面智能化运维运营,使能新增长
MWC 2025 | 广和通赋能浙江永强实业旗下昶氪科技实现全球首款纯视觉割草机大规模商用