谁更聪明?讯飞星火深度推理模型X1升级版和DeepSeek数学能力大PK

2025-03-07 09:36:22     来源:

继今年1月15日讯飞发布深度推理模型星火X1后,3月3日,星火X1迎来了升级。同时基于星火X1升级版,首发星火医疗大模型X1,在诊断推荐、健康咨询等医学任务上效果领先。

作为采用全国首个、也是目前唯一一个基于国产算力训练的深度推理大模型,科大讯飞官方称,星火X1升级版在模型参数量较少的情况下,实现了数学能力与DeepSeek R1和OpenAI o1的全面对标。

星火X1升级版的数学能力到底如何,能否真的对能标DeepSeek R1,还需要我们亲自动手验证。

下面的10道试题,涉及小、初、高及奥数。本着一视同仁的原则,每题10分,满分100,以最后得分多者为胜,看看星火X1升级版和DeepSeek R1谁才是数学殿堂里的王者。

试题1:

来源:《五年级方程超难易错题

某班有学生45人,会下象棋的人数是会下围棋人数的3.5倍,两种棋都会及两种棋都不会的都是5人,求只会下围棋的人数。(设未知数并列方程求解)

星火X1

DeepSeek R1

两大模型都给出了正确答案,各得10分。

试题2:

来源:《小学奥数盈亏问题题库》

幼儿园老师给小朋友分糖果.若每人分8块,还剩10块;若每人分9块,最后一人分不到9块, 但至少可分到一块.那么糖果最多有多少块?

星火X1

DeepSeek R1

再次双赢,各得10分

试题3:

来源:《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

正确,两大模型各得10分。

试题4:

来源:《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

两大模型回答正确,各得10分。

试题5:

来源:《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

两大模型回答正确,各得10分。

试题6:

来源:《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

星火X1完美给出了三小题的答案,得10分,DeepSeek给出的答案中(1)正确,(2)错误,(3)两个坐标只给出了一个,以4个答案共10分计算,每个答案分别为2.5分,因此这道题DeepSeek共得5分。

试题7:

来源:《2024年新高考数学全国一卷试卷(新高考Ⅰ)》

星火X1

DeepSeek R1

回答正确,各得10分

试题8:

来源:《2024年新高考数学全国一卷试卷(新高考Ⅰ)》:

星火X1

DeepSeek R1

星火X1给出的两小题答案全部正确,得10分;DeepSeek此轮表现不佳,0分。

试题9

来源:《初中奥数常考试题类型100例》)

已知三角形的三个内角的和是 180°,如果一个三角形的三个内角的度数都是小于 120 的质数,则这个三角形三个内角的度数分别是___。

星火X1

DeepSeek R1

星火X1只给出一个答案,实际上,该题还有一个答案,即2°、89°、89°,同样也能满足题意,因为漏失一个答案,得5分。DeepSeek回答正确,得10分。

试题10:

来源:《2024年全国中学生数学奥林匹克竞赛(预赛)暨2024年全国高中数学联合竞赛一试试卷(A卷)

星火X1

DeepSeek R1

星火X1回答正确,得10分;DeepSeek回答错误,不得分。

小结:

上面我们对刚升级的讯飞星火深度推理大模型X1做了简单的测试,从它和当前热度很高的DeepSeek的PK情况来看,星火X1的表现很出色,10道题仅错了半题,总得分95分,相比之下,DeepSeek表现略差,错了两题,半错一题,总得分75分。

此外,在使用过程中我们还发现,DeepSeek广被诟病的服务器繁忙、无法回答问题的情况仍然存在。

此次评测大约用去5个小时,其中约有一大半时间是浪费在反复发送问题,等待DeepSeek的回复上,徒耗了精力,一定程度上拉低了使用体验。

 

标签:

猜你喜欢

获“车路云一体化优秀服务提供商”,四维图新专业能力获行业认可
三谋这次“玩大了”!吕布扮演者时隔三十载再度披挂上阵!
传统鹤庆银器成抖音直播间爆款,离不开这位从艺47年的老银匠
解锁AI时代开会新方式,鸿蒙原生版飞书已支持AI会议智能总结
2025两会,这几个关键词关联出重要信号
中国移动携多款搭载“灵犀”终端智能体AI产品亮相MWC2025
MWC 2025:华为狂揽26项权威媒体大奖,引领极致智能新体验
“三八节”女性运动消费升温,跳伞、网球场、健身房抖音团购增长超2倍
再掀高效热潮!爱旭N型ABC组件“焕新”亮相山东展
锁定,巴塞罗那!
汉王科技墨水屏系统接入满血版DeepSeek,AI助手一键开启深度思考
TECNO 于 MWC 2025发布全新AI生态成果,引领智能科技未来
迈向全面智能化运维运营,使能新增长
MWC 2025 | 广和通赋能浙江永强实业旗下昶氪科技实现全球首款纯视觉割草机大规模商用
深化高校战略合作,曼彻斯特大学校长首次来访中国
猪哥云选择华为云昇腾AI云服务,基于DeepSeek展开业务创新
春风十里 智能随行 三星Galaxy S25 Ultra点亮春日旅途
小花科技选择华为云昇腾AI云服务,基于DeepSeek展开业务创新
华为RAN Intelligent Agents荣获GTI Awards“移动技术创新突破奖”
算力加速服务商云天畅想:支持运营商规模化部署DeepSeek
阿里云短信服务重磅升级!双站合并,为企业出海保驾护航!
联想集团香港创新科技大会:混合式AI赋能“人工智能+”生态创新
九方智投控股人工智能部门两篇论文被自然语言处理顶会NAACL 2025录用
明略科技全域营销分析平台:实时数据智能洞察,AI助力敏捷营销实效评估
“快交付,百倍利!”快递100与生态伙伴共探新蓝海
聚变的超进化指南丨生态力量集结完毕,这场能源革命要动真格了
店播成为直播电商新引擎,助力产业发展
“00后”新农人再发声:既要把书读好、把地翻好,也想把货带好
柘光ZG DIAMOND:品质与创新的完美结合,打造中国钻石新名片
SHURE全新MOVEMIC 88+无线麦克风,为视频带来出色的音频多功能性