国产大模型“挑战”高考,多个盲测讯飞星火得分居第一梯队

2025-06-10 12:04:54     来源:

在深度推理的终极考场,AI正以惊人速度逼近人类顶尖学子水平。

当2025年全国高考1335万考生在考场奋笔疾书时,一场特殊的“AI高考”同步拉开帷幕,DeepSeek、字节豆包、阿里通义千问、腾讯混元、讯飞星火、百度文心等国内第一梯队大模型全部参考。据多家媒体在语文作文、数学、英语作文三科实测中,DeepSeek成为本年度国产大模型的“高考数学状元”,讯飞星火数学以1分之差位于第二,其中英文作文则在多个评测中,得分第一,而通义千问、豆包等模型也在部分科目展现出顶尖实力。

这场由多家媒体联合专业教师团队主持的跨模型实测,不仅检验了AI的文本理解、逻辑推理与语言生成能力,更揭示了国产大模型技术路线的最新格局:在深度推理的赛道上,掀起全民AI浪潮的DeepSeek依然保有领先优势,全国产算力下70B量级的讯飞星火则凭借精准的算法优化与教育领域深耕,已超越更大参数规模的对手。

语文作文:53分登顶,破题能力成胜负手

“全国卷一作文难哭考生”登上热搜当天,六大国产模型同步拿到老舍、艾青、穆旦的名句材料。在界面新闻旗下媒体“电厂”的语文作文评测中,面对“沉默与发声”的哲学命题,讯飞星火以《以歌为刃破长夜且将热血铸山河》破题,斩获杨小晴、曹越两位专家给出的52/54高分,杨小晴老师点评讯飞星火作文:“结构如交响乐章,选材如历史长卷。”

专家评价道,高考作文拼的不是华丽词藻的堆叠,而是深度思考能力的全面展示。讯飞星火的作文将“艺人开不了口”“鸟儿嘶鸣”“带血拥抱”提炼为“中国文人的精神图谱”,直指文明传承内核。其次,用屈原放逐著《离骚》、杜甫茅屋写广厦、常书鸿守护敦煌等案例,构建出了从个体觉醒到文明永续的逻辑链。立意有穿透性,逻辑有纵深度的前提下,配合精准且震撼的文字表达,使得这篇文章精准破题,成为高考作文中的优秀范本。

DeepSeek写了一篇856字,题为《悲歌当泣》的作文,采用六段式的文体结构。通篇来看,除了首尾段点题,DeepSeek还在文中每段层层递进地展开探讨了艺术对于困难者、对深陷泥泞的民族、对新生重建的民族、对历史与当下的作用。

相比之下,DeepSeek《悲歌当弃》虽以艺术救赎苦难的视角获52.5分,但敦煌案例被指“缺乏现代表达”;豆包1244字超长作文因“沉默与发声辩证不足”扣分;文心一言则因过度抒情跌至47分垫底。

此外,在高考第一天B站和机器之心的高考语文作文直播答题+评分直播活动中,B站UP主“语文老师吴小轶”(清华出版社语文主编,教龄17年)直播打分,吴老师给到讯飞星火写的《破茧重生:民族觉醒中的生命咏叹》打50分,得分超GPT、 DeepSeek、 Kimi。而在新浪微博、新浪新闻主办的“AI高考作文盲评挑战”中,讯飞星火在10家国内外主流大模型、15位专业评委老师盲评中,获得第一名。

数学:143分学霸诞生,推理效率定乾坤

高考数学考完后,关于“数学难不难”的话题瞬间爆上热搜,IT之家联合高中数学教研专家对六大国产推理模型以及OpenAI o3进行了实测。在150分满分的高考数学实测中,DeepSeek R1以143分夺魁,讯飞星火141分紧随其后。两大模型在函数题、数列证明等高难度题型中均展现完整解题链,稳居国内大模型数学能力的第一梯队,在考生中也达到了“尖子生”标准。

技术团队拆解几大模型的答题过程,发现所有模型在基础题(如填空题)均满分,但应用题表现分化严重。DeepSeek在128K上下文优势明显,复杂题目分步推导无遗漏,但OCR识别短板需人工转写题目;腾讯混元,在解题过程中暴露出逻辑连贯性问题。百度文心则出现了公式套用的错误。

不过,在自媒体“数字生命卡兹克”的高考数学评测中(单选、多选和填空),DeepSeek R1的得分则低于讯飞星火X1、豆包1.5和混元T1。

英语作文:文化适配度成隐形门槛

在英语作文“盲评”评测中,新京报选择了2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、讯飞星火X1、腾讯混元T1、百度文心X1六款深度推理模型产品。北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文给出了专业评分,由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。

在今年高考英语北京卷的作文题目中,“假设你是李华,建议联合国倡议...”这道经典题型成为AI的跨文化表达试金石。讯飞星火以“全球气候行动网络”提案分获20分和19分。

专家指出大模型英语作文之间的关键差距:讯飞星火内容完整,理由充分且紧扣主题,句式多样(如“twofold”结构),段落衔接自然,展现出对国际议题的精准表达和理解深度。DeepSeek的作文结构严谨且逻辑流畅,但是UN initiatives翻译不够具体到位,以及字数较多实际考试不一定可以写完。ChatGPT提议“零塑饭盒”却用this works口语化表达,腾讯混元用Glad to hear开头像聊天软件对话——高考作文需要正式与非正式语体的精准平衡。

AI高考启示:是辅助而非替代

当六大模型作文高频引用司马迁、敦煌壁画等案例时,AI教育的未来路径浮出水面:AI是辅助而非替代。深度推理大模型讯飞星火X1在写作文前执行的“解析题干-提炼论点-匹配论据”流程,可成为学生日常写作的思考链条,基于不同prompt的回答可以启发学生突破套路化表达。

毋庸置疑,今年高考大模型优秀选手的“AI味”已经远低于去年,高考数学的作答也是手到擒来,讯飞星火等多家大模型高考数学成绩均突破130分,国产大模型推理能力整体上已经实现质的飞跃。

标签:

猜你喜欢

微软 “品牌智能体”改变广告行业范式
京东七鲜击穿行业低价,鲜活帝王蟹499元一只,比其他平台便宜45%
隐智科仪参与上海交通大学医学院实验室搬迁,开启985院校新篇章
钉钉教育召开服务商大会 招募伙伴加速推进AI技术普惠局校
施耐德电气:依托先进的工业I/O系统,迈向数据驱动的工业未来
解密脑波密码 构筑心智长城 ——记四川师范大学脑与心理科学研究院研究员王一峰
靳光祥教授与立信牌高活性蛋白质粉:为大众健康赋能
美的空调总裁京东首播刷新纪录 单场成交额突破2100万元
专利、奖项与院士:刘健康的多维权威画像
智领未来人居空气 日立中央空调精彩亮相设计上海2025
阿里云全栈AI技术引擎驱动SaaS企业全球化升级 构建出海新范式
鸿蒙版得物体验持续升级 上线多个热门功能
林氏木业家具怎么样?新加坡门店揭幕,全球化战略再进一步
老乡鸡与钉钉深化战略合作,共建加盟商系统助推万店目标
三星玄龙骑士500Hz新品OLED G6(G60SF)正式开售
AI赋能的家庭娱乐中枢:三星电视守护多代同堂的欢聚时光
养宠家庭新选择 三星AI神系列洗护产品守护全家穿衣健康
Alvey Chain公链项目介绍
爱图仕获得ISO9001质量管理体系和ISO14001环境管理体系认证
顶级域名战略缺位下的安全反思——从某DNS云解析服务中断事件说起
纪芙达荣登央视! 以鎏光系列解码科学抗衰新高度
高考“小插曲”不慌!银河麒麟为考生身份证明“加速”
RAZER与玛氏战略合作升级,共建电竞玩家专属休闲食品生态
华丞电子精密测控零部件邀您SNEC 2025见证创新力量
“零度算力”不存在?曙光数创“三新”蓄势待发!
techkloud跨境平台
告别加班改Bug!AI代码助手让复杂项目不再“要命
邻盛客大牌折扣“嗨GO”之旅,开启超市无忧创业新纪元
技术选型别盲目:为什么很多企业用错了分布式数据库?
国产大模型“挑战”高考,多个盲测讯飞星火得分居第一梯队