国产大模型“挑战”高考，多个盲测讯飞星火得分居第一梯队

在深度推理的终极考场，AI正以惊人速度逼近人类顶尖学子水平。

当2025年全国高考1335万考生在考场奋笔疾书时，一场特殊的“AI高考”同步拉开帷幕，DeepSeek、字节豆包、阿里通义千问、腾讯混元、讯飞星火、百度文心等国内第一梯队大模型全部参考。据多家媒体在语文作文、数学、英语作文三科实测中，DeepSeek成为本年度国产大模型的“高考数学状元”，讯飞星火数学以1分之差位于第二，其中英文作文则在多个评测中，得分第一，而通义千问、豆包等模型也在部分科目展现出顶尖实力。

这场由多家媒体联合专业教师团队主持的跨模型实测，不仅检验了AI的文本理解、逻辑推理与语言生成能力，更揭示了国产大模型技术路线的最新格局：在深度推理的赛道上，掀起全民AI浪潮的DeepSeek依然保有领先优势，全国产算力下70B量级的讯飞星火则凭借精准的算法优化与教育领域深耕，已超越更大参数规模的对手。

语文作文：53分登顶，破题能力成胜负手

“全国卷一作文难哭考生”登上热搜当天，六大国产模型同步拿到老舍、艾青、穆旦的名句材料。在界面新闻旗下媒体“电厂”的语文作文评测中，面对“沉默与发声”的哲学命题，讯飞星火以《以歌为刃破长夜且将热血铸山河》破题，斩获杨小晴、曹越两位专家给出的52/54高分，杨小晴老师点评讯飞星火作文：“结构如交响乐章，选材如历史长卷。”

专家评价道，高考作文拼的不是华丽词藻的堆叠，而是深度思考能力的全面展示。讯飞星火的作文将“艺人开不了口”“鸟儿嘶鸣”“带血拥抱”提炼为“中国文人的精神图谱”，直指文明传承内核。其次，用屈原放逐著《离骚》、杜甫茅屋写广厦、常书鸿守护敦煌等案例，构建出了从个体觉醒到文明永续的逻辑链。立意有穿透性，逻辑有纵深度的前提下，配合精准且震撼的文字表达，使得这篇文章精准破题，成为高考作文中的优秀范本。

DeepSeek写了一篇856字，题为《悲歌当泣》的作文，采用六段式的文体结构。通篇来看，除了首尾段点题，DeepSeek还在文中每段层层递进地展开探讨了艺术对于困难者、对深陷泥泞的民族、对新生重建的民族、对历史与当下的作用。

相比之下，DeepSeek《悲歌当弃》虽以艺术救赎苦难的视角获52.5分，但敦煌案例被指“缺乏现代表达”；豆包1244字超长作文因“沉默与发声辩证不足”扣分；文心一言则因过度抒情跌至47分垫底。

此外，在高考第一天B站和机器之心的高考语文作文直播答题+评分直播活动中，B站UP主“语文老师吴小轶”（清华出版社语文主编，教龄17年）直播打分，吴老师给到讯飞星火写的《破茧重生：民族觉醒中的生命咏叹》打50分，得分超GPT、 DeepSeek、 Kimi。而在新浪微博、新浪新闻主办的“AI高考作文盲评挑战”中，讯飞星火在10家国内外主流大模型、15位专业评委老师盲评中，获得第一名。

数学：143分学霸诞生，推理效率定乾坤

高考数学考完后，关于“数学难不难”的话题瞬间爆上热搜，IT之家联合高中数学教研专家对六大国产推理模型以及OpenAI o3进行了实测。在150分满分的高考数学实测中，DeepSeek R1以143分夺魁，讯飞星火141分紧随其后。两大模型在函数题、数列证明等高难度题型中均展现完整解题链，稳居国内大模型数学能力的第一梯队，在考生中也达到了“尖子生”标准。

技术团队拆解几大模型的答题过程，发现所有模型在基础题（如填空题）均满分，但应用题表现分化严重。DeepSeek在128K上下文优势明显，复杂题目分步推导无遗漏，但OCR识别短板需人工转写题目；腾讯混元，在解题过程中暴露出逻辑连贯性问题。百度文心则出现了公式套用的错误。

不过，在自媒体“数字生命卡兹克”的高考数学评测中（单选、多选和填空），DeepSeek R1的得分则低于讯飞星火X1、豆包1.5和混元T1。

英语作文：文化适配度成隐形门槛

在英语作文“盲评”评测中，新京报选择了2025年高考英语北京卷作文题目，测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、讯飞星火X1、腾讯混元T1、百度文心X1六款深度推理模型产品。北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文给出了专业评分，由高到低的排名分别为：讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。

在今年高考英语北京卷的作文题目中，“假设你是李华，建议联合国倡议...”这道经典题型成为AI的跨文化表达试金石。讯飞星火以“全球气候行动网络”提案分获20分和19分。

专家指出大模型英语作文之间的关键差距：讯飞星火内容完整，理由充分且紧扣主题，句式多样（如“twofold”结构），段落衔接自然，展现出对国际议题的精准表达和理解深度。DeepSeek的作文结构严谨且逻辑流畅，但是UN initiatives翻译不够具体到位，以及字数较多实际考试不一定可以写完。ChatGPT提议“零塑饭盒”却用this works口语化表达，腾讯混元用Glad to hear开头像聊天软件对话——高考作文需要正式与非正式语体的精准平衡。

AI高考启示：是辅助而非替代

当六大模型作文高频引用司马迁、敦煌壁画等案例时，AI教育的未来路径浮出水面：AI是辅助而非替代。深度推理大模型讯飞星火X1在写作文前执行的“解析题干-提炼论点-匹配论据”流程，可成为学生日常写作的思考链条，基于不同prompt的回答可以启发学生突破套路化表达。

毋庸置疑，今年高考大模型优秀选手的“AI味”已经远低于去年，高考数学的作答也是手到擒来，讯飞星火等多家大模型高考数学成绩均突破130分，国产大模型推理能力整体上已经实现质的飞跃。

国产大模型“挑战”高考，多个盲测讯飞星火得分居第一梯队

相关阅读

猜你喜欢

热点图片

要闻