随着2024届高考落幕,近日,各家大模型的高考评测结果陆续出炉,多家媒体和专业人士用高考中英文作文题和数学题对大模型能力进行测评,讯飞星火不仅占据榜首,并超过GPT-4o,在本届的“大模型高考”中,讯飞星火多学科综合能力领先。
作为去年高考大模型数学能力测评的“扛把子”,在本届的高考数学能力评测中,讯飞星火依旧能打,实力捍卫“最强理科生”地位。数学考试结束后,在搜狐科技针对国内十余家大模型的高考数学能力评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。
在另一家教育类科技媒体的评测中,讯飞星火的数学能力依旧能打。一家教育类科技媒体“多鲸”选取北京数学卷——新高考一卷的倒数第二题(导数题),向海内外4个大模型进行了提问:ChatGPT-4o、Google Gemini-1.5、学而思九章大模型(MathGPT)、讯飞星火、ChatGLM-4 (智谱清言),提问包括原始题目和对结果的打分。在最终的评测结果来看,讯飞星火不仅给出了详细的解题步骤,对比其他家大模型,还给出了更详细的考点和对应知识点分析,在这一点上,讯飞星火是更贴合考生的“备考搭子”,考生可以将讯飞星火作为平时复习的AI辅助工具。实际上,科大讯飞早已将星火大模型的这项能力应用在了AI学习机的精准学功能中:搭载讯飞星火V3.5的学习机,可以通过几道题精准找到孩子学习薄弱点,给出专属学习路径帮助孩子掌握相应知识点。
作为高考开考的第一科,各地高考作文题目每年都是全民热议话题。在《科普中国》的一篇评测文章中,选取三家国内最常用的“AI”各写了一篇作文,并委托一位高中语文教师做了点评。最终,AI考生讯飞星火“小飞”同学拿下46分的得分,远超另外两位“AI考生”。
评测的末尾,科普中国还点名表扬了“小飞同学”,认为小飞同学的文章里体现出了“人类学生自己未曾想到的角度”。
看来,讯飞星火的作文能力广受外部认可,达到远超高考语文平均分水平。笔者以今年的新课标II卷作文为例:“长久以来,人们只能看到月球固定朝向地球的一面,“嫦娥四号”探月任务揭开了月背的神秘面纱;随着“天问一号”飞离地球,航天人的目光又投向遥远的深空……正如人类的太空之旅,我们每个人也都在不断抵达未知之境。这引发了你怎样的联想与思考?请写一篇文章。”实测讯飞星火,交出的考卷如下:
河南省基础教育教学专家库成员、河南省学术技术带头人李来明根据高考作文评分标准针对讯飞星火的表现进行了点评:“这篇文章从引入话题,到分层论述,层次分明,论证清晰,符合议论文的写作规范。文章不仅运用了材料素材,还能灵活运用事实论据,表达主旨。文章的语言表达用词较为贴切,句式灵活,文句具有表现力。”最终,李来明给出了50分的评分,大模型考生在高考作文中达到一类文水平。
在英语能力测评中,讯飞星火也展现出了多语种方面的实力。今年的北京卷英语作文题目为题目为:“假设你是红星中学高三学生李华。你的外国好友Jim准备给其校报的 Asia Today 栏目投稿。得知今年新中国成立 75周年,他打算重点介绍中国的发展成就,发来邮件询问你的建议。请你用英文给他回复。”有考生走出考场后表示,感觉作文题目有点出乎意料,较平时准备的上了难度,笔者实测讯飞星火交出的考卷如何:
第一眼看上去,这篇英语作文行文流畅,语法准确,结构清晰,应该算是一篇标准的高考英语范文了。
同样放到高考阅卷评分标准里,讯飞星火能拿几分?
资深外语教研专家周国荣点评:
“这篇文章很好地回应了Jim的询问,并介绍了中国几个快速发展的领域。
内容上:作者提及了三方面,即高速铁路、电信技术、可再生能源,涵盖了中国近几年高速发展的重要领域。
语言上:文章使用了较多高级表达,如highlight,demonstrate,significantly等,显示了作者扎实的语言功底。
总体而言,这篇文章较好地完成了写作任务,提供了具体的内容,也展现了作者对中国发展的关注和个人见解。”最终,周老师给出了18分(满分20分)的得分,讯飞星火在高考英语作文中也夺得高分。
由此来看,在这波AI大模型高考“大练兵”中,讯飞星火凭借其优越的语言理解、文本生成、逻辑推理能力,在语文、英语、数学能力中综合表现达国产大模型领先水平,是一位实打实的多学科综合能力第一的“AI考生”。