3款大模型超河南高考文科一本线，字节豆包总分排国产AI第一

6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包等三款国产AI成功冲上一本线。

与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。

图片 1.png

大语言模型遇上语言考试:有望冲满分

语文、英语的语言类考试,是大模型有能力和人类考生较量的赛场,多家产品能拿到客观题目的满分或接近满分。

凭借中文语言的“主场优势”,三款国产大模型产品获得了语文考试前三名,分别是百小应、字节豆包和腾讯元宝,得分依次为128分、125.5分和120.5分。除了少数开放性的阅读理解和语言文字运用问题,各家大模型主要丢分在语文写作上。

作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。夏老师认为:“Al写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”

英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得30分满分。在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得80分满分,豆包和文心一言4.0也接近满分。但是在40分的写作考试中,最高分只有29分,分别由GPT-4o和百小应获得,各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。

文综出色,豆包获“历史”最高分

在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o获得237分的成绩,平均分达到79分,优于多数人类考生。国产大模型产品中,豆包的文综成绩最高,分数达到224.5分,其中历史科目拿到82.5分,在所有9款大模型中得分第一。

政治考试中,GPT-4o出人意料的获得了88分的最高分,百小应和豆包得分超过80。地理考卷则有大量图片问题,对一众大模型是不小的挑战,图像理解能力较强的GPT-4o得到最高分,但仅有68分。

河南高考分数段统计数据显示,GPT-4o的562分在文科考生中排名8811名,相当于人类考生的前2.45%,豆包则处于前4.27%的位置。在过去一年多时间里,国产AI技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。

数理全线不及格,AI有待提升

与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前30%。

以数学试卷为例,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分),目前的大模型只能正确推理步骤相对简单的问题。据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。

重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有34分和39分(满分为100和110)。化学单项最高分由豆包获得,成绩为49.5分,GPT-4o仅有42分。大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题,人类考生根据“时间不会倒流”可以排除错误选项,轻易选对正确答案“C”,大模型则几乎全军覆没。要学会像人类一样思考和解决问题,大模型还有很长的路要走。

图片 2.png

标签：

猜你喜欢

珠海“云上智城”新动力：华为云与华发数智合作签约，共创智能未来

顺应市场日新月异的需求和变化 ABeam 中国助力柯尼卡美能达实现 ERP CRM 统筹升级

嫦娥六号荣耀返航！Smartbi助力中国航天项目

「个保合规我参与」公益培训宣讲会WiFi万能钥匙站在南京举行

巧解「男」题，让爱更OK

两院院士评选2023年中国和世界十大科技进展新闻《科学追光者》系列专题发布

大模型商业化浪潮提速，微盟推出WAI Pro探索企业级应用市场机遇

万通发展拟重组索尔思长效激励机制绑定核心团队

华为发布AI入网“开城计划”，使能网络生产力跃升

OLEDWorks发力挖掘OLED照明潜在优势构建健康照明方式

HDC 2024 | 华为云云原生开源+OpenHarmony，加速开发者应用创新

中软国际携手华为云AI原生应用引擎，打造“问系列”AI Agent产品

百倍提升7B模型推理能力昆仑万维携手新加坡南洋理工大学发布Q*算法

数智时代，共赢未来！海量数据参与openGauss Developer Day 2024圆满落幕

恒昌十度携手夏季达沃斯共探未来增长新前沿

HDC 2024 丨企业深度用云，华为云充分释放云上价值

上海移动5G-A商用发布，推出魔速计划

同屏·同频百视通牵手上海电视节打造家门口的视听盛宴

《德信科技闪耀 2024 科技产业金融对接活动，展示工业软件创新成果》

梅雨季晾衣愁？小天鹅6D气流烘来“解忧”

MogDB实现数据库技术跨越，Ustore引擎革新存储新境界

至像科技与华为签署鸿蒙合作协议，国产软件助力鸿蒙原生应用开发

BPAA第四届全球应用算法典范大赛TOP50榜单出炉

打通AI应用最后一公里，中软国际模型工场助力千行百业智能升级

共启全新AI时代！拓维信息精彩亮相华为开发者大会2024

乘数智之风，再添新“羽翼”——绵阳·华为数字经济联合创新中心揭牌、绵阳科技城AI智能算力云项目签约

胜牌全球与途虎联合推出高端全合成机油PETROPOWER（奢金和铂金系列）

迅达厨电：传承匠心，引领厨电创新潮流

迅达集团：四十年匠心独运，创新铸就厨电辉煌

全新理念，持续绽放｜2024帕金森病专科中心建设经验分享及学术交流会徐州站（江浙沪区域）成功举办

热点图片

要闻

数智化全场景赋能，护航跨境电商稳增长
2024年6月21日，2024年华为开发者大会（HDC）正式开幕，带来全新的 HarmonyOS NEXT
迅达四十年创新驱动，引领中国厨电行业新篇章
随着中国厨电行业的蓬勃发展，迅达科技以其四十年的深厚积淀，凭借匠心独运和创新精神
助力汽车消费，懂车帝成为全国汽车以旧换新信息服务指定平台
2024年4月，商务部、财政部等7部门联合印发《汽车以旧换新补贴实施细则》（以下简称《
政产学齐聚HDC2024主题圆桌共探AI大模型在城市与产业的落地路径
6月22日，在华为开发者大会2024期间，以城市AI大模型中心，加速产业发展智能跃迁为主
上海祺鲲科技携手中国欧盟商会以能源转型方案助力欧盟企业实现供应链绿色合规
在全球化的浪潮中，企业可持续发展已成为共识。近日，上海祺鲲科技作为中国欧盟商会的
华为云首发AI原生应用引擎，为AI应用创新而生
6月21-23日，华为开发者大会（HDC 2024）在东莞松山湖盛大召开。作为华为云经验即服
赢在起跑线！超级队长引领AI教育新潮流
AI技术的迅速发展，正在深刻改变我们的学习和生活，2024年各省份高考作文题目相继揭晓
再签重磅协议！四维图新与华为终端云服务共推HMS for Car业务出海
6月22日,在华为开发者大会2024(HDC 2024)华为终端云服务全面合作签约仪式上,四维图新
专注诺奖得主赋能，赢诺脉得助力企业诺奖邀约
随着市场竞争的加剧，寻求诺贝尔奖得主为品牌产品背书逐渐成为企业差异化突围的绝佳
诺奖得主合作成为品牌突围的重点
今年的618大促有个耐人寻味的现象：传统超头们出现了近80%的交易额断崖式下跌，即使抖

3款大模型超河南高考文科一本线，字节豆包总分排国产AI第一

相关阅读

猜你喜欢

热点图片

要闻