北京中考试卷出炉，来看九章大模型对决GPT-4o

2024-06-29 10:41:48 来源：

继高考之后,各地中考也陆续落下帷幕。之前,多家机构和媒体用高考题评测大模型们的“高考成绩”,吸引了不少眼球。那面对中考题,尤其是大模型不太擅长的数学科目,又会有怎样的结果呢?

让我们以今年北京中考数学试卷为例,再测一下大模型们的答题实力吧!

今天的测试“选手”分别是国产九章大模型和GPT-4o大模型。九章大模型(MathGPT),是学而思自主研发,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。此前在Matheval排行榜多个维度的评测中都排名第一。GPT-4o是由OpenAI公司研发,是国际上备受关注的大语言模型之一,除了自然语言处理,GPT-4o还具备一定的推理能力,能够处理需要逻辑分析和判断的问题。

究竟谁在这场“数学比拼”中更胜一筹,让我们一起看看。

一、先说结论

本次测试选择了2024年北京中考数学试卷中的17道题,分别是8道选择题、8道填空题以及1道解答题。

在测试题目的比拼中,九章大模型的正确率为85%,GPT-4o的正确率为75%。

【九章大模型(MathGPT)】

选择题8题,做对5题。

填空题8题,做对6题。

九章大模型总分 = 5 * 2分 + 6* 2分+1分 = 23分 (满分30分)

【GPT-4o】

选择题8题, 正确5题。

填空题8题, 正确5题。

GPT-4o总分 = 5* 2分 + 5* 2分 = 20分 (满分30分)

注:填空题的最后一题有两问共2分,答对一问记1分。

在这次AI比拼中,九章大模型凭借其在数学领域的专业优势,取得了较高的正确率。这表明在特定领域,尤其是数学解题,定制化的大模型能够展现出更强的性能。然而,两者在复杂图题上的表现都存在不足,说明在这类问题的逻辑推理和步骤展示上,AI仍有待提升。

从教育的角度看,AI大模型为学习者提供了及时反馈和考点解析,有助于增强学习体验和深度理解。但同时,AI的局限性也提醒我们,它目前还不能完全替代人类教师的角色,尤其是在精细化指导和情感交流层面。

未来,AI与教育的结合可能会推动教学模式的创新,如人机协同教学以及自适应学习路径等。要实现这些愿景,AI技术需要在保证准确性和普适性的同时,进一步增强其在复杂情境下的理解和应用能力。

二、测试方法

1、测试题目:2024年北京中考数学试卷选择题的第1-8题,填空题的第9-16题,解答题第26题。

2、由于数学解答题的评估涉及复杂的推理步骤和逻辑判断,直接评判模型答案的正确性较为困难。因此,本次测试的重点放在了选择题和填空题上,这些题目通常有明确的正确答案,便于公正地评估模型的解答能力。

三、选择题,难分伯仲

以一道经典的概率推论题为例,一起来看一下二者的分析过程

九章大模型如下作答:

GPT-4o分析思路:

四、填空题,九章大模型获胜

第14题,GPT-4o回答错误

九章大模型正确解答:

GPT-4o的分析过程:

第16题,均出现错误

九章大模型只答对了第一问,其分析过程:

GPT-4o两问均回答错误,其解答过程:

五、解答题

第26题,九章大模型最终答案正确。

九章大模型的分析过程:

GPT-4o最终答案有误,其分析过程:

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：

相关阅读

北京中考试卷出炉，来看九章大模型对决GPT-4o

丁香园联手中国科学技术出版社推广健康科普助力国民健康素养提升

中国广电5G赋能精彩生活，开启融合发展新征程

美利云中卫数据中心亮相IDCE2024数据中心展

钉钉CTO程操红：钉钉全面升级AI能力，探索企业应用场景和生态解决方案

四川宜宾市长宁县发生3.1级地震，墨迹天气地震预警为您赢得宝贵时间

四川宜宾市长宁县发生3.1级地震，墨迹天气地震预警为您赢得宝贵时间

把握AI新机遇，华为四大核心技术构筑5G-A新体验

TCL魏雪入选36氪“SHE POWER·2024影响力女性”

武汉东西湖区携手华为，激活产业集群数字化发展“向新力”

猜你喜欢

让管理更有温度第六届丁香园中国医院发展大会在成都开幕

GIS国产化替代事半功倍，MapGIS信创一体机解决方案发布！

华为矿山军团蒋旺成：让人工智能大模型为油气行业注入新质生产力

科技与时尚起舞，天猫奢品马吉拉3D品牌橱窗升级购物体验

宇树CMO王其鑫：与钉钉合力探索AI机器人数智化融合

满足高密度航线的气象需求，墨迹天气航空气象服务助力民航应对极端天气

华为发布Net5.5G时代《IP自动驾驶网络白皮书》——开启自智网络L4新征程

辰安科技城市生命线技术创新与实践成果展亮相第二十二届中国国际城市建设博览会

奥比中光CIO肖乐：借力钉钉，加速“机器人之眼”进化

边界无限陈佩文：有了WAF、HIDS 为什么还需要一款独立的RASP

智能体时代来临：科大讯飞引领大模型创新| 星火开发者论坛

助力央国企数智化，人民数据与瓴羊携手打造“数据要素场景创新示范中心”

华为智能光伏搭载“中国高铁速度”，杭州再启程！

2024上海世界移动通信大会举行云迹科技携手中国移动聚焦5G科技前沿创新

MWC上海展：科大讯飞携讯飞星火V4.0及落地应用亮相

华为云企业快成长广州总裁班成功举办，“文化+技术”双轮驱动企业数智跃升

重磅！Aibee爱笔智能与居然之家全面合作，将引发商业地产最大变革！

优艾智合首席战略官梅婉箐：用数智化为工业系统提供值得信赖的机器人生产力

与清华同济联合举办高校创作赛，《蛋仔派对》创新引领数字教育格局

真我V60系列正式发布，一款更值得送长辈的千元好礼

合亿 Gutab新品发布：专为工业而生的MF10P 坚固三防工业平板

抖音电商618国货数据：美妆销量同比增长53%，洗护、服饰、晴雨伞等受欢迎

雷科防务携多款明星产品亮相2024第十三届中国国际国防电子展

国产软硬件安全测评丨永信至诚「数字风洞」为首届“矩阵杯”网络安全大赛护航

数字化方案打通助餐服务“最后一米” 腾讯可持续助餐模式让特困老人“食”有所依

三星Galaxy Z Fold系列的演变：更纤薄、更坚固、更轻巧

OpenHarmony Meetup 2024城市巡回武汉站圆满落幕

抖音生活服务严打“虚假素材”宣传，违规创作者将面临严肃处置

讯飞星火V4.0重磅发布，多项测试夺魁，硬核实力超越GPT-4 Turbo

腾讯云TBDS+WeData企业级数据中台荣获IDC工业领域最佳实践案例

热点图片

要闻

告别刷牙不适！看P20 PRO如何用缓震技术重塑刷牙体验？
电动牙刷的普及让许多人从繁琐的手动刷牙中解放出来，享受到了更高效、更便捷的口腔清
中国首创转盘共聚焦系统艾锐Nova SD盛大发布
6月18日，在《仪器信息网》召开的共聚焦显微成像技术及应用网络研讨会上，北京艾锐精
年度杰出自主研发技术！天图万境“AI感知视听大模型”获殊荣
6月26日晚，首届中国·重庆科技电影周在永川盛大开幕。这是国内首次以电影科技为主题
2024年数字化转型服务能力提升暨数字专员专题培训班第十一期成功举办
2024年6月26日-28日，在省工业和信息化厅指导下，山东信息职业技术学院联合华为（山东
钉钉战略客户部总经理邱达：助力新质行业跨越三大数字化门槛
6月26日，在MAKE 2024：AI全明星钉钉生态大会上，钉钉战略客户部总经理邱达宣布钉钉
超级队长重磅发布AI智学机X1，携手微软、华为共创AI教育新未来
6月26日，「未来之道，AI知道」AI+教育创新应用高峰论坛暨AI教育产品发布会于南京举办
创新端侧推理平台赋能新质生产力——电子科技大学成功研制首个全自主可控轻量化高性能端侧推理平台
数智时代，万物互联，每天持续产生海量数据，并且数据类型复杂多样，例如图像、视频、
“第七届托比工业数字化论坛”举行，云筑再获殊荣！
近日，第七届托比工业数字化论坛在上海盛大举行。本次会议以数智驱动，出海领航为主题
华为云致力推进全域Serverless时代，引领技术创新，赋能行业实践
日前，华为开发者大会2024期间，在全域Serverless时代：技术创新引领，赋能行业实践专
一款电饭煲近100项专利！美的是如何做到的？
随着健康饮食与生活品质的提升，国人对米饭的色、香、味提出了更高追求，这也加速推动