“国家队”评测30个大模型数学能力，九章、文心、星火位列前三

2024-03-01 16:30:34 来源：

去年ChatGPT横空出世后，我国也迎来“百模大战”，大模型能力测评成为业界前沿课题。近日，大模型数学能力权威测评基准MathEval围绕数学能力，对国内外30个大模型（含同一模型的不同版本）开展测评。根据测评结果，学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中，学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中，都具备领先优势。

数据显示，截至去年10月，国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域，包括数学问题解决、数据分析、学术研究、学习辅导等。目前，通用或垂类大模型都具备一定的数学能力，而其能力表现则需要专门测评。不过现有大模型能力测评多数是对通用能力的测评，也有对推理能力、自然科学能力的专门测评中，但没有专门针对数学能力测评的参考基准，以及专门的权威测评机构。

近日MathEval的上线，弥补了行业空白。MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起，是一个专注于全面评估大模型数学能力的测评基准，旨在全面评估大模型在算术、小初高竞赛和部分高等数学分支在内的解题能力表现。

截至目前，MathEval收集了2010年以来共19个被广泛使用的数学能力测评数据集，这些数据集来自ACL、AAAI、ICLR等数十个国际人工智能顶会论文中的公开数据，覆盖了不同年级、题型、文本形式和难度的数学问题，从而提供全面、具体的数学能力测评结果。

最新这次测评中，MathEval测试了30个大模型。在评测过程中，MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配，减少基于规则进行评测所带来的误差。结果显示，九章大模型在整体榜单和子榜单均排第一名。

九章大模型是由学而思自主研发的、面向全球数学爱好者和科研机构的垂类大模型。据悉，该公司在相关研发方面已累计投入超10亿元。可以说，作为少有的专注解题和讲题算法的大模型，九章这一表现并不意外。

同时，作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼，占据了第二、三位，均优于GPT-4。由此可见，国产大模型在数学方面的能力已经实现了赶超，未来能力提升和落地应用值得期待。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：

相关阅读

“国家队”评测30个大模型数学能力，九章、文心、星火位列前三

钉钉发布最新医药行业解决方案，超六成百强生物医药企业已上钉

周鸿祎免费课｜大模型的发展对PC端是一个机会

云迹科技携手小度提升用户体验机器人在酒店服务多闭环

数禾科技深刻践行金融服务科技的新历史使命

猛玛纽扣麦克风，展示女王的小有声色

十大奢侈手表品牌|沛纳海勃艮第红腕表融汇激情与精致格调展现现代都市风格

青藤之恋与武汉大学数据新闻研究中心联合发布《2023年轻人婚恋压力报告》

湖南省携手统信UOS，国产操作系统首次实现省级政务区块链领域规模化应用｜标杆100

4000人舞6500米羊绒龙打破世界纪录，“软黄金”从这里走出草原

猜你喜欢

送AI助理！钉钉2024开工季用AI为企业“加油”

数智化转型加速，创先新材与企知道科创空间携手共进

AI时代中国科技力量，浩鲸科技闪耀MWC2024

官宣张雨霏，森歌携手新冠军代言人共创品质生活

三星MWC 2024：Galaxy AI引领未来科技趋势

华为云开年采购季全面启动智领千行万业赋能美好未来

最佳产品和方案！国产操作系统教育网信成果再获肯定

首发价仅为1999元！作业帮推出超高性价比新品学习机P20

抗衰进入“肽”时代,韩国Caregen如何领跑仿生肽赛道?

合思助力传统制造业广东新晨汽车财务数字化建设落地，提升行业竞争优势

电子凭证试点常态化，合思助力企业全链路“无需报销–入账–归档”！

物流下半场赛事:发展无人驾驶,降低物流成本,引领高质量增长

Samsung One UI 6.1即将更新更多Galaxy设备将支持Galaxy AI功能

多场景智能适配三星Galaxy Buds2 Pro让生活更轻松

今年的新闻更有“数”，华为云MetaStudio数字人与中青报的双向奔赴

国家电网、联通、华为和鼎桥联合打造的普惠5G智慧电网解决方案荣获GSMA GLOMO“最佳专用网络解决方案奖”

闪耀泉城，正泰新能携ASTRO N系列组件亮相济南太阳能展

懂车帝巨懂车将亮相深圳九州展三大手段助力车后商家发展

少走弯路不踩坑 Datadog 的替代品来了

衰老的原点竟是生殖衰老？巢乐维靶向女性生殖健康

健康需求年轻化？派络维pro科学靶向抗衰，点亮长寿未来

健步维科学靶向，直达软骨源头，改善关节状态

圆周率无穷无尽，时光派长寿诊所·TIMERULER时光尺3.0提供高端抗衰服务

博奥真御力维关注男性生殖健康，协同抗衰三泵促活

元气因NPC带来科学养护，让健康触手可及

筑梦干细胞研究创新研发新药物

御力维科研男性抗衰，御维利泵发男性能源

御力维焕活机体青春力，呵护男性健康

高压氧舱市场走热，瑞健未来“时光珠”：民用顶配驱离亚健康

好内容与好体验齐飞，腾讯视频以AI技术打造智能化综艺制作

热点图片

要闻

360推出智能文档云解决方案，助力企业低成本、安全接入大模型
近期，360旗下企业级团队协作与智能知识管理产品360亿方云宣布发布行业首个基于文档大
独家探秘联通爱听焕新亮相，携众多独创新功能重磅登场！
打开手机，摁下音频播放键，一个个故事娓娓道来……当下快节奏的生活，让越来越多的人
养护心脑血管健康，节后需谨慎！“若返”畅络因真的好用
作为华夏民族的传统节日,春节的重要性对于许多人来说是不言而喻的,它承载着大家对美好
“若返”的畅络因有效吗？节后复工，无惧心慌气短，脑力持续在线！
随着春节假期的结束,我们迎来了全新的工作起点。在这段宝贵的休息时光里,我们与家人共
赛罗瑞Cellerator：从细胞层面出发，延缓机体衰老
自古以来,人类一直怀揣着永葆青春的梦想。虽然不老神话无法在现实中实现,但科技的日新
一场有关影视工业化的革新，腾讯视频AI技术重塑制片流程
从去年掀起AI产业浪潮的chatgpt，到近期全网热议的sora，AI正在深刻改变内容产业的面
畅络因NNK可靠吗？“若返”硬核基因科技，助力心脑血管“减负”
俗话说:新年新气象。新年伊始,人们纷纷期待着新的开始和新的机遇,努力创造着无限的可
倍他强是什么？TIMSHOP口服科技，助力男士群体远离“根本”亚健康
在当今社会,中年男性的健康状态面临着诸多挑战,如不良饮食习惯、紊乱的作息、缺乏运动
高压氧舱成健身恢复“神器”？Rlab瑞健未来助力全民健身
随着生活条件的改善和大众观念的变化,越来越多的人开始通过运动与锻炼来提高身体素质,
激活人体自愈力：倍愈粒品牌方TIMESHOP牵手朱茵，传递抗老生活新方式
人体衰老的速度可能超乎你的想象,以往许多人以为身体各器官与组织的衰老始于老年阶段,