“国家队”评测30个大模型数学能力，九章、文心、星火位列前三

2024-03-04 15:40:52 来源：

去年ChatGPT横空出世后，我国也迎来“百模大战”，大模型能力测评成为业界前沿课题。近日，大模型数学能力权威测评基准MathEval围绕数学能力，对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果，学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中，学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中，都具备领先优势。

数据显示，截至去年10月，国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域，包括数学问题解决、数据分析、学术研究、学习辅导等。目前，通用或垂类大模型都具备一定的数学能力，而其能力表现则需要专门测评。不过现有大模型能力测评多数是对通用能力的测评，也有对推理能力、自然科学能力的专门测评中，但没有专门针对数学能力测评的参考基准，以及专门的权威测评机构。

近日MathEval的上线，弥补了行业空白。MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起，是一个专注于全面评估大模型数学能力的测评基准，旨在全面评估大模型在算术、小初高竞赛和部分高等数学分支在内的解题能力表现。

截至目前，MathEval收集了2010年以来共19个被广泛使用的数学能力测评数据集，这些数据集来自ACL、AAAI、ICLR等数十个国际人工智能顶会论文中的公开数据，覆盖了不同年级、题型、文本形式和难度的数学问题，从而提供全面、具体的数学能力测评结果。

最新这次测评中，MathEval测试了30个大模型。在评测过程中，MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配，减少基于规则进行评测所带来的误差。结果显示，九章大模型在整体榜单和子榜单均排第一名。

九章大模型是由学而思自主研发的、面向全球数学爱好者和科研机构的垂类大模型。据悉，该公司在相关研发方面已累计投入超10亿元。可以说，作为少有的专注解题和讲题算法的大模型，九章这一表现并不意外。

同时，作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼，占据了第二、三位，均优于GPT-4。由此可见，国产大模型在数学方面的能力已经实现了赶超，未来能力提升和落地应用值得期待。

标签：

相关阅读

“国家队”评测30个大模型数学能力，九章、文心、星火位列前三

可以恋爱，但不一定结婚?青藤之恋揭示当代年轻人婚恋观

养元饮品上榜《2023胡润品牌榜》，荣登食品饮料品牌价值排名第19位

八维学院到底好在哪里？优势在何？

微信上终于能用钉钉开会了！网友：太方便了！

MWC2024|中国联通荆雷：加速商用，5G-A赋能千行百业新能力

Joieem绝影，引领未来出海之路

中国联通携手华为在广东打造的5G直播套餐业务荣获GSMA GLOMO“最佳互联消费者移动运营商服务奖”

景博数据助力上海消保委与美腕发布《00后的消费理念与消费主张》洞察报告

中软国际携AIGC整体能力亮相第二届北京人工智能产业创新发展大会

猜你喜欢

IBM推出AI增强的数据弹性功能，打造更安全的存储解决方案应对勒索软件及其他威胁

国民级性价比全能洗地机可平躺的石头A20 Air开启首销

“瓷二代”分享非遗“扒花”火出圈，更多年轻人在抖音电商爱上传统文化

Medidata 与赛诺菲疫苗扩大合作，践行以患者为中心并提升试验效率

中国一汽首席科学家朱启昕：以大模型应用推进新四化转型

纵行科技荣登中国物联网企业投资价值50强及行业创新产品榜

usmile笑容加举办Y20新品交流会，提出数字牙刷进阶新方向

数字驱动产业升级 | 3D扫描技术让船舶制造更“聪明”！

擘画“宽带边疆”建设蓝图：华为全光接入网在“路”上

微盟集团：赋能国际品牌衣恋数字化升级，实现线上线下融合增长

亨通集团乘创新之翼，迈向世界一流企业的辉煌征程

“只减负不减配”，预算福音硕一凤凰U320装机体验

倍他强怎么样？TimeShop口服科技，助力男士本源持久健康

三星Galaxy S24系列品鉴会星耀沈阳 Galaxy AI创新改写移动生活

华硕京东超品日来袭！ROG魔霸7 Plus电竞本9999元超值入手

“不老女神”朱茵携手健康科技，TIMESHOP还原型辅酶Q10呵护心血管

粉象生活创始人李红星荣获2024阿里巴巴公益榜“公益之星”称号

CISILE 2024“自主创新金奖”将于3月15日截止报名，申报从速！

Glints调查发现中国内地及香港特区企业跨境增聘东南亚创业人才

康迈面对面丨卡友心中的“宝藏节目”，尽展行业魅力与品牌温度

加速ADHD电子处方药普及数药智能签约爱科百发

科研再结硕果！悦康药业注射用头孢唑林钠通过仿制药一致性评价

中小企业数智化升级优秀产品方案出炉，华为收获最多“首选”

权威鉴证优质环保|班兰家具荣获“十环认证”、ISO双体系认证

全国人大代表刘宏志：数字化建设加速为乡村振兴提质

抖音演艺直播数据报告：全年7143万场演出，同比增长47%

探索揭示元认知心理科研谱新篇 ——记北京师范大学心理学部讲师胡啸博士

深潮携手成立BIPV产业联盟双向奔赴推动产业协作走深走实

绿色照明：升龙灯光颠覆性散热技术，重新定义可持续照明

龙行龘龘，华为云携手伙伴助力数字时尚产业腾飞！

热点图片

要闻

万商同心，盈享未来”车仆集团2024年全国经销商峰会圆满落幕
风雨同舟,感恩有你。2月29日,以万商同心,盈享未来为主题的车仆集团2024年全国经销商峰
谈谈中国第一款AI搜索产品——天工AI
从最初通过书籍资料进行搜索，变成互联网时代利用web网站进行搜索，再到移动互联网时
新智认知打造聚安“社区防火保”，疏堵并进为电动自行车管理系上智能“安全扣”
近日来，因电动自行车不规范停放、充电造成的火灾事件，频繁出现在新闻中，电动自行车
Global Tech Network|起航！答“中企出海”创新之问
在全球政治格局重塑和技术创新的两大趋势引领下，全球化浪潮已经是中国企业的必答题。
Global Tech Network|起航！答“中企出海”创新之问
在全球政治格局重塑和技术创新的两大趋势引领下，全球化浪潮已经是中国企业的必答题。
科技驱动消费进步，值得买科技自研AI购物助手“小值”上线
2月29日，值得买科技自研AI购物助手小值正式在什么值得买App上线，标志着继去年8月多
智谱AI入选北京数字经济标杆百家企业
2月29日，《2023北京市数字经济标杆企业评价报告》正式发布，智谱AI与京东方、联想、
科寻科汇荣获“最具影响力专业服务机构”殊荣
2024年3月1日，上海虹桥国际中央商务区(闵行)企业表彰会暨2024年重点项目集中签约仪式
更懂辅导的学习机：作业帮学习机X28金牌辅导学练版如何以练促学？
在家庭教育场景中，作业辅导是不少家长掌握孩子学习状况、帮助孩子提升知识掌握情况的
学练合一更高效！作业帮学习机X28学练版五大金牌练习助学生练出好成绩
在家庭教育场景中，作业辅导是不少家长掌握孩子学习状况、帮助孩子提升知识掌握情况的