“国家队”评测30个大模型数学能力,九章、文心、星火位列前三

2024-03-04 15:40:52     来源:

去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型能力测评成为业界前沿课题。近日,大模型数学能力权威测评基准MathEval围绕数学能力,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势。

数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类大模型都具备一定的数学能力,而其能力表现则需要专门测评。不过现有大模型能力测评多数是对通用能力的测评,也有对推理能力、自然科学能力的专门测评中,但没有专门针对数学能力测评的参考基准,以及专门的权威测评机构。

近日MathEval的上线,弥补了行业空白。MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起,是一个专注于全面评估大模型数学能力的测评基准,旨在全面评估大模型在算术、小初高竞赛和部分高等数学分支在内的解题能力表现。

截至目前,MathEval收集了2010年以来共19个被广泛使用的数学能力测评数据集,这些数据集来自ACL、AAAI、ICLR等数十个国际人工智能顶会论文中的公开数据,覆盖了不同年级、题型、文本形式和难度的数学问题,从而提供全面、具体的数学能力测评结果。

最新这次测评中,MathEval测试了30个大模型。在评测过程中,MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配,减少基于规则进行评测所带来的误差。结果显示,九章大模型在整体榜单和子榜单均排第一名。

九章大模型是由学而思自主研发的、面向全球数学爱好者和科研机构的垂类大模型。据悉,该公司在相关研发方面已累计投入超10亿元。可以说,作为少有的专注解题和讲题算法的大模型,九章这一表现并不意外。

同时,作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼,占据了第二、三位,均优于GPT-4。由此可见,国产大模型在数学方面的能力已经实现了赶超,未来能力提升和落地应用值得期待。

标签:

猜你喜欢

IBM推出AI增强的数据弹性功能,打造更安全的存储解决方案应对勒索软件及其他威胁
国民级性价比全能洗地机 可平躺的石头A20 Air开启首销
“瓷二代”分享非遗“扒花”火出圈,更多年轻人在抖音电商爱上传统文化
Medidata 与赛诺菲疫苗扩大合作,践行以患者为中心并提升试验效率
中国一汽首席科学家朱启昕:以大模型应用推进新四化转型
纵行科技荣登中国物联网企业投资价值50强及行业创新产品榜
usmile笑容加举办Y20新品交流会,提出数字牙刷进阶新方向
数字驱动产业升级 | 3D扫描技术让船舶制造更“聪明”!
擘画“宽带边疆”建设蓝图:华为全光接入网在“路”上
微盟集团:赋能国际品牌衣恋数字化升级,实现线上线下融合增长
亨通集团乘创新之翼,迈向世界一流企业的辉煌征程
“只减负不减配”,预算福音硕一凤凰U320装机体验
倍他强怎么样?TimeShop口服科技,助力男士本源持久健康
三星Galaxy S24系列品鉴会星耀沈阳 Galaxy AI创新改写移动生活
华硕京东超品日来袭!ROG魔霸7 Plus电竞本9999元超值入手
“不老女神”朱茵携手健康科技,TIMESHOP还原型辅酶Q10呵护心血管
粉象生活创始人李红星荣获2024阿里巴巴公益榜“公益之星”称号
CISILE 2024“自主创新金奖”将于3月15日截止报名,申报从速!
Glints调查发现中国内地及香港特区企业跨境增聘东南亚创业人才
康迈面对面丨卡友心中的“宝藏节目”,尽展行业魅力与品牌温度
加速ADHD电子处方药普及 数药智能签约爱科百发
科研再结硕果!悦康药业注射用头孢唑林钠通过仿制药一致性评价
中小企业数智化升级优秀产品方案出炉,华为收获最多“首选”
权威鉴证优质环保|班兰家具荣获“十环认证”、ISO双体系认证
全国人大代表刘宏志:数字化建设加速 为乡村振兴提质
抖音演艺直播数据报告:全年7143万场演出,同比增长47%
探索揭示元认知 心理科研谱新篇 ——记北京师范大学心理学部讲师胡啸博士
深潮携手成立BIPV产业联盟 双向奔赴推动产业协作走深走实
绿色照明:升龙灯光颠覆性散热技术,重新定义可持续照明
龙行龘龘,华为云携手伙伴助力数字时尚产业腾飞!