“国家队”评测30个大模型数学能力,九章、文心、星火位列前三

2024-03-01 16:30:34     来源:

去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型能力测评成为业界前沿课题。近日,大模型数学能力权威测评基准MathEval围绕数学能力,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势。

数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类大模型都具备一定的数学能力,而其能力表现则需要专门测评。不过现有大模型能力测评多数是对通用能力的测评,也有对推理能力、自然科学能力的专门测评中,但没有专门针对数学能力测评的参考基准,以及专门的权威测评机构。

近日MathEval的上线,弥补了行业空白。MathEval由智慧教育国家新一代人工智能开放创新平台联合暨南大学、北京师范大学、华东师范大学、西安交通大学、香港城市大学共同发起,是一个专注于全面评估大模型数学能力的测评基准,旨在全面评估大模型在算术、小初高竞赛和部分高等数学分支在内的解题能力表现。

截至目前,MathEval收集了2010年以来共19个被广泛使用的数学能力测评数据集,这些数据集来自ACL、AAAI、ICLR等数十个国际人工智能顶会论文中的公开数据,覆盖了不同年级、题型、文本形式和难度的数学问题,从而提供全面、具体的数学能力测评结果。

最新这次测评中,MathEval测试了30个大模型。在评测过程中,MathEval团队使用了GPT4大模型来进行答案抽取和答案的匹配,减少基于规则进行评测所带来的误差。结果显示,九章大模型在整体榜单和子榜单均排第一名。

九章大模型是由学而思自主研发的、面向全球数学爱好者和科研机构的垂类大模型。据悉,该公司在相关研发方面已累计投入超10亿元。可以说,作为少有的专注解题和讲题算法的大模型,九章这一表现并不意外。

同时,作为通用大模型的文心一言4.0、讯飞星火V3.5在测评中的表现也颇为亮眼,占据了第二、三位,均优于GPT-4。由此可见,国产大模型在数学方面的能力已经实现了赶超,未来能力提升和落地应用值得期待。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

送AI助理!钉钉2024开工季用AI为企业“加油”
数智化转型加速,创先新材与企知道科创空间携手共进
AI时代中国科技力量,浩鲸科技闪耀MWC2024
官宣张雨霏,森歌携手新冠军代言人共创品质生活
三星MWC 2024:Galaxy AI引领未来科技趋势
华为云开年采购季全面启动 智领千行万业 赋能美好未来
最佳产品和方案!国产操作系统教育网信成果再获肯定
首发价仅为1999元!作业帮推出超高性价比新品学习机P20
抗衰进入“肽”时代,韩国Caregen如何领跑仿生肽赛道?
合思助力传统制造业广东新晨汽车财务数字化建设落地,提升行业竞争优势
电子凭证试点常态化,合思助力企业全链路“无需报销–入账–归档”!
物流下半场赛事:发展无人驾驶,降低物流成本,引领高质量增长
Samsung One UI 6.1即将更新 更多Galaxy设备将支持Galaxy AI功能
多场景智能适配 三星Galaxy Buds2 Pro让生活更轻松
今年的新闻更有“数”, 华为云MetaStudio数字人与中青报的双向奔赴
国家电网、联通、华为和鼎桥联合打造的普惠5G智慧电网解决方案荣获GSMA GLOMO“最佳专用网络解决方案奖”
闪耀泉城,正泰新能携ASTRO N系列组件亮相济南太阳能展
懂车帝巨懂车将亮相深圳九州展 三大手段助力车后商家发展
少走弯路 不踩坑 Datadog 的替代品来了
衰老的原点竟是生殖衰老?巢乐维靶向女性生殖健康
健康需求年轻化?派络维pro科学靶向抗衰,点亮长寿未来
健步维科学靶向,直达软骨源头,改善关节状态
圆周率无穷无尽,时光派长寿诊所·TIMERULER时光尺3.0提供高端抗衰服务
博奥真御力维关注男性生殖健康,协同抗衰三泵促活
元气因NPC带来科学养护,让健康触手可及
筑梦干细胞研究 创新研发新药物
御力维科研男性抗衰,御维利泵发男性能源
御力维焕活机体青春力,呵护男性健康
高压氧舱市场走热,瑞健未来“时光珠”:民用顶配驱离亚健康
好内容与好体验齐飞,腾讯视频以AI技术打造智能化综艺制作