复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

2024-06-13 09:44:49     来源:

近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024 年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新 II 卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新 I 卷评测排名中,字节豆包也排在前列。

据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新 II 卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

 

标签:

猜你喜欢

从源头到终端,茉酸奶全方位把控产品品质
上海市拥军优属基金会理事长周太彤一行莅临千机科技集团考察调研
发展新质生产力,推动网安人才培养 | 长扬科技工业安全靶场产品线全新升级
618年中大促,OBSBOT寻影让你的直播更出彩
聚焦智能化应用场景创新,全国首届化工行业人工智能应用创新大赛启动
深化合作!邦盛科技中标上海银行交易风险监控平台二期项目
喜报 | 邦盛科技智能审计系统连中三元
瓴羊DataphinV4.1大升级: 携手Lindorm解锁高性价比数据治理,迎来“公共云半托管”云上自助新模式
港投公司与「港产独角兽」思谋科技今签定战略合作协议
贵州工会货车司机集中入会仪式在数字货运平台满帮集团举行
蓝牙耳机销量反弹,绿联科技精耕细分赛道,一路直奔IPO
2024全国CIO大会盛大召开
德鲁巴专题报道|爱普生打印头为数字印刷产业带来技术蝶变
父亲节礼物要有“AI” 三星Galaxy S24系列购机更有惊喜好礼
再获殊荣!耐特康赛渠成获2024虎啸盛典“中国数字营销十五年风云人物”奖
2024北京网络安全大会数据安全论坛成功举办
“走进华为”系列活动·北京站邀约40+企业客户,汇聚鸿蒙生态力量
携程在手,回收必有,携程卡闲置的超值之选
“太湖对话:人工智能+” 顾维灏:使用自动驾驶的用户最需要省力、省心、省钱,更要以安全为前提
德氪微毫米波无线连接方案亮相InfoComm LED屏加速进入无线时代
抖音“天下第一团”非遗直播周落幕,8家国有院团带来70场濒危好戏,吸引超6420万人次观看
618好物推荐之三星Galaxy A55 5G:年轻用户青睐的实力派优选
618不盲目 大屏平板就选三星Galaxy Tab S9 FE
企业快成长创新云基础设施论坛即将开幕,可线上报名参与!
“零绘画基础”的逆袭神器来了!你天生就会画!
场导创新成果:“姜氏依科姆场导舱”落地运行
光明网:直播电商发掘产业带发展的更多可能
新品亮剑·国货崛起丨灵科伺服超声波新品发布会成功举办!
中关村品牌协会创新100首期项目成功落地上海安亭镇
百视通云电竞上演“双城记” 线上线下开启电竞新风尚