IDC、智源最新大模型评测百度文心大模型双榜夺魁

6月17日消息，近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，超过字节云雀、豆包和阿里通义千问等一众国产大模型，以及OpenAI的最新模型GPT-4o。在中文语境下，以文心大模型为代表的国内头部语言模型的综合表现已超过国际一流水平的表现。

FlagEval大语言模型评测能力榜单官网截图

FlagEval天秤大模型评测平台是智源研究院推出的科学、权威、公正、开放的大模型评测体系，自2023年发布以来，已从主要面向语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖，目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示，FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

FlagEval大语言模型评测能力榜单官网截图

从榜单中可以看到，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，云雀2-Pro、豆包、GPT-4o分别位居二三四位，百川、零一万物、kimi等追随其后。

早在上周，国际数据公司IDC发布的《中国大模型市场主流产品评估，2024》中，百度同样位于第一梯队，是唯一一家在7大维度上均为优势厂商的企业。评测显示，百度旗下生成式AI产品文心一言和文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力，toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。其他评测厂商中，阿里获6项优势维度，OpenAI GPT-4和商汤分获5项。

IDC《中国大模型市场主流产品评估，2024》

公开资料显示，2023年10月，百度文心大模型4.0正式发布，实现了基础模型的全面升级，在理解、生成、逻辑和记忆能力上明显提升。截至目前，文心一言累计用户规模已达2亿，日均调用量也达到了2亿。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：

稳定性和高可用如何保障？华为云618营销季网站高可用解决方案一手测评

推动系统安全学术前沿促进机密计算产业发展——记南方科技大学计算机科学与工程系张殷乾教授

新壹科技携手新华社 AIGC重绘“父爱”

国产旗舰SSD明日之星！紫光闪存UNIS SSD S2 Ultra现已开售

银龄权益日福利惠及北京市300万老年人——北京移动多措并举呵护银发族畅享数智生活

国风毕业照来了！百度网盘上线「簪花毕业照」等系列AI写真

看直播，赢好礼~ 2024 华为企业服务解决方案发布会

港华紫荆“安芯”、“静享”两大新品套系重磅发布！

618购物狂欢节，HUAWEI MateBook让你告别选择困难症

FastIPS尊龙凯丽面板加持HKC VG245电显带来超凡刷率体验

晋韵恒康96595，出院转院可预约救护车服务

多样性算力产业峰会2024成功举办推动产业生态蓬勃发展

蔡崇达直播介绍“故乡三部曲”收官之作，新书《草民》在抖音电商发布

抖音生活服务“心动之城”落地武汉，将推超10万款优惠团购助力城市消费

思维碰撞 AI赋能——成都市2024年人工智能教育教学研讨活动成功举办

重磅新闻！狂揽120台订单！大运重卡唐山销服一体运营店盛大开业

莲偶科技独家冠名深圳幼儿武术交流赛，魔法戒指飞碟等创新产品在赛场内外大放异彩

618嘉年华狂欢倒计时三星Galaxy S24系列好礼送不停

TECNO全新发布SPARK 20 Pro 5G，带来5G影音娱乐全方位升级体验

铝拓科技焕新出发：简称由“铝拓网”正式升级为“铝拓科技”

受邀参加Android TV Bootcamp，光峰科技激光闪耀大洋彼岸

探索昆虫嗅觉致力飞蝗防治

笃行不怠深耕投资专业领域——道彤投资荣膺投中榜2023年度多项荣誉

618马上购买平板选三星Galaxy Tab S9系列更超值

主流价位信创笔记本怎么选？联想开天N60z兆芯版上手体验

获奖案例｜Xmas 通过 AI 驱动技术提高品牌销量

永升服务入选上海财经大学、阿里研究院与钉钉“大型企业数智化专题调研”课题案例

Soul App语音大模型“伶伦”升级，上线“异世界回响”支持跨次元“打电话”

i37智能指环斩获红点至尊大奖，开启全天候健康守护穿戴潮流

热点图片

要闻

万数汇海同创共赢 | openGauss Developer Day 2024将于6月21日在北京举办
2024年6月21日， openGauss Developer Day 2024将在北京·昆泰嘉瑞文化中心举办。
尽纳万象·所见不同——联想携手单向空间共筑未来科技交流盛会
6月14日的佛山,在科技与文化的交汇点上,一场别开生面的科技分享会悄然拉开帷幕。拥有
华为智领工业梦，云聚未来共思享
龙岗区制造业企业cxo在华为松山湖合影6月14日，深圳华为云计算技术有限公司与华为（龙
Marketingforce迈富时：Tforce大模型全面落地应用场景
人类社会步入智能时代，产生的数据量会远超我们想象。而大模型将是我们挖掘巨大的数据
智领云端，逐梦低空中国电信成立低空经济产业联盟
6月17日，中国电信以智领云端，逐梦低空为主题，在江苏南京举办了中国电信低空经济合
香港身份服务行业进入量化时代，银河集团荣登艾媒咨询2024年中国香港身份规划服务机构排名行业第一
自2022年底香港特区政府启动全球抢人才战略以来，香港身份规划服务行业呈现出几何增长
云柜台升级为找金 · 智慧金店，赋能门店寻找新的增长点
数字驱动迭代升级，引领科技智能终端。6月17日，云柜台升级智慧金店平台发布会通过现
世界冠军携手“霸道总裁”，6月18日Cleer直播间好礼送不停！
今年的6·18狂欢已接近尾声，但热度却丝毫不减。为回馈广大消费者一路以来的支持，国
SNEC2024 | 圆满收官期待与您再相会
6月15日,全球最具影响力的光伏盛会——第十七届SNEC光伏大会圆满落幕。展会期间,TCL光
618年中大促 ROG魔霸7Plus大屏电竞本史低价8999元
618大促火热进行中，ROG多款笔记本迎来钜惠，信仰好物ROG魔霸新锐入手9999元，配备赛

IDC、智源最新大模型评测百度文心大模型双榜夺魁

相关阅读

猜你喜欢

热点图片

要闻

IDC、智源最新大模型评测 百度文心大模型双榜夺魁

相关阅读

猜你喜欢

热点图片

要闻

IDC、智源最新大模型评测百度文心大模型双榜夺魁