IDC、智源最新大模型评测 百度文心大模型双榜夺魁

2024-06-18 18:38:52     来源:

6月17日消息,近日,由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一,超过字节云雀、豆包和阿里通义千问等一众国产大模型,以及OpenAI的最新模型GPT-4o。在中文语境下,以文心大模型为代表的国内头部语言模型的综合表现已超过国际一流水平的表现。

FlagEval大语言模型评测能力榜单官网截图

FlagEval天秤大模型评测平台是智源研究院推出的科学、权威、公正、开放的大模型评测体系,自2023年发布以来,已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。

FlagEval大语言模型评测能力榜单官网截图

从榜单中可以看到,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一,云雀2-Pro、豆包、GPT-4o分别位居二三四位,百川、零一万物、kimi等追随其后。

早在上周,国际数据公司IDC发布的《中国大模型市场主流产品评估,2024》中,百度同样位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。评测显示,百度旗下生成式AI产品文心一言和文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。其他评测厂商中,阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。

IDC《中国大模型市场主流产品评估,2024》

公开资料显示,2023年10月,百度文心大模型4.0正式发布,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上明显提升。截至目前,文心一言累计用户规模已达2亿,日均调用量也达到了2亿。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

Solar The Future!正泰新能发布“新光未来”绿色能源共同体公益计划
稳定性和高可用如何保障?华为云618营销季网站高可用解决方案一手测评
推动系统安全学术前沿 促进机密计算产业发展——记南方科技大学计算机科学与工程系张殷乾教授
新壹科技携手新华社 AIGC重绘“父爱”
国产旗舰SSD明日之星!紫光闪存UNIS SSD S2 Ultra现已开售
银龄权益日福利惠及北京市300万老年人——北京移动多措并举呵护银发族畅享数智生活
国风毕业照来了!百度网盘上线「簪花毕业照」等系列AI写真
看直播,赢好礼~ 2024 华为企业服务解决方案发布会
港华紫荆“安芯”、“静享”两大新品套系重磅发布!
618购物狂欢节,HUAWEI MateBook让你告别选择困难症
FastIPS尊龙凯丽面板加持HKC VG245电显带来超凡刷率体验
晋韵恒康96595,出院转院可预约救护车服务
多样性算力产业峰会2024成功举办 推动产业生态蓬勃发展
蔡崇达直播介绍“故乡三部曲”收官之作,新书《草民》在抖音电商发布
抖音生活服务“心动之城”落地武汉,将推超10万款优惠团购助力城市消费
思维碰撞 AI赋能——成都市2024年人工智能教育教学研讨活动成功举办
重磅新闻!狂揽120台订单!大运重卡唐山销服一体运营店盛大开业
莲偶科技独家冠名深圳幼儿武术交流赛,魔法戒指飞碟等创新产品在赛场内外大放异彩
618嘉年华狂欢倒计时 三星Galaxy S24系列好礼送不停
TECNO全新发布SPARK 20 Pro 5G,带来5G影音娱乐全方位升级体验
铝拓科技焕新出发:简称由“铝拓网”正式升级为“铝拓科技”
受邀参加Android TV Bootcamp,光峰科技激光闪耀大洋彼岸
探索昆虫嗅觉 致力飞蝗防治
笃行不怠 深耕投资专业领域——道彤投资荣膺投中榜2023年度多项荣誉
618马上购 买平板选三星Galaxy Tab S9系列更超值
主流价位信创笔记本怎么选?联想开天N60z兆芯版上手体验
获奖案例|Xmas 通过 AI 驱动技术提高品牌销量
永升服务入选上海财经大学、阿里研究院与钉钉“大型企业数智化专题调研”课题案例
Soul App语音大模型“伶伦”升级,上线“异世界回响”支持跨次元“打电话”
i37智能指环斩获红点至尊大奖,开启全天候健康守护穿戴潮流