Baichuan 3 通用能力评测国内第一,知识百科能力超越GPT-4-Turbo

2024-04-30 15:13:54     来源:

4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,Baichuan 3在国内大模型中排名第一,以总分73.32的优异成绩超越文心一言4.0、通义千问2.1、GLM-4、Moonshot(Kimi)等大模型。

SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。致力于科学、客观、中立评测的CLUE自2019年成立起,陆续推出了CLUE、FewCLUE、KgCLUE、DataCLUE等被业界广为引用的测评基准。在CLUE的基础上,SuperCLUE依托多年测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性大模型测评基准。

不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过多维度、多视角、多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。

为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共2194题。

测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus,也力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上Baichuan 3表现同样不俗,均排名国内前三。

在评测国内外模型通用能力和专项能力的基础上,SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为,Baichuan 3可应用的场景相对广泛,尤其在专业技能类的任务上表现优异,重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外,Baichuan 3还可以在相对复杂的行业场景中落地,可应用于教育、医疗、金融等垂直行业。

 

标签:

猜你喜欢

摩尔线程闪耀亮相2024中国移动算力网络大会,展示多项合作创新成果
全面智能化升级!中国移动算网大脑推动算力网络点亮 AI新时代
老WOWer的“魔兽”情怀,天工AI竟然都懂!
耀星计划丨2024年4月最新进展
持续贡献开源 国产系统孵化项目加入CNCF Landscape
飞书,陪伴泡泡玛特向全球潮流文化进击
霄云科技助力淄博某三级医院信息化建设:融合存储方案推动行业变革
Valens与黑芝麻智能科技合作,将MIPI A-PHY与黑芝麻智驾和跨域计算平台对接
北京市支付机构反洗钱同业合作研讨会第二期反洗钱沙龙在易宝支付成功举办
打造人才培养新高地!达梦数据与华中师范大学共建“精英班”
北京面部馒化修复中心接诊001号顾客,数字化科技赋能解决馒化难题
智联招聘、天眼查等7家应用完成鸿蒙核心版本,引领企业级商务新体验
海思科:努力十年只为终止千万糖友的“痛”
华为旗舰店·上海南京东路重磅焕新,城市客厅体验升级
蛋仔派对关注未成年身心健康,积极开展公益活动引导健康消费价值观
为数智化安全护航 华为云能源行业思享会成功举办!
年轻人最爱的Hi nova 12 SE正式开售,4月30日开售2199元起!
飞猪与松赞集团签署年度战略合作协议 围绕品牌营销、会员等深入合作
AI新时代,金融新业态 中移金科携多款创新产品亮相2024移动算力网络大会
推动Micro-LED商业化四项核心技术
精倍莱健康贴士:男士减少久坐加强锻炼,有助机体蓄能,笑对挑战
中国移动云•星辰安全云能力中心正式启动!
TCL ESG实践向“绿”前行,武汉制造基地三年水回收量可再造一个武汉东湖
推陈出新 陈心陈意——科技赋能广陈皮,铺就新会致富路
芯片性能比肩国际水平!仁芯科技车载SerDes芯片R-LinC强在哪?
统信软件荣获2024年“北京市独角兽企业”授牌
开放原子校源行(西安站)顺利开幕
超声波创始人杨子超:AI融合地方产业是大机遇,邯郸等城市将会全面升级
纬亚智能入驻企知道科创空间,引领PCBA市场数字化变革风潮!
健力宝携手飞书,开启数智化变革时代