Baichuan 3通用中文评测基准总分77.4分:国内排名第二 优于GPT-3.5

2024-02-02 16:51:48     来源:

2月2日,国内大模型评测机构SuperCLUE发布了Baichuan 3大模型的评测结果。在SuperCLUE通用综合测评基准上,Baichuan 3以总分77.47分的成绩排名国内第二,跻身国内大模型第一梯队。

Baichuan 3是百川智能1月29日发布的超千亿参数大语言模型,在多个英文评测上表现出色,达到接近GPT-4的水平。此外,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力。

SuperCLUE是国内权威的中文通用大模型综合性评测基准之一,主要考察模型在中文能力上的表现,包括语言与知识、专业与技能、AI智能体和安全四大能力维度的上百个任务。

在本次评测中,Baichuan 3的综合表现优于GPT-3.5,与GPT-4差距已缩小至2.37分,与GPT4 Turbo相差13.16分,还有一定提升空间。

SuperCLUE认为,在本次测评中,Baichuan3在各项能力上表现均衡,尤其在计算、逻辑推理、角色扮演、语言理解能力上处于国内领先位置,适用于复杂逻辑应用及个性化拟人场景。代码能力还有一定提升空间。

作为超千亿参数的模型,与上一代开源模型Baichuan2-13B-Chat相比,Baichuan3各维度的能力均大幅升级。其中,计算能力提升幅度最大高达41.15%,逻辑推理能力提升18.03%、代码能力提升29.61%、知识百科能力提升14.38%、语言理解能力提升19.30%、角色扮演能力提升17.92%、工具使用能力提升20.09%、生成创作能力提升4.49%、上下文对话能力提升5.47%、传统安全能力提升3.10%。

评测结果显示,Baichuan 3的综合能力表现不俗,计算、逻辑推理、语言理解、角色扮演、上下文对话等基础能力上较为领先。

标签:

猜你喜欢

“哪吒行动”乡村儿童摄影展于2024年1月正式开展
正泰新能出席Energyear Brazil,分享光伏创新与可持续发展经验
对话刘德华、宁浩,董宇辉抖音生活服务首场直播售出60万张电影票
稳居2023年消费级AR眼镜国内出货量第一,Rokid如何厚积薄发
抖音生活服务报告:春节前“变美”经济火爆,休闲娱乐订单增长259%
抖音反诈提醒:所谓“抖音客服”让你转账,千万别信
释放AI算力无限可能,英特尔协同合作伙伴加速行业智能化升级!
WiFi万能钥匙矩阵连接助力年末商圈消费“开门红”
“花小楼”担任湖南长沙戏剧街形象推广大使,迷你世界持续助力传统文化传播
倍愈粒HEALBOOM:唤醒人体内在生命力,重塑青春活力新篇章
内外协同,焕活细胞:赛派诺Sulpyrro破译人体青春密码
口服健康,鲜活人生:跨世纪健康品牌Yisday,30年坚持只为自然守护
博睿数据算力调度可观测平台荣获信通院“算力服务领航者计划”优秀案例
逆势而上,积极探索,宁梵声学有线游戏耳机为电竞体验注入新活力
麒麟软件再获企业信用最高级评价
大数据智能化创新应用精准赋能 淄博打造交通管理数字化转型新范本
麻枝准催泪新作《炽焰天穹》简中服首曝 预约正式开启!
板川集成灶春节不打烊!宫系列龙年首发,五大好礼恭祝龙年行大运
A级供应商!中关村科金连续五年获得五矿信托表彰
“AI 改简历”获备案审批,智联招聘将全场景应用“大模型”?
YISDAY掌握前沿抗衰科技,助力逆龄每一DAY!
考试星发布考试测评领域首个垂直大模型
半导体存储芯片市场广阔,longsys江波龙加速产业布局进军存储封测业务
辞旧迎新读好书,抖音电商年货节助力图书销量上涨
多重利好加持 二手车消费有望引领“消费促进年”
从封闭到开放,普渡科技带领服务机器人行业先行一步
品质认可!追觅V12S吸尘器获珠海消委会五星评价
光峰专显亮相ISE 2024欧洲视听大展,投影新品S Pro首曝光
小红书X沃尔沃EM90:打造高品质「移动的生活空间」
时光珠高压氧舱:1.9ATA行业翘楚,为健康续航加冕的长寿科技