SuperCLUE-Open测评结果发布,Baichuan-13B百亿参数表现最佳

2023-07-18 11:54:28     来源:

日前,国内最权威的中文模型评测机构之一“CLUE“基于SuperCLUE-Open测评基准,发布百亿级参数大模型评测报告。从最新的评测结果可以看出:Baichuan-13B毫无疑问是目前百亿参数量级性能最好的开源模型,各项能力大幅领先同规格模型产品。

首个中文通用大模型开放域多轮测评基准SuperCLUE-Open是一个有挑战的多轮对话开放域测试集,用于评估中文大模型多轮对话、主观题和遵循指令的能力。重点考察模型的十大能力,包括:语义理解与抽取,闲聊,上下文对话,角色扮演,知识与百科,生成与创作,代码,逻辑与推理,计算,代码和安全。

每个子能力有六十道题目,每个题目包括两轮问题。共1200道题目的测试可以体现大模型在典型使用场景(如生成、创作和提供想法)中的实际能力。

image.png

注:gpt-3.5-turbo为基线模型,胜和率为估计值

在SuperCLUE开放式多轮基准中,相对于国内的百亿级开源模型,Baichuan-13B-Chat具有很大的领先性(超过了20点以上)。在与国际代表性的模型对战中,也有65.28%的胜和率,而在当前的生成问题与多轮评测基准中,Baichuan-13B相对于GPT-3.5、Claude基础版也基本相当。

image.png

此外,SuperCLUE-Open基准测试的十大能力评估显示,在同等量级开源模型中 ,Baichuan-13B-Chat表现最为出色。在生成与创作能力(91.67%),上下文对话能力(78.33%)、角色扮演能力(91.67%)、闲聊能力(88.33%)、安全能力(81.67%)五种应用场景均大幅领先。

image.png

十大能力评估中Baichuan-13B在多个能力上都有出色表现。

本次百川智能发布的Baichuan-13B中英文大语言模型,凭借百亿参数量已经展现出可以媲美千亿模型的能力,相比同尺寸开源模型在某些场景测试更是遥遥领先。

可以说Baichuan-13B不仅是百川智能大模型之路上的又一里程碑,也是中国大模型快速进步的重要标志。

 

标签:

猜你喜欢

寻迹智行研发AGV搬运机器人,激光Slam导航满足复杂环境安全应用
派络维Pro登上《GLOW》杂志,知名人士推荐的抗衰精品
与慧兰医疗共聚冰城会|黑龙江省心血管疾病数字化智慧管理工程全国首发启动
全球首创“小绿键” 暴风龙P3护眼版笔记本开启护眼新战场
智微工业NIC-I226系列图像采集卡,解锁机器视觉新“视”界
如何实现荔枝自由?广州科普大讲坛带您揭开岭南佳果的“冻龄”密码!
中国家庭养育环境指数首发 助家庭教育领域数字化转型
达成百万级合作!360智能营销云助力药食同源产业开启数字化升级之路
探索产业大数据模型 每日互动打造“数实融合”基础设施
数智赋能 共筑未来”DTCC2023!中国数据库技术大会最新议题更新,诚邀您参加!
TCL潮电展获奖感言:用科技引领潮流,用创新彰显不凡
MTSC2023中国互联网测试开发大会成功举办
飞利浦发布全新钻石7系电动牙刷,引领口腔护理行业迈入智能护龈时代
“贵阳机场”小程序正式上线 功能更全面出行更方便
迈向5G-Advanced,5G演进学术交流论坛2023年会成功召开
AIGC爆发下,劳动舆情与人才风控管理的N种玩法
匠心独运,不落窠臼,2023慕尼黑上海电子展圆满收官!
汹涌人潮寻求产业破局口,汽车之外看展商引导这三大行业焦点
北京共享单车海量更新 六分科技隐身引导“入栏管理”
来2023慕尼黑上海电子展,寻找行业重启新活力!
2023UDC潮电展来袭,TCL实业携创新产品及技术解码Z世代潮电趋势
CEVA Logistics与极智嘉携手,引领欧洲物流中心的创新浪潮
入围BrandZ 全球化成长明星品牌榜,唐农这家乐器品牌到底做过什么?
2023年EXCEL加速营开营,共绘绿色科技创新发展蓝图
烘焙与乳饮消费火热!恒天然积极创新应用思路 引领“舌尖”风潮
聚力基础软件 对标世界一流 打造世界级操作系统中国品牌
单DLP芯片投影文旅市场投影生力军
PUROL肌光饮改善肌肤缺水问题,绽放青春的秘密
智连世界: 用友YonSuite扛起普及BIP大旗,迈入规模化高增长阶段
FuzFlo 亮相年度 B2B 数字增长峰会,用语言资产赋能营销增长