SuperCLUE-Open测评结果发布，Baichuan-13B百亿参数表现最佳

日前，国内最权威的中文模型评测机构之一“CLUE“基于SuperCLUE-Open测评基准，发布百亿级参数大模型评测报告。从最新的评测结果可以看出：Baichuan-13B毫无疑问是目前百亿参数量级性能最好的开源模型，各项能力大幅领先同规格模型产品。

首个中文通用大模型开放域多轮测评基准SuperCLUE-Open是一个有挑战的多轮对话开放域测试集，用于评估中文大模型多轮对话、主观题和遵循指令的能力。重点考察模型的十大能力，包括：语义理解与抽取，闲聊，上下文对话，角色扮演，知识与百科，生成与创作，代码，逻辑与推理，计算，代码和安全。

每个子能力有六十道题目，每个题目包括两轮问题。共1200道题目的测试可以体现大模型在典型使用场景（如生成、创作和提供想法）中的实际能力。

注：gpt-3.5-turbo为基线模型，胜和率为估计值

在SuperCLUE开放式多轮基准中，相对于国内的百亿级开源模型，Baichuan-13B-Chat具有很大的领先性（超过了20点以上）。在与国际代表性的模型对战中，也有65.28%的胜和率，而在当前的生成问题与多轮评测基准中，Baichuan-13B相对于GPT-3.5、Claude基础版也基本相当。

此外，SuperCLUE-Open基准测试的十大能力评估显示，在同等量级开源模型中，Baichuan-13B-Chat表现最为出色。在生成与创作能力（91.67%），上下文对话能力（78.33%）、角色扮演能力（91.67%）、闲聊能力（88.33%）、安全能力（81.67%）五种应用场景均大幅领先。

十大能力评估中Baichuan-13B在多个能力上都有出色表现。

本次百川智能发布的Baichuan-13B中英文大语言模型，凭借百亿参数量已经展现出可以媲美千亿模型的能力，相比同尺寸开源模型在某些场景测试更是遥遥领先。

可以说Baichuan-13B不仅是百川智能大模型之路上的又一里程碑，也是中国大模型快速进步的重要标志。

标签：

猜你喜欢

寻迹智行研发AGV搬运机器人，激光Slam导航满足复杂环境安全应用

派络维Pro登上《GLOW》杂志，知名人士推荐的抗衰精品

与慧兰医疗共聚冰城会|黑龙江省心血管疾病数字化智慧管理工程全国首发启动

全球首创“小绿键” 暴风龙P3护眼版笔记本开启护眼新战场

智微工业NIC-I226系列图像采集卡，解锁机器视觉新“视”界

如何实现荔枝自由？广州科普大讲坛带您揭开岭南佳果的“冻龄”密码！

中国家庭养育环境指数首发助家庭教育领域数字化转型

达成百万级合作！360智能营销云助力药食同源产业开启数字化升级之路

探索产业大数据模型每日互动打造“数实融合”基础设施

数智赋能共筑未来”DTCC2023！中国数据库技术大会最新议题更新，诚邀您参加！

TCL潮电展获奖感言：用科技引领潮流，用创新彰显不凡

MTSC2023中国互联网测试开发大会成功举办

飞利浦发布全新钻石7系电动牙刷，引领口腔护理行业迈入智能护龈时代

“贵阳机场”小程序正式上线功能更全面出行更方便

迈向5G-Advanced，5G演进学术交流论坛2023年会成功召开

AIGC爆发下，劳动舆情与人才风控管理的N种玩法

匠心独运，不落窠臼，2023慕尼黑上海电子展圆满收官！

汹涌人潮寻求产业破局口，汽车之外看展商引导这三大行业焦点

北京共享单车海量更新六分科技隐身引导“入栏管理”

来2023慕尼黑上海电子展，寻找行业重启新活力！

2023UDC潮电展来袭，TCL实业携创新产品及技术解码Z世代潮电趋势

CEVA Logistics与极智嘉携手，引领欧洲物流中心的创新浪潮

入围BrandZ 全球化成长明星品牌榜，唐农这家乐器品牌到底做过什么？

2023年EXCEL加速营开营，共绘绿色科技创新发展蓝图

烘焙与乳饮消费火热！恒天然积极创新应用思路引领“舌尖”风潮

聚力基础软件对标世界一流打造世界级操作系统中国品牌

单DLP芯片投影文旅市场投影生力军

PUROL肌光饮改善肌肤缺水问题，绽放青春的秘密

智连世界: 用友YonSuite扛起普及BIP大旗，迈入规模化高增长阶段

FuzFlo 亮相年度 B2B 数字增长峰会，用语言资产赋能营销增长

热点图片

要闻

美利云中卫数据中心首次参展亮相西安科博会
7月14日-16日，第17届中国西安国际科学技术产业博览会暨硬科技产业博览会（以下简称西
宅本吉装饰别墅项目《River Mansion》荣获2023伦敦设计奖最高奖项铂金奖
宅本吉House Aesthetics团队别墅空间项目《River&ensp;Mansion》荣获2023伦敦设计奖
华为云打造财税行业“沪上朋友圈”，共谋数字税务的创新与发展
当前，大数据、物联网、云计算、人工智能等新技术日新月异，深刻改变着企业所面临的内
《2023年中国信创信息安全企业TOP15》榜单发布，深信服位居第一
近日，iiMedia Ranking（艾媒金榜）发布《2023年中国信创信息安全企业TOP15》榜单，
QQ音乐业内率先推出「AI一起听」功能，领取你的AI听歌助手
日前，QQ音乐12 5新版本已灰度上线「AI一起听」功能，该功能旨在结合前沿AI技术及创
突破次元壁！无人机表演引爆《布莱泽奥特曼》中文主题曲
7月15日《布莱泽奥特曼》中文主题曲发布，在广州二沙岛上演了一场动感十足的无人机灯
QQ音乐臻品母带2.0于7月17日全新上线，带来高达55%音质提升
科技颠覆感官,解锁极致音乐体验。近日,QQ音乐迎来了音质的再次飞跃:7月17日首创的臻品
2023年EXCEL加速营开营，共绘绿色科技创新发展蓝图
由四川天府新区国家双创示范基地、中国三峡武汉科创园、清华四川能源互联网研究院主办
暑期旅行Tips：用墨迹天气巧妙安排行程
暑假和毕业季的来临，带动暑期旅游市场持续升温，多家在线旅游平台预测，今年有望迎来
穿越周期彰显韧性，招行信用卡荣获“2023年度金质信用卡天玑奖”
7月14日,2023(第五届)中国银行业天玑奖评选结果揭晓,招商银行信用卡第二次荣获金质信

SuperCLUE-Open测评结果发布，Baichuan-13B百亿参数表现最佳

相关阅读

猜你喜欢

热点图片

要闻