日前,国内最权威的中文模型评测机构之一“CLUE“基于SuperCLUE-Open测评基准,发布百亿级参数大模型评测报告。从最新的评测结果可以看出:Baichuan-13B毫无疑问是目前百亿参数量级性能最好的开源模型,各项能力大幅领先同规格模型产品。
首个中文通用大模型开放域多轮测评基准SuperCLUE-Open是一个有挑战的多轮对话开放域测试集,用于评估中文大模型多轮对话、主观题和遵循指令的能力。重点考察模型的十大能力,包括:语义理解与抽取,闲聊,上下文对话,角色扮演,知识与百科,生成与创作,代码,逻辑与推理,计算,代码和安全。
每个子能力有六十道题目,每个题目包括两轮问题。共1200道题目的测试可以体现大模型在典型使用场景(如生成、创作和提供想法)中的实际能力。
注:gpt-3.5-turbo为基线模型,胜和率为估计值
在SuperCLUE开放式多轮基准中,相对于国内的百亿级开源模型,Baichuan-13B-Chat具有很大的领先性(超过了20点以上)。在与国际代表性的模型对战中,也有65.28%的胜和率,而在当前的生成问题与多轮评测基准中,Baichuan-13B相对于GPT-3.5、Claude基础版也基本相当。
此外,SuperCLUE-Open基准测试的十大能力评估显示,在同等量级开源模型中 ,Baichuan-13B-Chat表现最为出色。在生成与创作能力(91.67%),上下文对话能力(78.33%)、角色扮演能力(91.67%)、闲聊能力(88.33%)、安全能力(81.67%)五种应用场景均大幅领先。
十大能力评估中Baichuan-13B在多个能力上都有出色表现。
本次百川智能发布的Baichuan-13B中英文大语言模型,凭借百亿参数量已经展现出可以媲美千亿模型的能力,相比同尺寸开源模型在某些场景测试更是遥遥领先。
可以说Baichuan-13B不仅是百川智能大模型之路上的又一里程碑,也是中国大模型快速进步的重要标志。