甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循!

2023-08-31 14:17:50     来源:

当前位置:EEChina首页 › 软件编程/OS › 新闻

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循!

发布时间:2023-8-31 10:47    发布者:科技新思路

夕小瑶科技说 分享

Lucy,是距今320万年最早的人类祖先,也是被输入某种“物质”后大脑开发到100%的超智能人类,能感知宇宙万物,拥有人类所有知识。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物质“。

随着大语言模型不断调优,大模型拥有了更优越的理解人类话语、指令并且生成类似人类语言文本的能力。机器和人类终归不同,如何最快速地判断机器是否能正确理解人类的知识和语言,成为我们共同关注的问题。

由此,甲骨易AI研究院推出了中文大语言模型成熟度评测——LucyEval,能够通过对模型各方面能力的客观测试,找到模型的不足,帮助设计者和工程师更加精准地调整、训练模型,助力大模型不断迈向更智能的未来。

Lucy的每一个字母背后都代表了不同的意义,包含着甲骨易AI研究院设计LucyEval时所考量的维度和坚持的理念。

L - Linguistic Fundamentals: 基础理解能力

U - Utilization of Knowledge: 知识运用能力

C - Cognitive Reasoning: 推理能力

Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含义:

Linguistic Fundamentals (基础理解能力) :描述模型对基础语法、词汇和句子结构的理解程度。

Utilization of Knowledge (知识运用能力):衡量模型在回答问题或生成文本时如何运用其内嵌的知识。

Cognitive Reasoning (推理能力):评价模型是否能从给定的信息中进行逻辑推断或解决复杂问题。

Yield of Specialized Outputs (特殊生成能力):测试模型在生成特定类型或风格的文本(例如诗歌、代码或专业文章)时的效能。

目前,LucyEval已发布如下两项测试集。

大规模多任务中文理解能力测试 Massive Multitask Chinese Understanding

 

2023年4月25日,针对中文大模型理解能力测试缺失且推出高质量中文评测数据集迫在眉睫这一现状,甲骨易AI研究院率先发布(首发)了一套大规模多任务中文大模型理解能力测试。

测试所包含的题目来自医疗、法律、心理学和教育四个科目的11900个问题,包含单项选择和多项选择题,目的旨在使测试过程中模型更接近人类考试的方式,覆盖学科面广,专业知识难度高,适合用来评估大模型的综合理解能力。

论文链接:

https://arxiv.org/abs/2304.12986

中文大模型多学科生成能力自动化评测基准 Chinese Generation Evaluation

 

目前领域内的评测大多都只针对模型的中文理解能力,通过选择题由模型直接生成答案,或者提取模型对各个答案选项的输出概率。从评测大模型的生成能力的角度,这些评测基准就存在很大的局限性。

在率先发布国内首个中文大模型理解能力测试后,甲骨易AI研究院于8月9日正式发布一套自动测评中文大模型多学科生成能力的评测基准。

基准包含11000道题目,涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的55个子科目。题型分为名词解释、简答题和计算题三种类型。同时,甲骨易AI研究院还设计了一套复合打分方式Gscore,使评分过程更加合理、科学。

甲骨易AI研究院使用本评测基准对以下模型进行了zero-shot测试,包括GPT-4、ChatGLM-Std、讯飞星火Spark Desk、文心一言ERNIE Bot等。

本次受测中文大语言模型

从所有模型在六大类科目的平均分来看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。

本次受测中文大语言模型平均得分

受测模型在其他学科的表现详见评测地址:

http://lucyeval.besteasy.com/

未来,甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标,持续研究适应其发展的测试集,期待与同样关注大语言模型发展的业界同仁携手共建。

论文链接:

https://arxiv.org/abs/2308.04823

更多AI相关资讯,请关注微信公众号:甲骨易

标签:

猜你喜欢

用飞连,让工厂1年节约建设成本40万
中小企业上云利器,华为云828营销季必购产品TOP3出炉!
禾益环境践行绿色环保理念 实现经济效益和环境效益“双提升”
中文在线上半年营收稳步增长 积极拥抱AI多模态新时代
华为钱包7周年特别福利 持续创新为数亿用户打造便捷数字生活
TIMESHOP益生好效果好吗?益生好助力抗衰,激活生命源泉
用AI蓄力 高质量发展提速 浙文互联半年报净利润同比增长10.73%_中商网-有价值的商业财经信息媒体
3D扫描技术丨助力大尺寸汽车玻璃曲面质量检测
易宝支付总裁余晨:探索互联网3.0是非常激动人心和有意义的
信息安全共性技术国家工程研究中心推出【生成式大模型评测服务】
汇纳科技持续推进合规建设,共创健康发展生态
抖音2023暑期文旅数据报告:淄博烧烤、贵州村超、音乐节和演唱会成带动旅游消费利器
“技术+产品+服务”一体化 联著实业深耕AI辅助档案开放审核应用
将于央视首播,4K花园联合西影出品8K纪录片《边城好味》亮相中国纪录片大会
润建股份数智城管助力城市精细化管理
2023世界清洁能源装备大会 “质量提升与品牌培育”高峰论坛在旌圆满召开
“超级月亮”返场 如何拍摄有创意的月亮照片
携手共进 | 中复神鹰与江苏法尔胜签署战略合作协议
深化合作建设世界级高端能源装备集群论坛在德阳召开
打通数字化供需的“堵点”,第二届828 B2B企业节北京站正式启动
CAS华车展全球发布,开启恢宏新篇章
CAS华车展正式启动:“超越会展”打造智能电动汽车会展标杆
【爱普生光影研究院】中国传媒大学戏剧影视学院光影空间艺术专业成果展
英雄出少年!爱普生助力青少年高尔夫球员挥出精彩,释放热爱!
绿色未来ESG科技圆桌 x MINDPARK圆满举办
新学期、新课程,华为云空间助你快速“通关”新挑战
NO钱包,便捷高收益的数字资产管理平台,开启财富增值之旅
夏日盛宴!NO钱包福利提升,矿工补贴大升级!
中科大数据研究院丨“计算机系统与开源芯片敏捷开发”首期师资培训班顺利举办
重庆邮电大学骁磁科技团队:创新打造高性能吸波材料,守护星载设备安全