晴数智慧推出MagicData-CLAM高质量SFT数据集,助力大模型提效

2023-08-03 11:34:38     来源:

晴数智慧推出MagicData-CLAM高质量SFT数据集,助力大模型实现更优效果

两周前Meta发布了开源大模型LLaMA 2。与上一代LLaMA相比,LLaMA 2有着性能接近GPT-3.5、允许商用、安全性更强,巨头联合生态开源的特点。LLaMA 2的开源使得大模型的竞争来到新的起点,市场格局面临重塑。如果开源大模型使得企业不再制肘于自研大模型,那么基于大模型的生成式AI决胜关键将只有一个答案:数据。

数据质量是AI大模型落地的决胜关键

在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果的模型优化方式被越来越多业内人士所认同。人工智能领域的权威学者吴恩达发起了“以数据为中心的 AI”运动就是主张模型不变,通过改进数据集质量提升模型效果。在当前算力和算法难以拉开巨大差距的情况下,突破数据瓶颈、获取更多高质量的数据成为大模型落地的关键。

来源:Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023

晴数智慧推出高质量MagicData-CLAM数据集

在中文高质量数据集稀缺的情境下,晴数智慧基于近20年在对话数据的专业积累,在国内首次推出了面向大模型SFT训练的高质量数据集:MagicData-CLAM数据集。

该数据集包含一共5万条Prompt和对应回答,数据的分布由晴数智慧数据专家团队设计完成,覆盖领域多样性、任务多样性,以及表达多样性。数据版权完整清晰。

MagicData-CLAM帮助实现更优的大模型微调结果

为了更好地评估MagicData-CLAM的价值,晴数智慧研发团队进行了一组实验:基于chinese-llama-2-7b模型(该模型由开源项目 Linly 发布,是基于 LLaMA2-7b训练的中文底座模型),团队分别使用约等量的MagicData-CLAM数据集和基于斯坦福Alpaca数据处理的高质量中文数据集进行微调,得到Chinese-llama2-CLAM(简称CLAM)大模型和Chinese-llama2-alpaca(简称Alpaca)模型。我们对这两个模型以及基础chinese-llama-2-7b模型(基线模型)的输出结果进行评估。结果显示,从大模型的表达自然度上,结果输出结构化上,CLAM显著更优;在输出知识的正确性上CLAM也表现不错。

测评样例如下:

对比模型输出的结果,我们发现:

CLAM模型相比Alpaca模型,对中文的理解更好,结果输出上结构化更清晰。

Alpaca模型似乎容易先续写几句任务然后才开始进行回答,交互自然度稍有欠缺,而CLAM模型几乎未出现这种情况。

Alpaca模型偶尔出现幻觉,如它的输出结果有如此描述:经典的歌剧作品包括《托斯卡》、《费加罗的婚礼》、《魔笛》等,京剧作品如《茶馆》、《空城计》、《雷雨》等。(《茶馆》与《雷雨》并非京剧作品。)而在相关知识输出中,CLAM模型较好地理解了歌剧,京剧等的区别,并输出更合理的知识。

此实验结果说明,调优数据集对基线模型的输出结果有明显影响,使用更高质量的数据集,模型能输出更优的结果;Alpaca数据集是斯坦福大学研究团队发布的高质量数据集代表,而CLAM模型的输出结果优于Alpaca中文版模型,说明晴数智慧自研的MagicData-CLAM数据集是优质的中文高质量数据集。

了解更多实验过程,访问:https://github.com/magichub-opensource/CLAM-Conversational-Language-AI-from-MagicData

同时我们已将CLAM模型开源发布,访问获取:https://huggingface.co/MagicHub/clam-7b/tree/main

欢迎更多的伙伴访问、体验、反馈。

一场不同于过去的新的竞争正在生成式人工智能领域展开,高质量数据在其中将成为越来越关键的因素。MagicData-CLAM数据集作为晴数智慧在国内首发的合规可商用高质量SFT数据集,希望能帮助国内大模型应用研发伙伴先人一步,占领制胜先机。

更多MagicData-CLAM数据集详情,咨询电话:400-900-5251,或邮箱:business@magicdatatech.com

 

标签:

猜你喜欢

以AI成就“智造”——浦项(烟台)与华为云共同探路企业数字化变革
云汉芯城受邀出席上海松江区促进民营经济高质量发展大会
发改委发布《产业结构调整指导目录 2023》征求意见稿,精准鼓励“膜分离”等多项生物制药上游工艺
平安健康名医服务,帮助抑郁少年走出阴霾
科研与创新齐飞 立德共树人一色
新能源汽车“弯道超车”背后,果栗智造打造工业4.0时代“高铁速度”
“足球老炮”大能与“跨栏女神”夏思凝在“我的百科”中变装
腾讯云EdgeOne发布一周年,安全加速一体化方案获业内认可
城市NOA进入量产深水区 毫末智行、特斯拉率先打出的重感知、大模型会是最优解吗?
 北京市委网信办指导、首都网警出演 QQ上线系列网络安全科普趣味短视频
真HDR电视标杆诞生,TCL T7H究竟强在哪?
数字人虚拟主播重塑直播新范式,世优AI数字人直播赋能行业增长
2023睿抗机器人开发者大赛南方赛区争霸赛圆满落幕!
全体出动,河南联通网优KO网络难题
河南联通网优网络感知专员的日常
河南联通网优塔工的日常
河南联通网优测试员的日常
阿里巴巴2023ESG——瓴羊
肇庆市加快工业互联网建设,华为(肇庆)工业互联网创新中心正式揭牌
护眼成为日常刚需,博奥真明目维四维立体,重塑眼睛年轻力
郑州800架无人机献礼“八一”建军节!致敬最可爱的人!
预告:苏州中关村信息谷双创课堂——企业法律风险识别及案例总结
QuestMobile入选中国信通院“铸基计划”
个性设计与科技加持 三星BESPOKE缤色铂格系列产品树立套系家电新高度
本来生活网“为鲜赋能”第一步:到上游农产品生产端进行“前置品控”
全时空城市管家!麒麟软件携手正元地信共建新型智慧城市生态圈
全品类可查验可追溯,本来生活网拧紧食品安全阀门
UCFC受邀参加深圳国际医旅展, 彭文林院长与张艳菊总裁发表重要讲话
SUSECON 深圳 2023 创新峰会开启报名!
本来生活11年持续建设的核心工程,前一万公里强大生鲜供应链的“幕后英雄”