伴随着工业化、信息化、智能化的不断发展,数字经济取得了显著的成就并即将迈向新的发展阶段。在此背景下,国家部委就推动以数字赋能推动产业高质量发展制定与实施一系列相关政策。不久前,工信部就鼓励部属单位开展数据确权授权的标准制定等方面工作展开了发表政策建议答复。
工信部网站显示:下一步,我部将围绕三方面做好相关工作。一是支持北京、上海等地数据交易机构高质量建设,鼓励各类市场主体参与数据要素市场建设,探索多种形式的数据交易模式,推动数据要素价值转化。二是推动全国统一数据登记平台高水平建设,指导开展数据资产价值评估试点,打通数据要素流通堵点。三是鼓励部属单位开展数据确权授权的标准制定、技术研发、平台应用、授权认证等方面工作,探索数据确权授权的落地方案和创新模式。
统一的数据要素市场建设离不开统一数据标准的制定。在新的依托大模型为基础的生成式人工智能发展趋势下,晴数智慧响应政府与市场号召,探索与制定新的符合大模型数据需求的数据分级分类企业标准,并于今日公开发布。
晴数智慧将大模型数据集生产分为L1到L3三个标准,级别越高,数据精度越高。晴数智慧希望通过这套企业标准划分不同的数据处理层级,规范并提升数据质量,并确保数据的可靠性、有效性和知识产权的清晰性。
这三个标准之间形成了一个逐步升级与优化的数据处理流程,从基础的自动化清洗到逐步优化和深度处理,以达到企业对数据质量和数据合规的双重要求。
L1阶段着重于自动化处理和基本数据清洗,由中级数据专家设计数据分布,采用一流性能的大模型,通过全自动数据清洗处理和A100/A10 GPU算力支持,确保数据的基本质量,同时强调数据知识产权的清晰性。
L1数据样例:
L2阶段在L1的基础上进一步提升数据质量,由高级数据专家设计数据分布,同样采用一流性能大模型进行全自动数据预清洗处理。在此基础上引入人工筛选不合格数据,以无害性和语言模型任务完成能力为核心标准,进一步优化数据。
L2数据样例:
L3阶段在前两个阶段的基础上,更加注重数据的高质量和深度处理,由特级数据专家设计数据分布,同样采用一流性能大模型协同生产并进行全自动数据预清洗处理。而后通过人工筛选并修正不合格数据,筛选标准包括事实性、相关性、流畅性、无害性以及语言模型任务完成能力,进一步确保数据的可信度和可用性。
L3数据样例:
这三个标准层级在数据顶层设计、数据处理的自动化程度、人工干预程度以及数据筛选的严格程度上存在差异。通过这一套企业标准,晴数智慧希望在数据产品及服务交付过程中确保数据质量、帮助客户针对性提升模型性能以及满足不同任务需求。
晴数智慧希望这套大模型数据集企业标准能为政府有关部门及合作伙伴提供一定的参考和借鉴,助力统一数据要素市场的建设。
更多标准详情,咨询晴数智慧。