谁在给大模型提供高质量“燃料”?2024世界人工智能大会揭晓十强

2024-07-19 18:06:05     来源:

自从ChatGPT横空出世,大模型技术进入了爆发式增长阶段,引领了人工智能领域的新一轮革新。然而,这种快速发展背后隐藏着一个不容忽视的问题——高质量语料的枯竭正成为制约大模型进步的关键瓶颈。

据《全球人工智能产业研究报告》2024年版指出,尽管数据总量持续膨胀,但真正能够用于高质量训练的语料资源却日益稀缺。报告强调,随着模型规模的不断扩大,对高质量、多样化且无偏见的数据需求也随之激增。然而,现实情况是,能够满足这些高标准要求的语料库却在减少,这直接影响到模型的性能和可靠性。

知名AI专家、斯坦福大学教授李飞飞在2024年国际人工智能峰会上的演讲中也提到了这一点:“我们正处于数据饥渴的时代。大模型的发展速度超过了数据生成的速度,特别是高质量数据的生成。这是我们必须正视并解决的问题。”

此外,谷歌AI负责人Jeff Dean在2024年的一次采访中表示:“数据质量是决定大模型能否达到预期性能的关键。没有足够丰富和多样的数据集,即使是最先进的算法也无法发挥其潜力。”

为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,本次世界人工智能大会期间,大模型语料数据联盟、上海库帕思科技有限公司将联合上海市数商协会、上海市人工智能行业协会以“语料筑基,智生时代”主题举办语料主题论坛。

谁在给大模型提供高质量燃料?云测数据成功登榜

要解决高质量语料的枯竭问题,一方面需要数据服务商不断提升数据采集和处理的技术水平。

而目前市面上数据服务商在提供高质量语料方面可能面临多种挑战,包括在数据层面,面临数据质量与多样性、数据隐私与合规性、数据时效性等问题;在技术层面,面临数据采集手段落后,数据预处理和标注技术不足等问题;在企业层面,高质量数据采集和处理成本高昂,小规模服务商可能难以承担,影响其长期运营和数据更新频率。

为帮客户更好找到优秀语料服务商,此次论坛发布了“2024中国语料风云榜”。

本次榜单分申报、预选、复评、公示、发布五个阶段进行。评选从“好企业、好产品、好规则”三个一级指标维度,细分至六个二级指标(经营能力、品牌能力、产品能力、创新能力、规范能力、基础能力),及16个细化三级指标进行评审。

由来自全国范围的百家申报企业中,通过企业定量申报数据筛选出20个较有代表性的企业入围(预选);经过多位专家评委的定性定量复选评审,按照综合得分排名Top10的申报企业上榜,其中云测数据成功登榜。

据了解,云测数据之所以能在“2024中国语料风云榜”中脱颖而出,离不开其在数据标注平台能力、面向垂直行业大模型AI数据解决方案、以及智能驾驶AI数据解决方案等方面的卓越表现。

在标注平台方面,云测数据打造了新一代人工智能数据处理工具,荣获多个行业奖项,其平台支持多类型数据处理,极大提升数据训练效率,标注精准度可高达99.99%,为企业AI应用落地提供了强有力的支持。

在垂直行业解决方案上,基于深厚的行业经验,云测数据推出定制化AI数据解决方案,深度满足垂直行业需求,特别在微调任务中,提供文本、多模态等数据支持,加速AI技术在各领域的应用。尤其是值得一提的是云测数据的智能驾驶AI数据解决方案。

其自动驾驶解决方案2.0以集成数据底座为核心,实现了数据闭环能力、自动标注能力、数据管理工具链的全方位升级,不仅提升了数据标注的质量,更大幅提高了数据标注、流转的效率,使企业AI数据训练过程的综合效率提升至200%。此外,通过支持BEV-transformer标注,云测数据强化了自动标注结果的校验能力,提升了大模型文本语言标注能力和评测服务能力,为智能驾驶企业带来更自然、更智能、更多样化的人机交互体验。

解决高质量语料短缺问题,还需行业协作

解决高质量语料的短缺问题,不仅是单个数据服务商的责任,而是需要整个行业乃至跨行业间的共同努力。

一来,数据的生成和标注是一个复杂而耗时的过程,涉及到技术、伦理、法律法规等多个层面。单一实体,无论其技术多么先进,都难以独自应对数据收集、清洗、标注、存储和分发等各个环节的挑战。因此,行业内需要建立共享机制,促进数据资源的有效流通和利用,避免重复劳动,提高整体效率。

二来,高质量语料的定义不仅仅是数据的量大,更重要的是数据的多样性和代表性。这要求数据覆盖各种场景、语言、文化和专业领域,单一服务商往往难以覆盖如此广泛的范围。只有通过行业内的合作,才能汇集来自不同背景和领域的数据,确保训练出的模型具有更强的泛化能力和公平性。

在本次论坛上,50余家单位共同发起了“语料生态服务大模型可持续发展倡议”,旨在打造一个资源共享、互利共赢、国际融通的语料生态圈,进一步强化语料生态全产业链的交流合作,营造有利于中国大模型产业生态健康发展的环境,其中云测数据也位列其中。

在行业端,云测数据一直在积极推动完善AI数据服务生态发展,通过丰富成熟的数据服务与策略积累,联合AI领域各大代表企业积极推动行业相关标准体系化的建设,围绕数据生产流程、数据质量管理、数据交付实施等能力形成多维度评价指标,为行业的高速、健康发展贡献力量,助力提升数据产品质量和交付服务水平。

在助力AI数据标准化体系建设进程中,云测数据将成熟的技术、服务等经验总结,先后参与编制了《智能网联汽车激光雷达点云数据标注要求及方法》、《智能网联汽车场景数据图像标注要求与方法》、《人工智能研发运营一体化(Model/MLOps)能力成熟度模型第一部分:开发管理》、《人工智能研发运营一体化(Model/MLOps)能力成熟度模型 第二部分:模型交付》、《面向人工智能的数据交付服务能力成熟度模型》、《人工智能数据集质量管理能力评估方法》等产业相关标准,助力人工智能数据服务在落地领域规范化发展。

解决高质量语料的短缺问题,不能一蹴而就,需要整个行业从数据资源共享、多样性保障、技术标准制定、技术创新和人才培养等方面共同努力,形成一个健康、开放、合作的数据生态系统。只有这样,才能确保AI模型的持续进步和人工智能产业的长远发展。

 

标签:

猜你喜欢

北京大学gStore团队入选《中国数据库产业图谱(2024年)》
2024智慧城市先锋榜发布!华为云与城市同行,助力城市数字化转型
国产AOI设备加速创新,助力中国“智”造新升级
国产化之CentOS迁移到信创服务器操作系统
达尔优“天狼星”电竞系列上市,引流电竞桌搭新潮流
安全连网畅享阅读,WiFi万能钥匙护航数字生活新体验
“走出课本”学科学,作业帮编程夏令营解码“人工智能+”的奥秘
促进文旅融合 摄取绮丽美景 一批摄影大家聚焦马陵山旅游景区
抖音电商推出“热力先锋季”主题活动,蒙牛、安踏等多个赞助商品牌参与
打造丰富AI生态体验 三星Galaxy Z Fold6|Z Flip6及生态新品中国发布
第二届世界科学智能大赛开赛,五大赛道选手共赴“AI爱因斯坦”之约
打造现代化核心可信新标准!华为主机上云方案亮相金融展
【华为钱包交通卡新福利】联手《重返未来:1999》手游,暑期定制卡面免费领!
华为终端“自在享一夏”活动即将上线,打卡即有机会赢华为Pura 70 Pro
微博发布《2024微博网暴治理半年报》 重点处置六类违规行为
边缘计算产业新风向:网心科技入选中国边缘计算产业图谱三大领域
载誉而归:Acloudear再度荣获SAP大中华区最佳云续约合作伙伴大奖!
ESG专栏丨TCL华星实力领跑,世界冠军级算法助力智造升级
超越想象的AI全能旗舰 三星Galaxy Z Fold6 定义折叠屏新标准
MT/s与MHz,谁是真正内存性能单位?
TINNOVE梧桐科技受邀出席“AutoCC2024第三届汽车创造者大会”
华中首个!鸿蒙生态(武汉)创新中心揭牌
深蒙联动,共创未来——内蒙古自治区常委、通辽市委书记孟宪东会见殷伟容一行
小天才Z10柯南定制款重磅上市,给孩子一个成为名侦探的惊喜
中国移动北京公司圆满完成中国共产党第二十届三中全会通信保障工作
华为钱包交通卡0元开通:暑期出行的必备神器,一卡畅游全国!
2024年金山区中小学科学教育教师人工智能素养提升培训顺利举行
暑期科技馆、博物馆太火爆?帆书APP让你足不出户探索科学世界!
科力装备创业板IPO:良好的市场环境为募投项目实施提供必要的市场空间
TCL 光伏科技支持绿能普惠 点亮乡村振兴之路