北电数智首席科学家窦德景:以数据可信定义AI终局

2024-07-11 16:39:47     来源:

2022年底,ChatGPT横空问世,其优秀、自然的语言交互能力给世界带来极大震撼。此后,海内外科技巨头、研究机构开启大模型竞赛,视频、音乐、语言等多模态大模型不断升级,各类AI应用层出不穷,人工智能进入大模型时代。

作为新时代基建,大模型已成为国家间科技乃至经济竞争的焦点。大模型参数正从百亿级、千亿级迈向万亿级,以数据为核心燃料的AI正加速向前。

然而,大模型在具体的落地过程中,仍面临许多挑战。大模型的训练和推理均需要高质量数据,目前国内开源数据集远少于海外;高质量数据则存在于数据烟囱中,难以发挥价值。一个安全、可信的数据空间,能为整个人工智能产业提供供得出、流得动的高质量数据,加速大模型落地真实场景。

7月3日,在2024年全球数字经济大会“互联网3.0高层论坛”上,北电数智首席科学家窦德景教授作了《以数据可信定义AI终局》主题演讲,分享对数据可信和AI产业发展的洞察。

北电数智首席科学家窦德景教授作主题演讲

数据规模与质量决定AI“上限”,数据可信成关键驱动力

人工智能从1956年在达特茅斯会议开启研究至今,已发展近90年时间,经过机器学习、深度学习两个阶段的发展后,2017年,生成式AI技术路线将人工智能的智能化程度推向新阶段。

大模型和生成式AI可以在几秒钟内自主生成完全原创的文本、图像、音频等内容,具有强大的认知和交互能力。生成式AI的模型应用和参数也在以前所未有的速度猛增,如GPT3.5的参数为1,750亿,到GPT4时,模型参数已达1.8万亿。

Scaling law(规模法则)已成行业共识,大模型的参数量和数据量在不断扩展,面向专业领域的垂直模型也在数据质量上不断优化。

无论是“质”、还是“量”,作为大模型训练和生成式AI 推理的三大要素之一,数据的重要性不言而喻。

据IDC测算,2022-2027年,中国的数据量规模将由23.88ZB增长至76.6ZB,复合增速达26.3%。从数据规模看,我国数据量无疑处于世界一流水平。

但从数据质量而言,与美国相比,在数据开源和市场流动角度,优质的中文数据集依然非常稀缺,大量数据散落在产业侧或垂直系统内。此外,非结构化的数据也难以支持算法训练,这对于生产力的提质增效有极大地制约。

高质量数据的积累离不开一个可信的数据空间。北电数智首席科学家窦德景教授分享道,实现数据可信并非一蹴而就,它目前仍然面临着诸多挑战,主要体现在四个方面:

· 不知:因供需信息不对称,数据种类与质量不明确,导致数据在可用和匹配上遇到难题。

· 不敢:在数据隐私和合规风险影响下,企业对数据所有权和合规的顾虑较大,对数据流通较为谨慎。

· 不能:企业在数据治理和开放共享上存在着能力或机制层面的不足。

· 不会:企业在数据流通上仍然缺少适合的分析工具与应用解决方案,产业也尚未形成和行业侧协作的有价值方法。

构建AI可信数据空间,重塑AI新格局

要想解决不知、不敢、不能、不会的数据难题,构建数据可信的生态系统,加快建设数据流通、共享、开放环境尤其重要。

以EOSC(欧洲开放云)科研项目为例,欧盟在关注到数据隐私后,成立了一个包含300万种资源在内的数据空间,覆盖多个领域范围,为180万欧洲研究人员和7000万科研人员提供跨国界和学科研究数据存储、管理、分析和再利用服务。

这种数据流通、可信、开放的产业生态,将极大促进产业发展、繁荣。而对于国内产业而言,打造数据可信的环境将会为AI产业发展、生态构建提供重要发展土壤。

北电数智认为,企业可以在技术可信层面,加快推进建设安全可信的数据流通设施和数据安全设施,尤其是找到技术上完全自主可控和技术可信的方法,应对数据问题。行业也可以通过开放服务促进经济社会发展相关应用场景落地,与产业协同,找到有价值的应用场景,推动数据要素流通、融合,打造整体解决方案,快速构建数据可信生态系统。

北电数智全栈信创的数据流通基础设施和数据安全设施“红湖·AI可信数据空间”,能为人工智能浪潮下促进数据共享流通创造“安全可靠运行环境”,提供AI时代高质量数据服务,推动大模型在行业落地。目前,公司正聚焦政务、先进制造、交通、医疗、传媒、教育等细分赛道打磨应用场景。

以政务大模型场景为例,政务领域信息丰富,知识结构复杂。用户不仅需要传统的知识检索、互动问答等功能,还需要政务表格分析、政务文本撰写等产品。北电数智与政府侧技术部门合作,通过数据获取、数据清洗、知识更新、表格内容提取等方式获取有效信息,建设行业知识库,再通过幻觉检测、安全围栏、数据可信空间等技术对数据进行有效分区,最终提供全栈国产化的整体解决方案。

在北电数智看来,数据可信可以在五大维度上重塑AI新格局,推动AI产业发展和大模型的落地。

· 提升AI模型质量和可靠性:为AI模型提供高质量训练素材,有助于提高模型的准确性、鲁棒性和泛化能力。

· 促进AI技术的产业化应用:为AI在政务、金融、医疗、制造等领域的落地应用奠定基础。

· 推动AI伦理和治理的发展:为AI的伦理使用和有效治理提供基础,有助于构建更加公平透明的AI生态系统。

· 增强AI系统的安全性:有助于降低AI系统的安全风险,减少数据泄露、深度伪造等新型安全威胁。

· 重塑AI技术路线和产业模式:推动AI从碎片化、小模型向大模型、通用智能方向发展,重新定义了AI的产业模式和标准。

展望未来,数据可信将在增强数据安全性和隐私、保障算法的公平性和透明性、推动法律和伦理框架完善、加速产业化应用、生态蓬勃繁荣等方面不断促进人工智能产业的发展。

未来,北电数智将基于“大算力、大数据、大模型”的AI全栈能力,以可信数据沙盒、隐私计算和区块链、全链条可控等技术为核心,以AI工厂及芯片适配为依托,提供一体化“可信”解决方案。

 

标签:

猜你喜欢

2024抖音游戏夏日环游记盛大开启,超多精品游戏全新互动玩法等你来!
三星发布Galaxy Ring智能戒指 开启健康新体验
RIDO力动健身器材与头部健身俱乐部品牌-古德菲力集团达成战略合作
销售易与用友达成生态合作,强强联手共建价值生态
道不远人 AI普惠——百度创始人李彦宏为快递100带盐
海外多家媒体热议中国科技发展成就——在中国推出能发现健康问题的高科技小便池
商务部研究员关利欣:达人探店新模式将带动需求端产业融合
揭开Galaxy AI新篇章 三星Galaxy Z Fold6|Z Flip6与Galaxy Buds3系列正式发布
代码超4000万行的“巨无霸”,WPS Office如何打造超丝滑的鸿蒙原生应用?
国外用C+路由器在CCTV5上看欧洲杯美洲杯奥运会等比赛直播
部署超万套国产操作系统,这里的教育国产化建设取得丰硕成果
初赛倒计时 | 第二届OPENAIGC开发者大赛作品提交开始
「颜智」出众,盼盼智能锁新品解锁安全新风尚!
飞诺门阵与清华北邮达成产研合作,科创属性全面提升
百分点科技入选“2024中国人工智能企业综合实力TOP 100”
澳鹏Appen(中国)精彩亮相2024世界人工智能大会(WAIC2024)
“智改数转,云上有为”:华为云携手青白江区,让“制造”迈向“智造
趣守护科技引领CDN技术革新,赋能企业数字化转型
单日变现2000元,好衣库小红书拉新训练营卓有成效
江西省赣州市工发集团董事长杨泽宸、保税集团总经理温泉等领导莅临零零享租
基石智算新人专享,¥500AI算力券大放送!
海尔顶装集成携双离子抗菌舱浴霸亮相广州建博会,引领智慧健康浴室新升级
360儿童大模型手表A9首发第二天登直播带货第一名 超越小天才
能效比较GPGPU高一个数量级,爱芯元智AI芯片让端侧AI大模型高质量落地
免费延保四年!龙蜥操作系统 7 延保计划通知
中巴零售科技共创新篇:文安智能引领智慧零售未来愿景
中科爱伽依托中国科学院专利技术转化成果显著
全球首家胖胖博物馆:探索肥胖奥秘,引领健康未来
光峰科技亮相2024中国建博会,引领智能家居新风尚
多维度布局,欣九康打造全方位的健康服务体系