冼汉迪谈人工智能时代语料库建设的合规问题

2024-03-06 16:40:43     来源:

3月2日下午,中国网络空间安全协会人工智能安全治理专业委员会在北京召开“人工智能语料建设与合规”专题研讨会。全国人大代表、政协委员及学界、法律、行业专家参会,针对人工智能大模型语料采集、处理、流通中所涉及的相关法律问题进行深入探讨。

全国人大代表、中手游(00302.hk)联合创始人、国宏嘉信资本创始合伙人冼汉迪先生发表了关于《人工智能语料建设与合规问题思考》的看法,他表示:模型训练目前仍具备较大的版权侵权风险,我的观点是,为了AI产业的发展,我建议在合理使用版权作品的情况下,可以豁免一部分大模型的版权责任,但不是无条件、无限制的豁免;要鼓励技术创新,如开发智能版权识别技术等,更好的帮助和管理版权问题;要鼓励公众多参与此话题的讨论,提升版权意识和知识产权教育,共同推动人工智能技术的健康发展。

以下是讲话全文:

大家下午好,非常感谢主办方的邀请,今天很高兴能和大家一起来探讨智能语料建设与合规的问题,我也在此谈谈我的思考。

一、 大模型训练目前仍具备较大的版权侵权风险

首先,让我们回顾一下大模型的基本概念。大模型是一种深度学习模型,通过海量数据的训练,可以实现自然语言理解、生成等任务。然而,正是因为它的训练依赖于大量的数据,涉及到了版权作品的使用,因此也引发了版权侵权的担忧,未经授权利用第三方平台作品数据进行大模型训练也导致了一些纷争。

关于生成式人工智能利用的数据来源,许多人工智能开发者并不公开其训练数据集的确切细节,但大致可以分为两步:第一步,通过购买数据库、公开爬取等方式获得海量内容数据,进行一定形式的转换之后,存储在相关服务器之中;第二步,对内容数据进行分析处理,以发现一定的模式、趋势以及相关性并转变为大模型参数,供后续内容生成时调取使用。但是,这些数据中不乏含有受版权保护的内容。

例如,包括谷歌、Facebook和OpenAI在内的人工智能开发者都在使用“Colossal Clean Crawled Corpus” 数据集(通常简称为C4数据集)来训练大模型,C4 数据集包括许多具有版权内容的网站,这些形式的数据收集也可能引起版权所有权和合理使用的问题,成为了生成式人工智能技术健康发展的症结所在。

二、 对于大模型训练运用版权作品是否侵权,现有的判断标准是什么?

为了进一步了解如何判定用版权作品训练大模型是否是侵权的,我也去了解了一下我国相关的法律规定:

我国《著作权法》第二十四条规定了“合理使用”(即对于作品的利用,可以不经版权人许可,不向其支付报酬)的具体情形,涉及大模型训练的具体规则大致包括“个人使用”“适当引用”“学习研究使用”等。

其中:

第一点,“个人使用”适用目的存在严格限制,目前大模型主要为商业性服务,不满足该项;

第二点,“适当引用”,法律条文中的前提是“为介绍、评论说明某一作品”或“说明某一问题”,AIGC模型商业化应用显然也不满足该项;

第三点,“科学研究”,对作品的利用限定在“学校课堂教学或者科学研究”,同时还强调仅能“少量复制”,大模型大量复制与利用作品的现状无法满足该项要求。

那么如果仅仅根据著作权法来看,用未经授权的版权作品进行模型训练无疑是侵权的。

但是,除了《著作权法》之外,为了让版权法服务于促进全社会文化知识的分享、内容传播技术的进步等更高层级的公共利益,各国也设立了一个例外规则,即:如果满足“三步检验法” ,也可以判定为“不侵权”。三步检验法的具体内容是 “只能在特殊情况下做出、与作品的正常利用不相冲突,没有不合理的损害版权人的利益”。

关于用这三步来评判大模型是否侵权,我相信今天在座的各位法律专家也一定会有自己的专业见解。我想重点谈谈:未经授权的版权作品用于模型训练,是否会对版权作品形成市场冲击?是否会导致公共利益不平衡?这一定是一个价值考量和利益平衡的过程,很难说有一个百分百正确的答案。我认为,AIGC的发展一定会极大的推动社会发展。虽然模型训练对版权方可能会造成一定的市场影响,但如果我们过度强调训练过程中要对版权作品付费,一定会对限制甚至是阻碍AIGC的产业发展。

所以我们也看到,从ChatGPT发布以来,世界各国为了促进AI的发展,其实已经对法律的完善作出了初步探索,目标都是在一定程度上“豁免AIGC平台在模型训练阶段的版权责任”。例如,欧盟、日本、美国都通过修改法律条文的方式对大模型的版权责任做出了一定程度的豁免。

三、 建议

因此,我在此也作出以下建议:

1. 为了AI产业的发展,我建议在合理使用版权作品的情况下,可以豁免一部分大模型的版权责任,但不是无条件、无限制的豁免。

2. 鼓励技术创新,如开发智能版权识别技术等,更好的帮助和管理版权问题。

3. 鼓励公众多参与此话题的讨论,提升版权意识和知识产权教育,共同推动人工智能技术的健康发展。例如像今天这样的讨论交流就是一个很好的契机,所以也再次感谢主办方组织这样的会议,让我们能够对人工智能语料建设与合规的问题有更加深入的思考和交流。

以上就是我的分享,谢谢大家!

标签:

猜你喜欢

鲁欧智造热数字孪生业务启动 助力中国半导体行业发展
华为、瑞声科技、腾讯等5家大陆企业入选2024年度全球百强创新机构
TCL通讯荣获EcoVadis全球可持续发展评级金牌勋章
楼上楼下好网覆盖,移动全家WiFi尊享版(FTTR)承包大House的“理想生活”
女神节礼物的理想选择 三星Galaxy Z Flip5将潮流与科技巧妙融合
荣获用友“年度优秀生态伙伴”奖,企业盒子受邀参加2024用友全球生态大会
树立脑信仰 健康有保障
首次斩获iF设计大奖,歌尔创新设计再获国际认可
干货满满!看小艺如何在新学期陪你玩转学习与生活
精巧机身 强悍体验 三星Galaxy S24演绎春日时尚
脑怡维BRAINESVITAL:科学成分配比,全方位抵御大脑衰老
Soul创始人团队加速探索AI+社交,为社交带来新可能
助力数字校园建设!新开普与钉钉共同打造高校生活钉
超值礼昱季 焕新理想家!“日立智能双净化”315狂欢来袭
每日互动个推消息推送SDK适配华为HarmonyOS NEXT 支持APP高效开发鸿蒙原生应用
为何Cleer ARC II音弧是三八好物节礼物首选?揭秘4大理由!
当AI邂逅羊城 三星Galaxy S24系列开拓移动新体验
TimeShop朱茵信任的国产品牌,TIMESHOP还原型辅酶Q10呵护健康
祺鲲科技以绿色碳资产助力世界500强中海地产打造首家碳中和酒店
318华为商城周年庆火热进行中,3.8妇女节好礼再加码
设计界的“奥斯卡”!星纪魅族集团斩获四项iF设计奖
寒假回顾与新学期展望,升学e网通助力你开启全新学习篇章
一车多用,降本七成!仙途智能重磅首发一体化无人环卫车
开学季游戏本购买指南 华硕天选5 Pro入手价8799元
一文看懂为什么你的第一台AI电脑应该选择宏碁非凡Go AI!
“不老女神”朱茵代言,TimeShop倍愈粒,激发人体本源抗衰力
熬夜伤肝又伤心?Bioagen心益维,三大维度焕发血管“年轻态”
利用AI换脸技术和海外KOL策略,开辟短剧出海新纪元
重庆移动总经理夏泳 创新发挥“5G+北斗”优势赋能新质生产力发展
芯讯通重磅亮相MWC24:深耕5G+AI模组市场 赋能万物智联时代