首页晟典研究实务文章

实务文章

晟典实务|卜斌:生成式人工智能著作权侵权问题探讨

加载中...

2025.04.09

全文共6069字,阅读时间约15分钟。

 

生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。近年来,随着生成式人工智能技术的爆发式发展,极大提升新质生产力的同时,也带来了诸多法律问题。本文主要通过依照现有立法和参照司法实践情况,聚焦分析生成式人工智能著作权侵权的相关问题。

生成式人工智能的开发使用可以分为开发训练阶段和用户使用阶段,下文笔者将详细讨论两个阶段中可能面临的著作权侵权问题。

 

 
 
一、开发训练阶段
 

 

 
 
侵权行为分析
 

 

生成式人工智能的开发训练主要有数据收集与清洗、预处理与增强、模型架构设计、训练调优、评估迭代以及部署、合规等步骤。首先,从多样化来源收集数据并进行清洗和去重;其次,通过分词、归一化等方法预处理数据,并设计模型架构(如Transformer、Diffusion Models等)。再次,采用分布式策略和优化技术(如混合精度训练等)进行训练和优化,并通过定量指标(如BLEU、FID)和人工评估监控模型性能。最后,通过模型压缩和合规性检查(如内容过滤、差分隐私)完成部署。

在这一阶段,开发者需要使用海量的数据对模型进行训练。数据获取主要有以下三种来源:第一,通过开放的数据共享平台采集数据;第二,通过交易的方式,购买他人的数据库获取数据;第三,通过“爬虫协议”等方式在网络获取数据。

获取的训练数据必然会涵盖公共领域的数据以及受著作权法保护的作品。前者包括超过权利保护期的作品、官方文件和事实信息等,可以为社会公众自由使用;后者是尚处于权利保护期的版权作品,若未经许可擅自使用,可能导致侵权1。这一阶段主要侵犯的是作品的复制权。《中华人民共和国著作权法》(以下简称《著作权法》)第十条规定:“著作权包括下列人身权和财产权 :……(五)复制权,即以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利。”《生成式人工智能服务管理暂行办法》第七条规定:“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。”然而,对于开发者而言,要求所有数据都获得合法授权在现阶段并不现实。一方面,生成式人工智能所需要的训练数据浩如烟海,开发者无法一一核实数据来源;另一方面,如所有训练数据都要获得权利人授权并向其支付费用,对开发者来说无疑要承担巨额的交易成本,根本无力承担。因此,生成式人工智能的开发者使用未经授权的数据进行模型训练可能涉及侵权,具体如下:

1.数据收集阶段:开发者从各种来源获取大量数据,这些数据可能包括文本、图像、音频等。这些数据通常会被复制到本地或云端存储设备,以便后续处理和比对,该行为是对原始数据的复制,可能涉及侵犯复制权。

2.数据预处理阶段:采集数据后需要对数据清洗、标注、分词等处理,转化成机器可以识别的格式和语言,完成转换后通常会将转换后的数据储存,用于训练,这个过程会涉及数据的复制,该行为同样会涉及侵犯复制权。

3.模型训练阶段:模型训练阶段的核心目标是学习训练数据的统计分布,如文本的语法模式、图像的色彩纹理规律等,而非直接存储数据本身,因此在模型训练过程中不会直接复制或存储原始数据。  模型训练过程中,为了使模型能够快速访问和处理,数据通常需要从存储设备加载到内存。在分布式训练时为了提高训练效率,数据可能会被复制到多个计算节点或设备。不过这类数据复制具有临时性,并不是长期存储于介质中,模型训练结束后数据通常会被清除,属于临时复制。将狭义的训练数据行为认定为非侵权行为,一是训练数据阶段的“临时复制”尚未被纳入我国著作权法中复制权的规制范围;二是训练数据属于“非作品性使用”,既未利用独创性表达部分,也并非将其作为作品来传播或再现,单个作品在整个数据集中的价值几乎为零2。因此,在模型训练阶段使用作品并不违法。

 

 
 

合理使用规则辨析
 

 

有观点认为,开发训练阶段使用数据的行为属于《著作权法》第二十四条规定的合理使用。保障技术实现是著作权法的规范目的,这一规范目的可以通过《著作权法》第二十四条第十三项规定的“法律、行政法规规定的其他情形”予以导入。从技术运行机制来看,模型训练的技术目标不是对既有数据的复制或原样再现,而是通过学习既有知识来生成新的知识信息模型,训练对作品的使用机制不影响该作品的正常使用,著作权人应当对合理损害承担容忍义务。3

笔者不同意前述观点。从文义解释的角度,《著作权法》第二十四条所列举合理使用的情形中,只有第一项“个人学习、研究或者欣赏”、第二项“适当引用”、第六项“科学研究”能与数据训练相关联。然而,第一项“个人”通常指的是自然人,而开发训练生成式人工智能的主体通常是法人或其他组织。研发生成式人工智能需要投入大量的人力、物力,自然人一般不具备相应的条件。即便自然人具备研发条件,也只能用于学习、研究或者欣赏,不能用作商业目的。第二项“适当引用”虽然不存在主体限制,但是数据训练的实质不符合介绍、评论、作品的内涵。第六项“科学研究”的适用范围是学校课堂教学或者科学研究,且主体仅限于“教学或者科研人员”。目前研发生成式人工智能的主体主要是商事主体,以盈利为目的,不符合上述要求。虽然促进技术进步是著作权法的最终目标,但以此接入《著作权法》第二十四条的兜底条款,对合理使用的情形扩大解释,显然过于牵强。《著作权法》的立法目的除了促进技术进步,还有保障著作权人的合法权益,即使是为了技术进步和社会发展,也应当通过立法的形式予以规范,而不是强行对现行法律擅自作扩大解释。由此可见,合理使用规则不能作为开发训练阶段侵权的有效抗辩。

从司法实践来看,在上海某文化发展有限公司与被告杭州某智能科技有限公司著作权侵权及不正当竞争纠纷一案中4,杭州互联网法院认为:“鉴于生成式人工智能在数据训练阶段使用他人作品的目的,原则上应是用于学习分析在先作品所表达的思想感情、语言特征、特色风格等内容,从中提取出相应的规则、结构、模式、趋势,便于后续转换性创作新作品。该种使用行为聚合大量作品作为分析样本数据进行提高作品创作能力训练,并非以再现作品的独创性表达为目的,且一般情况下数据训练只是对语料数据作结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众,因此,本院认为,在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用。”笔者认为,这里所说的“数据训练阶段”应当指的是狭义的模型训练阶段,不包括数据收集、预转换阶段,因为法院特别说明“只是对语料数据作结构特征分析时暂时保留了在先作品”,此时只是临时复制,可以界定为合理使用。而数据收集、预转换阶段是对数据的长期复制,应当属于复制权的规制范围。该案二审中,杭州市中级人民法院认为“从输入端看,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据活动,使用具有合法来源的数据和模型”,强调了服务提供者在收集数据用于模型训练时,应当使用具有合法来源的数据。

因此,笔者认为在现行著作权法的体系下,在开发训练阶段未经著作权人许可的情况下进行复制数据等行为,应当构成侵权。


 

 
 
二、用户使用阶段
 

 

 

《人工智能生成合成内容标识办法》第三条规定:“人工智能生成合成内容是指利用人工智能技术生成、合成的文本、图片、音频、视频、虚拟场景等信息”。生成式人工智能所生成的内容如与受著作权法保护的作品构成实质性相似,可能涉嫌侵犯原作品的修改权、改编权、信息网络传播权、署名权等权利。

 

 
 
生成内容侵权的认定标准
 

 

司法实践中,法院认定是否侵犯著作权通常采用“接触”加“实质性相似”的判断标准。

1.接触

“接触”是指通过分析侵权人是否有合理的机会接触作品,判断是否存在侵权的可能性。举证责任方面,原则上被告是否有接触原告作品的可能,应由原告举证证明。对于“接触”事实的证明,一是可以通过直接举证的方式证明侵权人通过阅读、购买等方式接触过作品;二是通过间接推定的方式,证明享有著作权的作品公开发表在先,或两部作品符合实质性相似的情形下,证明侵权人不具备独立创作该作品的能力和可能性。5

生成式人工智能在模型训练阶段会学习分析大量数据,在此过程中有可能接触受著作权保护的作品。然而,对著作权人来说生成式人工智能在训练过程中对作品的使用是非公开的,著作权人难以证明接触情形的存在。因此,司法机关对著作权人在“接触”层面的举证责任可能会相对宽松。在上海新创华文化发展有限公司与广州年光公司网络侵权责任纠纷一案中6,广州互联网法院认为“案涉奥特曼作品享有较高的知名度,且其可在爱奇艺等各大视频网站进行访问、查阅及下载,在被告无相反证据的情况下,被告存在接触案涉奥特曼作品的可能性。”对于“奥特曼”这种知名度较高的作品,法院通过知名度和公开接触的途径推定被告存在接触的可能性,减轻了著作权人的举证责任。

2.实质性相似

著作权法保护的是独创性表达而不是思想,所以判断两部作品是否构成实质性相似也是针对表达展开。

司法实践中,判断实质性相似主要有以下两种方法:第一,整体观感法,以普通观察者对作品整体的内在感受确定两部作品是否构成“实质性相似”。这种方法不严格区分作品的思想和表达,而是侧重于考察作品在整体概念和感觉的相似。第二,三步检验法。首先,通过抽象的方法将作品中不受保护的部分,如思想、通用元素等进行分离,其次把两部作品相同但是属于公共领域的部分剔除,最后将两部作品受保护部分进行比对,从而判断是否构成实质性相似7。生成式人工智能的生成内容是否与受著作权法保护的作品构成实质性相似,仍可采用传统的判断方法。

 

 
 

侵权责任的承担主体
 

 

生成式人工智能侵权的责任承担主体主要是用户和生成式人工智能服务的提供者。

1.用户

用户使用生成式人工智能生成的内容如与受保护的作品构成实质性相似,若符合《著作权法》第二十四条合理使用的用途,比如个人学习、研究或者欣赏等,且未影响该作品的正常使用,也没有不合理地损害著作权人的合法权益的情况下,不构成侵权。如将生成内容进行复制、传播甚至牟利,在未经著作权人授权的情况下,该行为可能构成侵权。

2.服务提供者

生成式人工智能生成内容需要结合模型训练程度和用户指令,每次内容的生成都具有高度的随机性,对于服务提供者而言,客观上无法有效控制。在司法实践中,服务提供者可能构成直接侵权或帮助侵权。

(1)直接侵权

直接侵权是指直接实施侵害著作权的行为,是未经权利人许可又没有法定原因实施了受专有权控制的行为。生成式人工智能根据用户指令生成与受著作权保护的作品相似的内容,服务提供者可能会被认定为直接侵权。上海新创华文化发展有限公司与广州年光公司网络侵权责任纠纷一案8,该案用户在AI绘画模块对话框中输入提示语后即可生成侵权图片,广州互联网法院认为该行为侵犯了复制权、改编权等,而服务提供者未尽到注意义务,包括投诉举报机制的欠缺、潜在风险提示的欠缺、显著标识的欠缺,因此应当承担赔偿责任。

根据《生成式人工智能服务管理暂行办法》的规定,服务提供者主要有以下注意义务:第一,数据来源合法。提供者开展预训练、优化训练等训练数据处理活动,应当使用具有合法来源的数据和基础模型,不得侵害他人依法享有的知识产权,涉及个人信息应当取得个人同意或者符合法律规定。第二,侵权投诉处理。提供者应当建立健全投诉、举报机制,设置便捷的投诉、举报入口发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改。发现使用者利用生成式人工智能服务从事违法活动的,应当依法依约采取警示、限制功能、暂停或者终止向其提供服务等处置措施,保存有关记录,并向有关主管部门报告。第三,生成内容标识。提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。如果生成式人工智能服务提供者没有履行注意义务导致侵权行为的发生,应当承担侵权责任。

(2)帮助侵权

间接侵权,或帮助侵权,是指网络服务商通过网络基础设施或者服务对侵害网络传播权的行为提供帮助。《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第七条第三款规定:“网络服务提供者明知或者应知网络用户利用网络服务侵害信息网络传播权,未采取删除、屏蔽、断开链接等必要措施,或者提供技术支持等帮助行为的,人民法院应当认定其构成帮助侵权行为。”间接侵权行为构成的核心要件是主观过错,包括明知和应知。服务提供者只有在知道或者应当知道直接侵权行为的存在却没有及时采取删除侵权内容等措施,才构成间接侵权。9

在上海某文化发展有限公司与被告杭州某智能科技有限公司著作权侵权及不正当竞争纠纷一案中10,杭州互联网法院认为:“若要认定构成信息网络传播权直接侵权行为,应存在以下情形:被告系网络传播内容的提供者,或者与用户分工合作、协同配合,从而构成网络传播内容的共同提供者。如生成式人工智能服务者提供参考图片等训练语料进行数据训练,进而生成并传播侵权内容时,生成式人工智能服务提供者可能直接实施了受著作权专有权控制的行为。”在该案中,是由用户提供图片训练模型,因此法院没有认定服务提供者构成直接侵权。但是,杭州互联网法院认为在该案中服务提供者构成帮助侵权。对于如何判断生成式人工智能服务提供者是否构成帮助侵权,杭州互联网法院认为:“生成式人工智能服务提供者系提供生成式人工智能技术服务,对用户输入的提示词、训练图片等数据内容,以及生成物的传播等行为并不当然负有事先审查的义务,只有当其对具体侵权行为具有过错时,才可能构成帮助侵权。对于过错的认定规则,应综合考量生成式人工智能服务的性质、当前人工智能技术的发展水平、避免损害的替代设计的可行性与成本、可以采取的必要措施及其效果、侵权责任的承担对行业的影响等因素,通过动态地调整过错的认定标准,将平台注意义务控制在合理的程度。具体而言,即以同质行业理性人标准予以考量,当生成式人工智能服务提供者可以证明施以同业一般服务提供者注意力难以发现该生成内容可能构成侵权,或者能够证明自身已经采取了符合损害发生时技术水平的必要措施来预防损害,但仍无法防止损害的发生,应认定其已尽到合理的注意义务,不具有过错。反之,则应认定其具有过错。”在该案中,侵权人将具有较高知名度的侵权作品置于平台能够被明显感知的位置,服务提供者应当知道相关内容具有较大侵权可能性,然而服务提供者有能力采取却怠于采取必要措施来预防、阻止侵权。因此,法院认为服务提供者构成帮助侵权。认定服务提供者主观上是否存在过错,应当综合考虑服务提供者应当遵守的注意义务。


 

 
 
三、结论
 

 

 

生成式人工智能在数据训练及内容生成过程中可能出现的侵权问题,需要在平衡各方利益的基础上通过立法予以规制。如何在促进技术创新的同时尽可能保护著作权人的合法权益,是对立法技术和司法能力的重要考验。


 

(免责声明:本文仅代表作者个人观点,对本文以及其中全部或者部分内容、文字的有效性、完整性、及时性本所不作任何保证或承诺,请读者仅作参考。)

 

注释:

1.曹新明、范晔:《生成式人工智能数据训练的合理使用规则研究》,载《中国版权》,2024(04):20-35。

2.第九届三知论坛实录专题二:人工智能数据训练中的著作权问题,https://mp.weixin.qq.com/s/_hO1x73_DaqlJefT3t-eEw。

3.徐小奔:《技术中立视角下人工智能模型训练的著作权合理使用》,载《法学评论》2024年第4期。

4.杭州互联网法院,(2024)浙0192民初1587号案件。

5.陈锦川:《著作权侵权诉讼举证责任的分配》,载《人民司法》2007年第5期。

6. 广州互联网法院,(2024)粤0192民初113号案件。

7.沈忆佳:《网文时代侵犯著作权犯罪中“实质性相似”的判定研究》,载《上海法学研究》集刊2020年第15卷

8.广州互联网法院,(2024)粤0192民初113号案件。

9.张玉敏、张今、张平:《知识产权法》第178-180页,中国人民大学出版社2009年6月第1版。

10.杭州互联网法院,(2024)浙0192民初1587号案件。

 

 
 
 

 

 
 
作者简介
 
 
 




卜斌律师

 

【执业简介】晟典律师事务所专职律师,取得香港中文大学民商法硕士学位。现为高级企业合规师,晟典涉外事务法律专业委员会副主任,广东省律师协会跨境争议解决法律专业委员会委员,深圳市律师协会新一代电子信息法律专业委员会委员,深圳市法律文化研究会理事,《晟典律师评论》编辑,入选广东省涉外律师新锐人才库、深圳市涉外律师新锐人才库,具有证券从业资格,在争议解决方面具有丰富的实务经验,曾处理过大量民商事纠纷案件,专注于公司诉讼、涉外诉讼、商事合同、金融纠纷、企业合规等领域,擅长处理疑难复杂案件,曾为国内数十家银行、券商、信托、上市公司及大型企业等提供过法律服务,擅长通过诉讼手段帮助客户有效实现商业目标。

 

【执业领域】公司诉讼、涉外诉讼、商事合同、金融纠纷、企业合规。

 

【联系方式】邮箱:bubin@sdlaw.cn

 

 
编辑:邱   晴
责编:王志红
审校:黄   霆
图片


案件咨询

案件咨询

* 姓名

* 公司名称

* 省份

* 城市

* 手机

* 邮箱

* 案件概述

* 验证码

图形验证码
立即发送