目录
一、引言
二、AIGC数据出境主要场景分析
三、数据出境法律监管和合规路径
四、对AIGC数据出境的合规建议
一、引言
在生成式人工智能(Generative AI,下称“AIGC”)技术的发展和应用过程中,相关法律监管问题一直备受各国政府关注。例如,AIGC相关技术和硬件的出口管制问题、预训练数据的数据合规问题、AIGC生成物的可版权性和权利归属问题、电信监管及行业监管问题以及科技伦理问题等。相关法律问题直接关系到各国AIGC技术的健康发展和广泛应用。
国家互联网信息办公室(“国家网信办”)于2023年7月10日发布了《生成式人工智能服务管理暂行办法》(“《AIGC服务暂行办法》”),该办法已于2023年8月15日正式实施。该办法是我国针对AIGC技术服务专门出台的一个部门规章,表明了我国对于AIGC技术服务的发展及其合规监管的重视。
《AIGC服务暂行办法》中明确了,AIGC技术是指“具有文本、图片、音频、视频等内容生成能力的模型及相关技术。”[1]可见,AIGC是基于模型及相关技术而搭建的,而要训练出成熟可用的模型需要海量的数据。因此,数据合规问题是AIGC技术发展和应用过程中不可避免的重要课题。《AIGC服务暂行办法》亦特别指出,AIGC服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用合法来源的数据及基础模型,遵守《中华人民共和国网络安全法》(“《网安法》”)、《中华人民共和国数据安全法》(“《数安法》”)、《中华人民共和国个人信息保护法》(“《个保法》”)等法律、行政法规的有关规定和有关主管部门的相关监管要求。[2]
AIGC数据合规是一个复杂的议题,需要讨论的问题颇多。本文将主要围绕其中一个重要问题——AIGC的数据跨境合规问题进行探讨,以期为可能涉及数据跨境的AIGC开发者和服务提供者提供参考。
二、AIGC数据出境主要场景分析
从目前实践来看,在AIGC技术开发过程中,主要存在以下数据出境场景:
1、跨境调用算力导致数据出境
AIGC底层模型的开发不仅需要海量的数据推动大模型“涌现”功能的出现,还需要强大的算力作为支撑。但是,目前国内AIGC产业链的基础设施层(主要包括芯片技术和云计算平台)仍待完善。与此同时,鉴于高性能AI芯片对国家竞争力的重大影响,美国也相继出台了一系列政策措施,以限制美国高性能AI芯片的对华出口。
因此,目前境内AIGC开发者可能存在算力不足的问题。在该种情况下,不少AIGC开发者在探讨跨境调用境外算力的可能性。如AIGC开发者跨境调用境外算力,则其采集的训练数据将会被传输至境外进行训练,相关训练数据和搭建后的模型亦可能被存储至境外数据中心,从而引发数据跨境相关风险。
2、调用境外算法模型导致数据出境
考虑到目前一些境外的AIGC算法和模型更为成熟和先进,故在实践中,AIGC开发者采用的更为直接的方式是通过境外模型平台(Model as a Service)或其他方式直接调用境外的算法模型来训练自己的定制化模型。在这一过程中,境内的AIGC开发者需要将其采集的相关行业数据、业务数据等数据传输至境外用以模型训练,从而引发数据跨境相关风险。
三、数据出境法律监管和合规路径
自《网安法》、《数安法》和《个保法》相继发布和实施后,我国数据出境监管的基本框架初步搭建。此后,《数据出境安全评估办法》以及配套的《数据出境安全评估申报指南(第一版)》《个人信息保护认证实施规则》《网络安全标准实践指南——个人信息跨境处理活动安全认证规范(第二版)》《个人信息出境标准合同办法》等法规和标准相继颁布,进一步完善了我国数据出境监管体系,并促进了相关监管措施的落地和实施。
目前,我国数据出境监管体系主要围绕对个人信息和重要数据出境的监管。在现有监管体系下,个人信息和重要数据出境的合规路径主要如下:
1、个人信息出境
(1)个人信息出境的前置合规
a. 履行告知义务
根据《个保法》相关规定,个人信息处理者在向境外提供个人信息前,应当履行以下告知义务:
* i. 一般告知义务——个人信息处理者在处理个人信息前,应当以显著方式、清晰易懂的语言真实、准确、完整地向个人告知下列事项:(i) 个人信息处理者的名称或者姓名和联系方式;(ii) 个人信息的处理目的、处理方式,处理的个人信息种类、保存期限;(iii) 个人行使《个保法》规定权利的方式和程序;以及(iv) 法律、行政法规规定应当告知的其他事项。[3]
* ii. 特殊告知义务——个人信息处理者向境外提供个人信息的,应当向个人告知境外接收方的 (i) 名称或者姓名、联系方式;(ii) 处理目的、处理方式、个人信息的种类;以及 (iii) 个人向境外接收方行使《个保法》规定权利的方式和程序等事项。[4]
b. 取得个人信息主体的单独同意
根据《个保法》相关规定,个人信息处理者在向境外提供个人信息前,应当取得个人信息主体的单独同意。[5]
c. 开展个人信息保护影响评估
根据《个保法》相关规定,个人信息处理者向境外提供个人信息的,应当事前进行个人信息保护影响评估,并对处理情况进行记录,且个人信息保护影响评估报告和处理情况记录应当至少保存三年。[6]
(2)个人信息出境的三种路径
在完成以上所述的个人信息出境的前置合规程序后,个人信息处理者应视其所处行业及其处理个人信息的数量等因素选择其数据出境的合规路径。根据《个保法》及其配套法规,个人信息出境主要有以下三种路径:
a. 向国家网信办申报数据出境安全评估
根据《数据出境安全评估办法》相关规定,个人信息出境符合以下情形之一的,应当通过所在地省级网信部门向国家网信办申报数据出境安全评估[7]:
* i. 关键信息基础设施运营者向境外提供个人信息;
* ii. 处理100万人以上个人信息的数据处理者向境外提供个人信息;以及
* iii. 自上年1月1日起累计向境外提供10万人个人信息或者1万人敏感个人信息的数据处理者向境外提供个人信息。
b. 与境外接收方订立标准合同并备案
根据《个人信息出境标准合同办法》相关规定,个人信息处理者为非关键信息基础设施运营者,且其处理的个人信息的数量未达到申报数据出境安全评估标准的,可依法通过与境外接收方订立标准合同的方式向境外提供个人信息。[8]
标准合同应当严格按照《个人信息出境标准合同办法》附件的范本订立。个人信息处理者应当在标准合同生效之日起10个工作日内向所在地省级网信部门备案。备案时应当提交(i) 标准合同,以及(ii) 个人信息保护影响评估报告。[9]
c. 进行个人信息保护认证
如个人信息处理者为非关键信息基础设施运营者,且其处理的个人信息的数量未达到申报数据出境安全评估标准的,其可根据《个保法》相关规定,通过专业机构进行个人信息保护认证。
根据《个人信息保护认证实施规则》相关规定,个人信息保护认证的认证模式为:技术验证+现场审核+事后监督。认证机构根据认证委托资料、技术验证报告、现场审核报告和其他相关资料信息进行综合评价,作出认证决定。对符合认证要求的,颁发认证证书。认证证书有效期为3年。在有效期内,通过认证机构的获证后监督,保持认证证书的有效性。[10]
2、重要数据出境
根据《数据出境安全评估办法》相关规定,数据处理者向境外提供重要数据的,应当通过所在地省级网信部门向国家网信办申报数据出境安全评估。[11]
根据《数安法》相关规定,国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,各地区、各部门应当按照数据分类分级保护制度,确定本地区、本部门以及相关行业、领域的重要数据具体目录。[12]但截止目前,仅有少数个别行业制定了重要数据识别的行业标准,如《汽车数据安全管理若干规定(试行)》及《YD/T 3867-2021基础电信企业重要数据识别指南》,分别界定了汽车行业及基础电信行业的重要数据。但是,大多数行业的重要数据目录仍待进一步明确。
3、国家发布数据出境新规征求意见稿,数据出境合规程序或可简化
2023年9月28日,国家网信办发布了《规范和促进数据跨境流动规定(征求意见稿)》(“《数据跨境流动征求意见稿》”)。如果该征求意见稿正式实施,或可简化部分企业数据出境的合规程序,降低其数据出境过程中所需履行的合规成本,具体如下:
(1)个人信息出境
对于个人信息出境场景,《数据跨境流动征求意见稿》主要从以下方面豁免了相关企业的数据出境合规义务:
a. 设置出境白名单,明确特定场景下,无需要申报数据出境安全评估、订立个人信息出境标准合同、通过个人信息保护认证[13](以下合称“数据出境合规程序”):
* i. 不是在境内收集产生的个人信息向境外提供的,可豁免数据出境合规程序。例如,AIGC企业从境外收集的训练数据,在境内处理后传输出境的情况,可无需再履行任何数据出境合规程序。
* ii. 为订立、履行个人作为一方当事人的合同所必需,如跨境购物、跨境汇款、机票酒店预订、签证办理等,必须向境外提供个人信息的。
* iii. 按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理,必须向境外提供内部员工个人信息的。
* iv. 紧急情况下为保护自然人的生命健康和财产安全等,必须向境外提供个人信息的。
b. 不再将个人信息处理总量作为考量因素,而是以预计一年内向境外提供的个人信息数量作为考量标准。具体而言[14]:
* i. 预计一年内向境外提供不满1万人个人信息的,无需履行任何数据出境合规程序。本条实质降低了仅涉少量个人信息出境企业的合规负担。
* ii. 预计一年内向境外提供1万人以上、不满100万人个人信息的,无需申报数据出境安全评估,仅需订立并备案个人信息出境标准合同或者通过个人信息保护认证的。
* iii. 预计一年内向境外提供100万人以上个人信息的,应当申报数据出境安全评估。
此外,《数据跨境流动征求意见稿》并未区分一般个人信息和敏感个人信息的合规门槛,敏感个人信息出境的更为严格的计算标准或将被弱化。
c. 允许自贸区自行制定负面清单,对于负面清单外数据出境,可以豁免数据出境合规程序。[15]与白名单相比,“负面清单”仅保留了对清单内数据的监管,无疑是采取了更为宽松的监管策略,为自贸区建立了先行先试的数据跨境流通专有通道。
虽然《数据跨境流动征求意见稿》在特定场景下豁免了部分企业的数据出境合规程序,但值得注意的是,《数据跨境流动征求意见稿》并未免除《个保法》等相关法律法规下对于个人信息保护的基本要求。例如,个人信息处理者需履行的“告知-同意”义务;《个保法》第55条项下的进行个人信息保护影响评估的义务,同样未被豁免。
(2)重要数据出境
《数据跨境流动征求意见稿》中规定,未被相关部门、地区告知或者公开发布为重要数据的,数据处理者不需要作为重要数据申报数据出境安全评估。[16]对于属于重要数据目录尚未制定行业的企业,这一规定无疑可以解决他们的困惑。相关企业无需再主动自查出境数据是否属于重要数据,而是可等待被动告知,而后再采取相关合规措施。
四、对AIGC数据出境的合规建议
针对AIGC数据跨境的主要场景(详见本文第二部分),结合我国现行数据出境法律监管和合规体系(详见本文第三部分),我们总结了以下AIGC数据出境相关合规建议,供可能涉及数据出境的AIGC开发者及服务提供者提供参考。
1、注意识别训练数据中的重要数据及个人信息
在调用境外算力或模型进行训练的过程中,可能涉及训练数据的出境。因此,在训练数据采集、清洗和标注的过程中,应注意识别相关训练数据中是否包含重要数据及个人信息。尤其是在模型定制场景下,可能涉及大量特定行业和业务场景数据的出境,如果相关行业属于关乎国家安全、公共利益的重要或敏感行业,则应特别注意相关行业数据是否会落入重要数据的范畴。
如经识别,相关训练数据中确实包含重要数据及个人信息,则应根据国家相关规定,积极采取合规措施;如无法确定是否包含,则建议与相关监管机构及时沟通或咨询专业机构进行确定,以减少和规避相关法律风险。
2、根据数据来源判定合规风险及责任
目前,AIGC的训练数据主要来源于 (i) 在自身业务中直接采集或生成的数据,如银行直接在业务中获取的客户个人信息,以及形成的相关业务数据(“直采数据”);(ii) 通过互联网获取的数据,如通过爬虫爬取的相关互联网数据(“互联网数据”);以及 (ii) 通过数据交易方式向专门的数据提供商购买数据(“交易数据”)。
根据训练数据的来源不同,企业应注意采取不同的措施履行合规义务:
(1)对于直采数据,如其中包含个人信息,则企业在该等训练数据的采集阶段,即应注意对采集对象履行充分告知义务,并取得采集对象的单独同意。
(2)对于互联网数据,其数据来源一般较为复杂,难以追溯,本身即可能存在合规风险。因此,应当尤其注意对此类数据的清理和处理,尽量确保该类数据不包含任何个人信息和重要数据。
(3)对于交易数据,企业则应注意在与数据提供商的合同中,明确数据将会被跨境传输,并将数据出境的合规义务转移给数据提供方。例如,如交易数据中包含个人信息的,数据提供方应保证其已经履行了个人信息出境合规义务,包括已向个人信息主体履行了充分告知义务,并取得个人的单独同意。
3、及时履行数据出境合规程序
AIGC企业应注意识别相关出境数据中是否包含重要数据和个人信息,并根据出境数据的类型以及个人信息的数量及时判定其是否需要履行相应数据出境合规程序(如数据出境安全评估、进行个人信息出境标准合同等)。
虽然网信办发布了《数据跨境流动征求意见稿》,或可豁免部分企业履行数据出境合规程序的义务。但是,该征求意见稿尚处于向社会公开征求意见阶段,各企业仍应按照国家现行数据出境的监管要求,积极采取各项合规措施,以防范和应对数据出境相关风险。
AIGC技术的发展日新月异,相关监管措施也必定会日益完善。本文仅从AIGC数据出境这一议题切入,进行了理论层面的探讨。但是,AIGC在实践中遇到的法律问题必定更为复杂。因此,AIGC开发者和服务提供者应密切关注其技术开发及技术服务提供所在国家和地区的相关法律监管措施及趋势,以减少和规避相关法律风险。