深度合成技术的新突破表明生成式人工智能时代的到来。此次革新以智能聊天机器人(Chat Generative Pre-trained Transformer,ChatGPT)为代表,颠覆了传统语义生成模型的机械性和单一性,可实现连续交互、文学创作和编译代码等多任务即时并行处理。然而,2023年3月ChatGPT被爆泄露用户姓名、邮箱、卡号等身份信息,引发社会舆论关注。深度合成技术商业化落地后侵害个人信息权的现象表明,规范生成式人工智能处理个人信息的程序、界定处理个人信息的行为边界迫在眉睫。本文拟探讨个人信息利用和信息安全保障之间的平衡问题,从深度合成技术处理个人信息的运行逻辑入手,分析深度合成技术背景下个人信息处理行为的潜在风险,探索深度合成技术处理个人信息行为的合理范围。
一、深度合成技术处理个人信息边界的理论初探深度合成技术指运用深度学习实现的信息生成方式和人机交互模式迭代更新的技术。相较传统人工智能而言,深度合成技术采用了“大数据+大算力+大算法”的逻辑,其中数据是算法和算力的基础。而ChatGPT等生成式人工智能的训练语料数据库中包含大量的个人信息。这给现行的个人信息安全规范带来了巨大的挑战。目前关于处理个人信息边界的标准,主要有二次授权、目的契合和客观开放三种。
1. 深度合成技术处理个人信息的研发逻辑深度合成技术采用了“收集语料—整合数据库—算法运行—模型输出”的研发逻辑,增添了人工智能生成内容这一全新模式。深度合成技术产品能够与用户开展连续对话,并自主生成输出内容,甚至还能进行文学创作与代码生成,在训练方式、信息采集和内容产出三个方面,呈现出无监督、多途径和自主性的特点。
(1)训练方式:无监督模型训练
深度合成技术采用无监督预训练和人类反馈微调的方式构建高度类似人类表达逻辑与方式的语言算法模型。ChatGPT采用生成式预训练模型对既有语料文本数据进行无监督自主学习,引入自我注意力机制(Self-Attention)从海量原始数据集中构建自动特征,计算语序中各词之间的关联度,提升语义的准确性与逻辑性。同时采用人类反馈强化学习进行微调,通过人力标注进行打分反馈使其表达方式更加接近人类的语言习惯。然而,相较于微调所使用的具有“人类偏好”的人工标注数据,无监督所使用的语料信息数据规模量级极其庞大,这导致了生成内容主要依赖训练语料数据无监督产生。无监督自主学习的不可解释性致使生成结果存在难溯源性和失真性,自主学习机制对获取信息不加筛选和过滤,导致在信息加工、处理和生成等环节易出现虚假或错误信息。如果用于训练的语料数据中本身携带偏见与虚假内容,会由算法反馈生成包含甚至放大该负面效应的信息。这可能会造成现有歧视与偏见现象的固化与虚假信息的泛滥,也可能为不法分子策划个人信息犯罪提供直接有效的帮助。同时,ChatGPT受种族、性别、血腥、色情、暴力或恐怖的内容输出的安全准则约束,但可能会被使用者通过提示词命令进行“越狱”,突破道德伦理和法律底线。这种因算法机制而导致的不良、虚假、违法信息,增加了用户核对信息的成本。
(2)信息采集:多途径收集语料
首先,海量数据基础是深度合成技术训练的核心。以ChatGPT为例,其使用的语料数据库涵盖了社交媒体记录、维基百科、Common Crawl语料库、WebText语料库、书籍报刊、新闻资讯与公共领域知识库等。总单词量以万亿计。训练数据按类别可分为预训练语料库、即时网络信息和用户交互信息。预训练语料库包含了大量的个人信息,经过了深度合成技术的自主训练之后,就进入到强化学习和输出等环节。其次,深度合成技术依靠接入互联网端口获取信息。ChatGPT会收集互联网社交平台上超过三个点赞的信息并将其作为文本内容向用户输出。门户网站资讯与回复中所包含的个人信息也会被爬取进入训练语料库并经加工后输出。再者,用户与ChatGPT之间的对话会被存储、审查和用于改进系统 [1] 。在用户交互记录中不可避免地存在一些可识别性的个人信息,尤其是在用户使用ChatGPT进行高度信赖环境下一对一交互时,个人信息暴露的可能提高。对话中所包含的个人信息将会作为其他交互对话的语料库蓝本进行加工并输出。虽然OpenAI采取了一些去识别化和匿名化的措施,来隐去个人隐私和敏感信息,但囿于数据的海量规模,仍存在个人信息泄露和处理不当的问题。同时,为了提高模型的性能和质量,OpenAI还对训练数据进行了一些预处理和过滤,以移除一些低质量的或不可靠的数据源,但仍无法避免生成带有偏见、歧视、暴力、色情、违法信息并通过交互方式传播的风险。
(3)内容产出:自主学习与生成
深度合成技术主要依托大型语言模型(Large Language Model,LLM)获取生成文本内容的能力。如果人类向LLM提供世界上所有的文本、图片、视频等数据,LLM能够自主解构、学习和吸收其中包含的知识点,并将其泛化应用于解决现实中多场景问题 [2] 。作为通用人工智能,LLM追求完成尽可能多的任务。这意味着LLM需要更多的模型参数。在预训练阶段,LLM拥有1750亿参数。人类的大脑一共有大约100万亿个神经突触以供大脑学习 [3] 。如果在后续发展阶段,LLM能够突破现有参数数量,达到100万亿级别的参数,深度合成技术的自主学习能力将能够与人类相媲美。LLM具有强大的知识记忆和推理能力。其中,推理能力对实现自主生成文本功能至关重要。推理能力是指通过对现有知识总结、归纳与推演,能够获得新结论。LLM已经能够完成文本翻译、交互问答、生成代码等工作,但是由于技术仍有发展空间,生成文本中不乏错误出现。LLM通过强化学习实现模型优化。在理解人类自然语言语义基础上,如何进行多场景拟人化交互对模型的泛化性提出了较高的要求。LLM自身拥有一套判断标准。具体而言,人类反馈为LLM生成的内容进行打分,若分数较低则LLM循环训练,直至生成分数较高的回答。除了语言生成能力外,上下文学习、与用户展开连续交互式问答是LLM实现技术突破的重点部分。但LLM拥有上下文学习能力的来源目前尚未明晰。
2. 处理个人信息合理范围的既有标准聚讼深度合成技术信息采集的多途径性导致训练语料库中囊括了海量的个人信息,如何对训练中使用个人信息的场景和范围进行限制成为新的课题。处理个人信息应当在“合理范围”内是当前学界共识,但是界定“合理范围”的标准仍存在分歧。学界关于“合理范围”的界定经历了从形式审查到实质审查、从单一化认定到多元化认定的过程,其中二次授权思路、目的契合性考察思路和客观开放标准观点较具有代表性。
(1)二次授权思路:个人信息保护萌芽
自《个人信息保护法》颁布以来,二次授权思路一直被广泛用于司法实践中判定对公开信息的利用行为是否构成侵权。该思路认为,收集个人信息并再次向他人提供的行为需要获得信息权人的二次授权,否则构成侵犯公民个人信息罪。然而,对于二次收集后的处理行为(如提供、出售、加工等)如何定性,目前还存在争议。有罪说认为,后续处理行为构成犯罪。如信息权人在商业广告中公示的企业联系人信息,具有可识别性特征,当属于个人信息的范围。虽然该信息表面上是向不特定群体公开,但本质是向潜在的客户群公开。所以收集该信息并再次出售的行为,突破了公开目的,侵害了公民个人信息法益,应当以侵犯公民个人信息罪认定。然而,无罪说认为个人信息合法公开应指不特定人获知该信息的行为具有合法性 [4] 。“公开”之意符合人与人之间相互传播行为的本质。不应以侵犯公民个人信息罪处罚收集该信息的任一行为 [5] 。二次授权思路提出个人信息天然具备隐私性和自决性,受信息主体自主支配。即使信息已被公开,也应当对其传播、使用进行限制,保证行为人合法、合理利用个人信息。喻海松博士认为,首次收集行为无需获得同意,但是后续提供行为仍需要探讨其可罚性,依据有无授权而定 [6] ,并主张根据信息权人的意愿进行区分,对于自愿公开的信息,再次提供不构成犯罪;而对于非自愿公开的信息,有可能按侵犯公民个人信息罪论处 [7] 。
(2)目的契合考察:形式审查转为实质
目的契合考察路径有悖于二次授权思路中强调获得信息权人再次授权的形式审查,更重视对符合信息权人公开用途的实质审查。目的契合考察路径的具体内容主要体现在《个人信息保护法草案》一审稿、二审稿中,即行为人处理个人信息时,应当充分考虑信息权人公开个人信息的用途。未取得信息权人特别授权的,行为人的处理行为不得超出公开用途相关的合理范围。该理论强调,对于在公开网站上爬取的企业登记信息进行转让、出售的行为,不应当构成侵犯公民个人信息罪。这与无罪说相契合。不同在于,无罪说以语义为立足点,援引“公开”的本义作为不构成犯罪的根据;目的契合性考察路径以目的为立足点,更强调该行为没有违背信息公开的目的或用途。周光权认为,将收集公开个人信息的行为一律作无罪处理,是不妥当的。收集个人信息行为是否侵权,不仅应结合个人信息的公开状态这一形式标准,也要结合个人信息公开时所规定的目的进行实质判断。并且已公开个人信息是信息权人自愿放弃权利保护的财物。一旦个人信息处于已公开状态,就失去了刑法上的要保护性 [8] 。目的契合考察路径的提出,标志着我国刑法学转向关注前置法对行为的性质认定,这对贯彻法秩序统一性原理具有积极意义。
(3)客观开放标准:充分关注公开范围
客观开放标准是以信息开放程度为标准的刑事责任划定方法,改善了目的契合性考察路径存在的主观性过强的问题。该标准吸收了德国“一般可访问性标准”的设定依据,提出将公开个人信息分为完全开放、限制开放和违法开放三种类型。处理完全开放个人信息的行为取得了信息权人的概括授权,只需通过民法或行政法手段加以规制。仅自然人明确拒绝或者信息处理行为侵犯权利人重大利益时,才需刑法干预;限制开放的个人信息向不特定主体有条件开放,未获信息权人授权时,处理该信息的行为具有不正当性,该部分信息应当得到刑法保护;处理违法开放的个人信息,不受信息开放程度影响,均应受到刑法规制 [9] 。客观开放标准指出了目的契合性考察在具体实践中存在公开目的难以客观化、统一化认定的问题。一方面,当事人的主观目的存在模糊性。繁杂的网络信息中存在数以亿计的公开个人信息,且此类信息通常不具有特别的公开目的。另一方面,该考察思路过分依赖当事人的主观状态,易成为部分不法分子伪装的温床。总体来说,客观开放标准理论更强调从信息的客观开放程度出发,考察个人信息利用行为的合法性,有助于提高司法实践中判断的准确性。客观开放标准立足我国个人信息法律体系,能够兼顾个人信息自决权和公民信息安全,在法律适用时具有确定性和可操作性。
上述观点已经就完全公开个人信息的处理行为应当具有更高的包容性已经形成共识,但在后续使用、处理行为的合法性还未有定论。另外,目的契合性考察和客观开放标准中关于已公开个人信息丧失要保护性的观点有待探讨。不同理论对于限制公开信息和隐私信息的处理仍有争议。其中,二次授权思路提倡形式审查;目的契合考察主张结合目的判断;客观开放标准提出根据公开程度量化。三种观点各具合理性又有不足之处,笔者拟采各家之长并结合深度合成技术处理个人信息时存在的新风险提出“合理范围”的界定路径。
二、深度合成技术处理个人信息的现实风险深度合成技术采用的无监督训练方式导致个人信息处理具有难溯源性,在内部身份失窃后难以追踪行为来源,这擅自扩大了知悉用户身份信息的主体范围;采集用户的聊天记录等交互数据致使其中包含的个人信息泄露,该行为与用户发布聊天内容的目的相违背;深度合成技术生成内容拟真度高、速度快,但具有低质性和滥用性,易造成虚假个人信息大规模传播,这与信息权人允许的处理方式不符。因此,深度合成技术在主体范围、公开目的和处理方式方面均存在侵犯个人信息安全的风险。
1. 身份信息存在失窃风险与传统AI相比,生成式AI系统不是为特定的环境或交互条件而构建的。多场景任务需求拓宽了语料数据库的广度和深度。海量的个人信息涵盖其中。加之深度合成技术在人机交互过程中表现出开放性和易控制性,使得个人信息数据利用量达到了前所未有的规模。而用户内部身份信息亦被纳入。内部身份信息是用户授权技术研发公司使用的个人信息,若身份信息失窃,则会擅自扩大获取该信息的主体范围,侵犯公民个人信息自决权。因此应当将用户的内部身份信息作为绝对隐私信息予以加密。
然而,现有ChatGPT的应用技术还不完善,用户的内部身份信息存在失窃的风险。2023年3月25日,OpenAI公司发布声明,向用户和社区致歉,表示将紧急维护ChatGPT。原因是开源库中存在漏洞,致使用户的聊天记录信息泄露。聊天信息中包含的姓名、电子邮件地址、付款地址、信用卡号后四位,以及信用卡有效期等个人信息均被泄露。同年7月,美国克拉克森律师事务所因ChatGPT的商业访问侵犯个人隐私起诉OpenAI公司,要求公司征求权利人同意并补偿经济损失。另外,无监督训练导致个人信息的使用和处理具有难溯源性。在出现内部身份失窃问题后难以追踪违法行为来源。目前,与身份盗窃相关的犯罪预防研究正在进行,但是如何针对无监督训练的难溯源性采取有效预防措施尚不明晰。
从法律维度来看,已有法律规定并不能妥当应对这一风险。欧盟《人工智能法案》以生产商设计的使用目的为依据,将人工智能分为高风险、低风险和无风险,从而规定不同的注意义务 [10] 。但这并不适用于生成式人工智能。一方面,生成式人工智能的使用目的不能由生产者决定,而是取决于用户。用户下达处理可识别性个人信息等相关侵权指令时,生成式人工智能属于高风险,其他情况均归属于低风险或无风险类别。无论将生成式人工智能归于高风险或低风险、无风险,都将导致过度监管或监管缺失的问题。另一方面,生成式人工智能应用的场景或目的具有不可预测性。ChatGPT的用户规模庞大,不同用户使用生成式人工智能产品的目的不一。而深度合成技术在实际应用过程中具有通用性和多功能性,能够依据用户指令完成多样化任务。对于监管部门而言,监管内容的大规模性、难预测性是亟待解决的监测难点。这表明,现有规定中预先定义风险的治理逻辑并不适用于生成式人工智能。
2. 缺少对交互数据的保护深度合成技术收集语料的多途径性加剧了用户交互信息泄露的风险。ChatGPT允许用户控制对话方向、迭代提问和优化问题,而系统将跟踪对话并分析、表述、编辑和生成自然语言以回答问询。该过程中,用户向ChatGPT发出的指令与信息也会被纳入语料库进行训练,进而优化系统性能、改进用户体验,这加剧了个人信息和商业机密的泄露风险。“一对一”式连续交互对话所带来的沉浸感和深度合成技术所具有的高度拟人性,使得用户对深度合成技术产品产生很强的信任度和依赖感。情感上的依恋很有可能致使安全意识低下的用户在交互时发布含有隐私的敏感个人信息。因此,深度合成技术存在将用户基于高度信任所发表的个人信息,用于存储、审查和交互训练的风险。在“一对一”式交互对话场景中,交互记录属于部分公开个人信息,信息权人为了改善交互体验或寻求帮助向特定对象公开,而ChatGPT将该信息存储并用于与其他用户交互的行为显然违背了用户的公开目的。
交互数据泄露存在技术、制度、法律和标准等多重现实风险。技术层面而言,OpenAI公司仅在官方问答中提及交互数据泄露问题,尚未采取相关措施以提高用户交互过程的私密性;制度层面而言,生成式人工智能产品属于新生事物,关于收集语料、算法运行的监管体系并不完善。当前监管重点在产品生产后的应用过程,亟需建立严密的产品开发监管制度,将监管重心转移至研发技术、收集信息和算法运行的过程;而在法律和标准层面,也缺少关于产品运行不当的问责机制。对于自主运行、缺少人为干涉的人工智能产品,交互信息泄露后存在的责任承担问题并不明确。缺少清晰确定的问责和追责机制会产生难以解决的法律纠纷 [11] 。另外,当前相关法律强调信息权人授权原则。在信息权人主动暴露个人信息时,该行为可视为信息权人授权对方知悉相关内容,就失去了对人工智能产品的治理可能性。
另外,就该风险而言,ChatGPT在向用户作误导性陈述。在向ChatGPT询问是否将用户数据用于储存、审查和训练时,它对此进行否认,表示其不存储任何交互数据。事实上当前对ChatGPT的测试表明,恶意攻击者可采用多步骤越狱提示突破安全机制,以极低的成本获取上述用户个人隐私数据。向用户作误导性陈述的行为违背了信息权人知情同意原则,从侵犯公民个人信息罪的保护法益角度而言,该行为侵害了个人信息自决权和公民信息安全。
3. 规制虚假信息措施不力深度合成技术的语料库被大量虚假信息污染。由于网络信息缺乏真实性审查,大量虚假信息漂浮在虚拟空间。社交媒体上的虚假信息在未来呈增加的趋势。然而深度合成技术难以精确识别此类虚假信息。目前的技术手段主要通过用户白名单、关键字黑名单和手工制定规则来检测虚假信息。这种方法十分依赖字词、语句分析,如果将关键字、词、句单独分离出来进行识别,则无法通过信息的上下文检测真实性,且耗时长,检查效果堪忧。这导致深度合成技术对收集的信息不加辨别地向用户输出,加剧了传播虚假信息的风险。
深度合成技术存在生成虚假内容的滥用风险。一方面,深度合成技术算法机制的难解释性和生成内容的自主性导致训练过程易制造虚假信息 [12] 。算法机制的难解释性并非人为所致,而是由于基本原理的局限性所造成的算法验证性的不足。算法黑箱导致人类无法理解人工智能利用模型、算法来进行决策的运作原理。加上生成式人工智能实现了自主完成大模型运算的过程,缺少人为干预使得所生产信息的真实性难以保证。另一方面,该技术具有难溯源性和拟真性,会导致生成信息的低质化。背靠强大算力,深度合成技术可短时间内低成本生成海量真假混杂、含有事实性错误的虚假个人信息,不法分子易利用所生成的大量包含上述信息的假文章、假新闻、假网络资讯,实施侮辱诽谤、造谣传谣、仿冒诈骗等一系列违法行为。2023年4月,澳洲地方市长或将因诽谤起诉ChatGPT,索赔超90万,引起热议。由于深度合成技术的拟真性提高,人们越来越难以鉴别内容的虚假性,间接导致深度合成技术成为制造和传播虚假信息的有力工具,致使人们质疑政府和公共媒体的可信度,破坏公民的社会信任感。深度合成技术的难溯源性给监管部门带来了不可小觑的挑战,在司法实践中也存在难以定责和追责的问题。生成式人工智能的运作机制和研发逻辑更为复杂,致使人工智能领域原有的技术“黑箱”被进一步放大,这给风险根源的识别工作和采取相应的规制措施带来更大的困难。而具体风险点在于,该运行过程中,信息权人允许的信息处理方式包括个人信息的传播、使用和加工等。其中使用和加工后的结果应该保持信息原意,维持信息权人的社会形象。深度合成技术制造、传播虚假信息的行为与信息权人允许的处理方式相悖。
三、深度合成技术处理个人信息“合理范围”的认定路径基于上述实践中存在的现实风险和理论中个人信息具体使用规则缺失的问题,笔者提出“主体—目的—方式”认定思路。“在合理范围内处理个人信息”的界定应当主要从收集主体范围、公开目的和利用方式进行考察,主体上要以信息开放状态构建分类保护体系,目的上要以客观形式延续公开信息场景的统一,方式上要以实质审查和形式审查相结合的方式分层级管控信息处理风险。
1. 审查主体契合性,划定合法空间审查主体契合性是个人信息风险治理的首要步骤,以个人信息的公开程度为参考标准。深度合成技术主要处理完全公开个人信息和部分公开个人信息,因此应当制定区别化保护方案。
(1)构建个人信息分类体系
为促进个人信息开放流通,在尊重个人自决权的基础上构建个人信息类型化体系是应然之举。以开放状态为标准,个人信息可分为完全公开信息、部分公开信息和不公开信息。其中,完全公开信息可以细分为权利人自愿公开、依法依规强制公开和违法公开三种类别。具体而言,对自愿公开个人信息,应排除收集、提供和销售行为的可罚性;对于依法依规强制公开个人信息,需完善合法公开个人信息访问规则,免除行为人取得权利人同意的要件;对违法公开个人信息,需严厉打击相关收集、提供和销售行为,以侵犯公民个人信息罪处罚。相较客观开放标准,将完全公开信息进一步细化类别,适用不同等级的保护措施,有助于实现精准防控,改变对完全公开信息的保护缺失这一现状。而对部分公开个人信息,需制定部分公开个人信息使用准则,健全主体合法性审查体系,以构建良好的个人信息法治生态。对不公开个人信息,强化对处理行为的监管,及时把个人信息风险化解在萌芽状态。就克拉克森律师事务所起诉openAI公司一案,应当根据ChatGPT抓取的个人信息种类分别审查获取行为的合法性。
(2)建立主体契合性审查框架
主体契合性审查框架主要包括审查对象和不同个人信息处理行为间的关系。客观开放标准仅以信息开放程度为单一要素,事实上,应明确各信息处理行为的主体契合性的考察对象,建立多元考察对象体系。收集行为以行为人是否从属允许公开的范围为标准判定契合性,提供、出售行为以被提供者或购买者是否从属合法主体范围为标准判定契合性。对于不同种信息处理行为,应建立主体契合性的独立审查体系,核心在于把握不牵连原则。具体而言,若收集行为处于违法状态,但是提供、销售等后续行为的违法性不因获得行为的违法性而必然违法,仍应通过对其下游主体(被提供者或购买者)的主体契合性考察而确定。
(3)实施系统性风险监控
关于静态监测不适用于生成式人工智能伴生风险的问题,可以借鉴《数字服务法案》(the Digital Services Act,DSA)中34条的做法,要求生成式人工智能这类超大型搜索引擎和服务平台负有定期监控算法系统的义务 [13] 。建立动态监控风险系统,分层级处理公开信息。对于部分公开信息,应制定合法收集流程和准则,保持传播主体范围的延续性和统一性。如限制用户聊天记录等采集信息只能用于该用户的交互训练。对于完全公开信息,秉持信息来源告知规则,提高信息的真实度 [14] 。同时,应当尊重个人信息安全保护周期的持续性,实现个人信息保护的常态化和制度化。对非法加工信息行为进行严厉打击,加大个人信息安全保护力度。此外,应当明晰各方责任权重,合理划定销售个人信息责任,畅通合法范围内个人信息流转途径。销售个人信息这一行为并不必然具备违法性,其仍属于信息流转的方式,需要通过主体合法性审查来认定。若销售个人信息这一行为并未扩大信息利用主体范围,其获利的对价为收集个人信息所进行的劳动,而非个人信息本身,则行为不构成侵犯公民个人信息罪。
2. 审查目的契合性,维护个人权益目的契合性审查主要对处理行为是否与公开用途相符进行实质审核,是维护个人信息自决权的重要步骤,但现有目的契合考察学说并未解决信息公开用途的主观模糊性这一问题。这提示我们思考如何借助客观形式与信息公开场景使得考查具有可操作性。
(1)根据客观形式判定主观目的
个人信息公开的目的或用途具有多元性和模糊性,应当借助客观形式予以确定。一方面,尊重当事人公布个人信息时规定的目的和用途,保证信息权人的自决权。坚持设定行为目的与信息公开目的相契合原则,规范个人信息处理行为;另一方面,构建公开目的明示规则,避免公开用途的难追溯性。当事人对公开目的加以明确限制的,如该条信息不可作商用、该电话仅供售后联系等,支持信息权人审查信息用途的要求;对当事人无明确限定公开目的,但是以其行为方式表明的,要求表达方式达到一般人可理解的标准;无上述情况,当事人主张审查公开用途的,不予支持 [15] 。
(2)保持信息公开场景的一致性
对于没有明确指出公开用途的个人信息,其目的往往“隐藏”在特定公开场景中。应当关注个人信息公开的特定场景,探求信息权人公开个人信息的潜在目的,解决个人信息公开目的多元性、复杂性和模糊性的难题。贯彻信息公开场景延续的实质性要求,保持公开用途的一致性。如政府人员的公开信息应当用于公务办理。在深度合成技术处理个人信息时,应加入“信息来源和目的”训练,全面、系统、整体落实信息公开场景延续要求。通过约束相关字词识别规则,关注信息公开的真实意图或隐藏语境下的特定目的,从而建立保持公开场景一致性的基础制度框架。
(3)建立信息用途区分制度
低敏感性信息是最易遭受侵害的信息权益对象之一,因此应提高对低敏感性信息的保护意识 [16] ,建立信息用途区分制度,设定同种信息不同保护规则,进一步设立低敏感性信息动态调整方案,实现对低敏感性信息的周密保护,落实公众人物的隐私信息保护措施。如某地政府官员由于承担行政职位,拥有公开的联系方式(如政府热线等)以及个人联系方式,深度合成技术应当能够区分这两种信息并妥善保护个人联系方式等私密信息。而对为特定社会利益而公开的信息,如公众人物的出生年月、籍贯、家人朋友信息等,应当强调对使用个人信息用途的审查,加强对个人信息利用全过程的监管,维护社会利益和个人利益的平衡。
(4)构建商用个人信息规则
个人信息公开的最终目的在于使用,在于创造经济价值或收益,实现个人信息商用是市场经济的本质要求,因此应构建合法商用个人信息制度,为个人信息利用营造良好环境 [17] 。在个人信息利用未对当事人的生活造成恶劣影响,反而节省了其搜索时间,便利了其生活的情形中,应当以互联网经济发展优先,如采集用户搜索信息提供个性化购物推荐、有针对性投放广告以增加购买量等。应设定个人信息公开目的限制规则,避免过度审查个人信息公开用途;适当允许信息产业中必需的收集和利用个人信息行为,将刑法的谦抑性与个人信息利用法治体系相融合;适当收缩刑法手段的适用,依法规范和引导信息产业健康发展,为商用已公开个人信息构建良好的法治生态系统。
3. 审查方式契合性,保证信息真实处理个人信息方式不当是制造、传播虚假个人信息的关键步骤。但是,现有理论中并未提及处理环节的审查方式与合理范围,对此可以通过双重审查和分级处理进行具体化限制,借助比例原则为公开个人信息的真实性拉上最牢固的“保险栓”。
(1)统筹形式审查和实质审查
方式契合性审查需要综合考虑形式审查和实质审查。形式审查方面,需构建外观相符的审查规则,如对个人信息进行增补删减等行为方式是否与当事人间约定一致。实质审查方面,需以个人信息自决权为主导,审视信息加工后产生的结果与影响,做好对信息权人原意与加工后信息的比对。两者综合审查要求构建当事人间授权明示机制。当事人间需要就信息处理的方式、信息种类、具体内容、实际影响以及处理时间等方面作详细约定。总之,应全面统筹形式审查与实质审查,切实做到主观与客观相互印证、相辅相成,做到“不漏罪、不漏人、不错罪”,在保护公民信息自决权和实现信息利益最大化之间寻求平衡。
(2)坚持比例原则加工信息
若缺少明确约定,应坚持处理方式的适当性、均衡性和必要性 [18] 。在适当性方面,制定处理个人信息的法定底线,保证处理方式和处理结果之间具有正当性;在均衡性方面,构建加工个人信息方式的价值判断体系,针对个案动态考量价值位阶;在必要性方面,首先坚持必需原则收集信息,落实必要范围内采集、加工个人信息制度,设定采集个人信息的种类和内容与实际需求匹配规则;深化整治超范围采集、加工个人信息行为。其次坚持最小侵害原则加工信息,加工信息行为应满足对信息权人影响最小的实质性约束;通过加强对加工个人信息行为的全过程监督,重点关注个人信息加工过程及结果,避免虚假个人信息的产出与传播,推进合理化加工个人信息建设常态化、长效化。
(3)完善分级加工个人信息规范
构建分级加工体系是维护个人信息安全的关键环节,应协同推进个人信息保护制度和深度合成技术共同发展。具体而言,对一级高度敏感信息,如用户身份信息等。应改进深度合成技术产品的系统安全性能,深入推进高度敏感信息保护督察,防范列入训练语料库和信息加工改变原意的风险 [19] 。对二级低敏感度信息,如交互数据信息等。贯彻落实保护可识别性个人信息原则,针对可识别性信息提高算法运行透明度。协同推进保护个人信息和发挥个人信息商用价值,严格限定交互数据使用范围,构建安全高效的个人信息利用体系 [20] 。对三级一般个人信息,构建以信息权人授权为主导的一般个人信息利用机制,贯彻落实最小侵权原则,保证个人信息的真实性,维护权利人的信息权益。
(4)完善虚假个人信息治理体系
系统治理虚假个人信息是保障个人信息权益的最终环节,需实现技术治理、社会治理与法律治理协同并进。在技术层面,优先考虑开源人工智能技术的开发,引进基于人工智能和机器学习的自动检测技术,提高深度合成技术处理个人信息算法的透明度。共建国际合作平台,破解生成式人工智能算法“黑箱”[21]。在社会层面,畅通用户投诉渠道,鼓励用户报告任何虚假个人信息,增强群众组织力。在法律层面,加快建立不当处理个人信息和传播虚假个人信息追责机制,明确生产者、销售者和用户等多方主体责任,推进权利、程序、责任法定化,提高执法效率和公信力。总之全面、准确落实共同责任制,制定相当的法定刑罚实现有效治理。
四、结 语个人信息安全是数字经济发展的前提和基础 [22] 。随着相关法律文件的颁布,我国对个人信息的保护已经形成了较为全面完善的法律体系。但在面对深度合成技术此类新生技术暴露出的内部身份失窃、交互数据泄露和传播虚假信息等问题,需针对此进行相应的刑法保护。“主体—目的—方式”认定思路是对法律规定的“合理范围”的可行路径,该路径从侵害公民信息权的现实风险、现有基础学说和现行法律规定入手,多方位规范处理个人信息行为,细化了对深度合成技术利用个人信息的具体准则,在合理应对深度合成技术对个人信息产生的现实风险中推动数字经济的长足发展。
[1] |
齐爱民. 中华人民共和国个人信息保护法学者建议稿.
河北法学, 2019, 37(1): 33-45.
|
[2] |
赵朝阳, 朱贵波, 王金桥. ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路.
数据分析与知识发现, 2023, 7(3): 26-35.
|
[3] |
朱光辉, 王喜文. ChatGPT的运行模式、关键技术及未来图景.
新疆师范大学学报(哲学社会科学版), 2023, 44(4): 113-122.
|
[4] |
马啸, 狄小华. 公民个人信息刑法保护界限问题研究.
江海学刊, 2019(2): 231-237.
|
[5] |
徐剑. 侵犯公民个人信息罪法益: 辨析与新证.
学海, 2021(2): 118-126.
|
[6] |
喻海松. 侵犯公民个人信息罪司法疑难之案解.
人民司法(案例), 2018(32): 13-16.
|
[7] |
喻海松. 侵犯公民个人信息罪的司法适用态势与争议焦点探析.
法律适用, 2018(7): 10-15.
|
[8] |
周光权. 侵犯公民个人信息罪的行为对象.
清华法学, 2021, 15(3): 25-40.
|
[9] |
王华伟. 已公开个人信息的刑法保护.
法学研究, 2022, 44(2): 191-208.
|
[10] |
Pagallo U, Ciani S J, Durante M. The Environmental Challenges of AI in EU Law: Lessons Learned from the Artificial Intelligence Act (AIA) with its Drawbacks.
Transforming Government: People, Process and Policy, 2022, 16(3): 359-376.
|
[11] |
苏宇. 大型语言模型的法律风险与治理路径.
法律科学(西北政法大学学报), 2024(1): 1-13.
|
[12] |
宋华健. 论生成式人工智能的法律风险与治理路径. 北京理工大学学报(社会科学版) (2023-12-19). https://kns.cnki.net/kcms2/article/abstract?v=1TlORdBtwpaNsHnqzy-o-wq5uf4hOS3Mk67vi4MDif8NuP5odwuS8BnKU8itDVOkBTuXy16hTJ7jxS6gDclRPR0Iq35vpJ26xr6Xm9VYOV67IoYNrvnTaWGmP7wOXQWLKg1LSmt5Gnk=&uniplatform=NZKPT&language=CHS. [2023-12-22].
|
[13] |
Veale M, Zuiderveen B F. Demystifying the Draft EU Artificial Intelligence Act—Analysing the Good, the Bad, and the Unclear Elements of the Proposed Approach.
Computer Law Review International, 2021, 22(4): 97-112.
DOI: 10.9785/cri-2021-220402. |
[14] |
邓建鹏, 朱怿成. ChatGPT模型的法律风险及应对之策.
新疆师范大学学报(哲学社会科学版), 2023, 44(5): 91-101,2.
|
[15] |
程啸. 论我国个人信息保护法的基本原则.
国家检察官学院学报, 2021, 29(5): 3-20.
|
[16] |
刘宪权. 敏感个人信息的刑法特殊保护研究.
法学评论, 2022, 40(3): 1-10.
|
[17] |
孙瑞英, 李杰茹. 我国个人信息保护工作的推进现状研究——基于《中华人民共和国个人信息保护法(二审稿草案)》的文本解读.
情报科学, 2021, 39(11): 157-166.
|
[18] |
刘权. 论个人信息处理的合法、正当、必要原则.
法学家, 2021(5): 1-15,191.
|
[19] |
李世刚, 屈然. 论敏感个人信息的合理使用.
江苏社会科学, 2022(6): 159-168, 243.
|
[20] |
金龙君, 翟翌. 论个人信息处理中最小必要原则的审查.
北京理工大学学报(社会科学版), 2023, 25(4): 140-150.
|
[21] |
Lund B D, Wang T. Chatting about ChatGPT: How may AI and GPT Impact Academia and Libraries?.
Library Hi Tech News, 2023, 40(3): 26-39.
DOI: 10.1108/LHTN-01-2023-0009. |
[22] |
王华伟. 数据刑法保护的比较考察与体系建构.
比较法研究, 2021(5): 135-151.
|