对以ChatGPT为引领的AIGC内容治理,本研究提出以“智能对抗”的形式重构AIGC内容治理的格局,通过“智能对抗”的实现路径,推动结果型与过程型平衡的治理。

生成式人工智能(AIGC)推动了信息传播革命,使AI模仿人类的创造性劳动,产出文本、图像、音频等多模态媒介表现形式。然而,AIGC的广泛应用带来了内容安全的严峻挑战,传统的内容治理手段在应对AIGC带来的风险时捉襟见肘,迫切需要从理论和实践层面探索新技术条件下的内容治理逻辑与路径,以确保AIGC成为助力而非阻力。而这一目标的实现离不开技术的支持。因此,对以ChatGPT为引领的AIGC内容治理,本研究提出以“智能对抗”的形式重构AIGC内容治理的格局,通过“智能对抗”的实现路径,推动结果型与过程型平衡的治理。

一、“智能对抗”的必要性

(一)AIGC的内容风险特征。Bond-Taylor等学者认为生成式人工智能的本质是对训练样本的分布状况进行建模,根据模型抽取样本生产内容[1]。Ruthotto和Haber等提出AIGC的核心在于模型的能力,它是通过分析和理解数据的内在结构,来自动创造与训练数据风格一致但内容独特的输出,从而实现对人类创造性任务的模拟[2]。因此,AIGC的生产逻辑本质上关乎技术模型的选择和数据训练的基础架构。即是说,AIGC的生产逻辑依然根植于人工智能的三大核心要素:算法、算据和算力。从AIGC的系统要素构成来看,李白杨等指出网络形态数据、内容生产关联算法、交互用户、资源组织平台构成AIGC的基础性要素[3]。由此可见,AIGC的内容风险包括了传统的网络内容风险,但也有其自身的特征。

既往传统的网络内容风险约有九大类型:内容低俗化风险、网络暴力风险、虚假信息传播风险、信息操纵风险、网络恐怖主义风险、网络文化入侵风险、网络意识形态风险、知识产权风险、侵权风险。[4]然而,以ChatGPT为代表的AIGC技术,虽然目前在实际应用过程中尚处于风险演进的初期阶段,但这种无节制的使用可能导致网络内容风险的进一步加剧,如虚假新闻[5]、版权争议[6]、伦理损害[7]等。根据AIGC内容生产逻辑,数据、算法、用户、平台均在不同层面加剧了这种风险。在数据和算法中,由于算法设计或训练数据存在缺陷,使得AIGC可能会产生逻辑推理错误的内容[8],从而导致虚假信息的生产;而GPT-3及更高版本模型操纵的风险使得信息内容存在偏向自由主义的价值观念预设的倾向[9],用户在与AIGC“一对一”的互动过程中,极易被AIGC灌输相应的政治理念,从而带来极大的隐蔽性意识形态渗透风险[10]。在用户层面,部分用户刻意使用AIGC进行价值与意识形态的错误传播,误导性信息在网络空间的传播极易在公众中形成错误共识,成为外部意识形态渗透的“新平台”[11]。在平台层面,平台的集成扩大了AIGC应用场景,由于其生成内容的高度逼真性,使得这些风险更难以被传统手段识别和控制,对信息真实性和新闻公信力均造成了严重冲击,虚假内容的跨境传播逐渐成为一种新的复合型国家安全威胁[12]。此外,AIGC的算法黑箱、数据隐私泄露等,也构成新的内容风险类型。这些风险相互叠加,使得内容治理面临更多的不确定性和挑战。

(二)AIGC对内容治理的挑战。目前面临的更大困境来源于面对AIGC带来的新风险和挑战,传统的治理模式显然力不从心。在传统媒体时代,主要通过编辑把关来控制内容风险,依托“总编辑负责制”和“三审三校”等机制确保媒体内容的质量;在社交媒体时代,内容管理从现有的编辑把关模式逐渐转向生态治理模式,将用户、平台等多元参与者纳入治理体系,并运用多种新技术手段进行内容风险的识别与控制。内容审核员成为这一时期平台内容的“把关人”,计算机识别成为内容审核不可少的手段。这些方式本质是通过对生产要素和生产流程的控制实现内容治理,即人工把控的“把关人”和计算机识别成为传统内容治理的主要模式。然而,AIGC的内容治理挑战源于技术对内容生产与传播方式的根本性变革,两种模式面对快速生成海量内容的AIGC时均遭遇挑战。AIGC规模化的内容生产,使得信息生成的速度远远超出人工审核的承受能力;计算机识别也只能基于既有的系统和已经生成的内容。这种方式难以解决AIGC内容生产中的特殊性问题,例如,内容生成中的是与非错误、逻辑推理错误、价值与意识形态的错误[8]等。此类错误在识别过程中定义相对模糊,需要人为判断或需结合上下文的语境场景判断,因此存在误判的可能性。Katzenbach认为,使用AI技术解决错误信息和仇恨言论等问题会引发特定的问题和危害,因为这些类型内容的上下文性质限制了传统算法系统的准确性,从而加剧了过度屏蔽等危害。[13]此外,AIGC技术的易学易用也给内容审核带来极大的困难。例如,AIGC的产物之一——深度伪造(deepfakes),运用的“生成对抗网络”技术就被用户快速普及,[14]它生成的逼真内容不仅被用来制作非法色情内容,还涉及身份泄露、勒索钱财等隐私风险、人身风险,更危害至未成年人群体。韩国的数据表明,自2018年以来已有超过2000名“深度伪造”受害者,其中未成年人占比近四成。[15]加州大学伯克利分校的教授Hany Farid表示“忙于合成(‘深度伪造’)视频的人数与检测核证的人数比例,是100:1”[16]。

面对这些挑战,传统的人工审核和计算机识别模式显然已不适应AIGC带来的内容风险。因此,我们需要探索新的内容治理逻辑——“智能对抗”,来应对AIGC技术所带来的挑战。它不仅是技术层面的创新,更是内容治理理念和模式的革新。我们需要建构更“智能”的方法,来学习和预测AIGC的生成模式。

二、“智能对抗”的逻辑与路径

在围棋界,通过深度强化学习技术学习游戏规则、专家数据、经验数据,AlphaGo系列已超越人类水平的围棋对弈能力;在算法模型的博弈下,AlphaZero仅训练30小时就超越了AlphaGo Lee,凸显了深度强化学习在解决控制决策问题中的广泛适用性。“机器解决机器”带来的问题提供了另一个视角,但需指出的是这些算法都在一个确定的环境模型的情况下进行,即模拟器(simulator)[17]模拟了围棋这一较为单一的场景。而现实中,网络传播环境通常是复杂且未知的。

AIGC的基本原理是人类通过训练让机器理解人类给予的任务(指令),然后完成任务(给出答案),这通常涉及数据收集、数据预处理、模型训练、内容生成以及评估和细化等步骤。[18]它的内容风险可能来自算法、算据和算力的任意环节,很难通过传统的信息探测技术控制风险,因此引入大模型和智能技术是风险控制的重要手段。本文认为,应依据“以攻测防→以攻促防→攻防一体化”的安全理念,通过模拟对内容风险各场景的攻击,检查模型和系统的弱点,提升算法和系统的安全水平。即是说,借鉴AlphaGo系列的思路,将“智能”引入内容治理中,在人工智能系统设计和应用中,利用智能技术本身来应对和解决由智能技术引发的问题和挑战。思想的核心在于构建一个能够自我学习、自我适应、自我优化的智能系统,使其在面对复杂多变的环境和问题时,能够自动调整策略、优化决策,从而实现更加高效、准确的治理。“智能对抗”主要体现在以下四个方面:自我监控与自我修复、自我学习与自我优化、对抗性训练与鲁棒性增强、人机协作与共同进化。这种思想不仅有助于提高智能系统的性能和可靠性,也有助于推动人工智能技术的健康发展和社会应用。“智能对抗”的思想在AIGC内容风险治理方面的应用,主要体现为利用人工智能技术和方法去监测、识别、评估和管控由生成式人工智能生成的内容所带来的风险。这是一种智能检测的方法,包括内容检测与识别、风险评估与预测、内容过滤与控制、反馈与迭代等。

根据对抗对象AIGC的逻辑,本文认为,“智能对抗”的核心在于利用已经构建的风险测评模型,对AIGC生成的内容进行深度评估,并基于这些评估结果预测潜在风险,从而提供相应的防控策略。它的重点是内容安全治理数字建模新体系,即将传统的定性评估转化为定量分析。

因此,智能对抗的基本逻辑如下:借鉴基于GAN训练样本的评估方法思路[19][20](如图1),从数据收集开始,确保数据收集阶段的多样性,根据生成样本建立对抗训练样本,即检测模型。

0个人收藏 收藏

评论交流