9月26日,合肥市公安局高新分局发布警情通报称,对于网上传播涉卢某某的音视频,9月22日抓获犯罪嫌疑人王某某,并在其电脑、手机和制作AI音频的网站中发现伪造相关音视频的证据;结合其供述、调查取证,并经部、省专业机构检验鉴定,认定报案所涉网传音视频系伪造。


这是又一起因AI深度伪造技术而出现的案例,当前,克隆他人声音的门槛已经低到何种地步?面对门槛不断下降的AI深度伪造手段,监管层又该从何处着手?对此,新京报贝壳财经记者进行了声音克隆的实测,并采访了相关专家。


克隆声音 门槛有多低?


关于声音合成技术的应用最早能够追溯到十一年前,高德地图推出的“林志玲语音包”,但此后,随着AI语音技术的发展和技术开源,语音合成的门槛逐渐降低,只要提供音源,普通人也可以进行声音合成。从技术角度,不论是自己的声音还是从网络上找到的其他声音资源,都可以用于AI语音合成的素材,这在方便了配音、数字人等行业发展的同时,也给AI声音伪造提供了条件。


9月27日,新京报贝壳财经记者以相关关键词在网络进行搜索,很容易就找到了多个拥有声音克隆能力的软件,其中不乏知名公司,例如科大讯飞的AI配音软件,字节跳动旗下的剪映软件等。此外,还有不少已经开源的AI配音技术,其中不乏只需要上传5秒钟就能识别并克隆声音的功能。


对此,记者分别在一款国人制作并在GitHub上开源的声音克隆软件,以及剪映软件中分别体验了声音克隆功能。


记者使用声音克隆软件制作的配音视频。新京报贝壳财经记者罗亦丹/制作


在开源软件中,记者上传了一段3分钟的自己的录音,在经过AI模型训练后,成功得到了自己声音的模型文件,此后输入任意文本,软件即可口播出自己的声音。记者发现,经过模型训练后,记者在发音时的一些吐字习惯都被模型牢牢记住,对于一些较短的语句,连记者本人都识别不出这是机器合成的语音,而生成长语句时,则会出现瑕疵,但只要多次生成,再从中挑选合成效果较好的语句,总有可以“以假乱真”的声音出现。


而在剪映软件中,选择文本后的“朗读”选项卡里,有“克隆音色”的选项,记者发现,只要按照该软件的提示词朗读其准备好的语句,只需要10秒左右,其就可以生成独属于自己的声音模型,此后只需要输入文本其就可以按照输入的音色生成语音。


但假如创作者故意输入了其他人的声音,是否有防范的措施呢?记者发现,前述开源软件的软件作者在使用界面中标注称,“本软件以MIT协议开源,作者不对软件具备任何控制力,使用软件者、传播软件导出的声音者自负全责。”


而剪映在弹出的提示中表示,其将全程采用安全加密措施处理提供的信息,不会在未经授权的情况下使用相关信息。克隆音色生成后,使用克隆音色进行文本朗读,需按照文本字数进行付费,并在使用规范中标注了“您承诺所录制的音频为您本人所有或已获得合法授权。”


剪映软件中克隆音频的提示。


记者发现,由于AI合成的声音几乎可以“以假乱真”,因此平台在传播相关由AI音频制作的内容时,往往难以通过有效手段进行识别。当前,抖音、哔哩哔哩等平台确实有对于AI生成内容的提示,但如果平台检测不出此内容为AI生成,内容创作者也不加以标识,确实容易导致虚假内容的传播。


AI伪造声音触犯了哪些法律法规?平台和监管部门应如何用魔法打败魔法


在“卢某某”录音事件中,根据警方通报,9月16日,王某某利用从互联网下载的音视频资料,杜撰卢某某酒后言论脚本,先使用AI工具训练生成假冒卢某某的音频(其中出现的女声也系AI工具训练生成),后用视频软件合成音视频,并通过网络发布,形成谣言大量传播。目前,王某某已被依法采取刑事强制措施,案件正在进一步侦办中。


9月27日,浙江垦丁律师事务所主任律师张延来在接受新京报贝壳财经记者采访时表示,随着AI合成技术的普及,特别是在声音和视频领域的广泛应用,确实带来了许多潜在的风险和问题。主要体现在利用AI合成实施诈骗行为、版权和知识产权侵权问题(如利用AI技术生成“AI孙燕姿”或其他名人声音)、虚假信息和谣言传播(如“卢某某”录音事件中的AI伪造音频)、制作贩卖淫秽物品牟利(如用AI“一键去衣”技术深度伪造淫秽图片)等。


而在“卢某某”录音事件中,AI伪造声音触及的法律法规包括未经授权使用他人声音进行AI化处理并利用侵犯了他人的人格权益,利用AI制造和传播虚假信息属于扰乱公共秩序的违法行为,同时还可能涉嫌诽谤罪以及寻衅滋事罪。


张延来表示,许多国家已经开始探索针对深度伪造等技术的立法,“比如,中国在2022年出台的《互联网信息服务深度伪造管理规定》,要求用户和企业使用AI合成技术时,必须标明是否为AI生成的内容,未标明的内容可能会受到法律追责。未来,法律应进一步细化,明确哪些场景下AI合成技术的使用是合法的,哪些情形下可能构成侵权或犯罪行为。加强对AI伪造内容的监管和惩罚力度,将有助于遏制此类行为。”


对于在法律层面应对AI伪造的方法,张延来认为,法律可以要求任何涉及他人肖像、声音、名誉等个人信息的AI合成内容都必须经过当事人明确同意,并对未授权的内容使用者施加严厉的惩罚。这种机制能够有效减少利用AI技术对个人隐私的侵害,防止伪造信息的传播。同时,法律可以规定,使用AI生成内容的公司、平台以及个人必须留存数据生成过程的完整记录,以便日后追查。这种追溯机制可以让相关方对其生成的内容负责,帮助追究相关的法律责任。


贝壳财经记者注意到,9月14日,国家互联网信息办公室发布关于《人工智能生成合成内容标识办法(征求意见稿)》(下称《征求意见稿》)公开征求意见的通知,还配套发布了国家标准《网络安全技术 人工智能生成合成内容标识方法》。《征求意见稿》共十四条,其中较为重要的条款包括要求人工智能生成合成内容标识包括显式标识和隐式标识,而根据《征求意见稿》,人工智能生成合成内容既包括文本,也包括音频、图片、视频等。


中国信息通信研究院人工智能研究所所长魏凯分析称,《征求意见稿》进一步完善生成式人工智能监管问责体系。生成式人工智能生成合成内容涉及多种类型的主体,清晰界定各主体义务更有利于压实主体责任,便利技术检测实施,进而落实精准问责。《征求意见稿》不仅界定了人工智能生成合成内容的基本概念,更针对服务提供者、传播平台、应用服务分发平台和用户分别规定了具体标识要求,为各相关主体落实合规指明了方向。


而在技术层面,张延来表示通过技术手段可以嵌入数字水印或元数据,使得AI生成的音视频内容具有可追溯性,能够准确识别内容的出处。这类技术可以帮助平台和监管机构快速检测出虚假信息并阻止其传播。同时,可以开发更强大的AI模型用于检测深度伪造内容,这类反伪造AI可以应用于社交媒体、新闻平台等,自动过滤虚假内容。


“各大内容平台可以引入更加严格的AI生成内容审核机制,利用反伪造技术在内容上传阶段进行自动检测与标记,特别是对于涉及名人、公众人物或敏感事件的内容。此外,平台应为公众提供举报机制,允许用户快速举报疑似伪造内容,并快速响应处理。”张延来对新京报贝壳财经记者表示。


记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 卢茜