AI换脸余波未退,AI换声又陷“诈骗风波”,开源模型要背锅?

官网首页    资讯动态    技术干货    AI换脸余波未退,AI换声又陷“诈骗风波”,开源模型要背锅?

据《华尔街日报》消息:有犯罪分子使用基于人工智能的软件冒充某能源公司德国总部 CEO 的声音,对英国分公司进行欺诈,并成功骗取了 220,000 欧元(约 243,000 美元)。网络犯罪专家称这是一种利用 AI 进行黑客攻击的不寻常案例。

 

利用AI伪装老板声音,1个电话骗走173万

英国某能源公司的CEO接到一个电话,他以为自己在和德国母公司CEO通话,对方要求他把钱转给匈牙利供应商,并表示此事非常紧急,要在一个小时内付款。

执法当局和AI专家预测,犯罪分子使用了人工智能来实现自动化网络攻击。无论这一事件背后黑手是谁,似乎已经使用基于人工智能的软件通过电话成功模仿德国高管的声音。总部位于慕尼黑的金融服务公司Allianz SE的子公司Euler Hermes的欺诈专家Rüdiger Kirsch表示,英国CEO听到了他老板轻微的德国口音以及他在电话中的腔调。

一些官员表示,欧洲的语音欺骗攻击是他们听到的第一个网络犯罪,其中犯罪分子明显依赖人工智能。根据Kirsch的说法,Euler Hermes承担了受害公司索赔的全部金额,之前并没有处理过其他要求追回涉及人工智能犯罪的损失的索赔。

Kirsch表示,使用AI的诈骗对公司来说是一个新的挑战,以往的安全工具无法检测到。因此,网络安全公司最近开发了用于检测所谓deepfake录音的产品。

欧洲刑警组织欧洲网络犯罪中心战略负责人Philipp Amann说:目前尚不清楚这是否是首次使用人工智能的攻击,或者当局没有检测到使用了这一技术。虽然很难预测使用AI的网络攻击是否会很快出现上升,但Amann先生表示,如果黑客利用AI攻击更成功或更有利可图,他们更有可能使用该技术。

Kirsch说,欺骗英国能源公司的黑客打了三次电话。22万欧元转移后,黑客打电话说母公司转移资金偿还英国公司的费用。然后他们在当天晚些时候进行了第三次电话会议,再次冒充首席执行官,并要求第二次付款。由于转账偿还资金还没有收到,而第三次电话是来自奥地利的电话号码,行政部门开始怀疑,没有支付第二笔款项。

转入匈牙利银行账户的资金随后转移到墨西哥并分发到其他地方。基尔希先生说,调查人员没有发现任何嫌犯。

目前还不清楚攻击者是否使用机器人对受害者的问题作出反应。Amann说,如果他们这样做,执法当局调查可能会更加困难。

Kirsch认为,黑客使用商业语音生成软件来进行攻击。Kirsch用一种这样的产品录制了自己的声音,并说克隆的版本听起来很真实。

网络安全公司Endgame的数据科学主管Bobby Filar表示,一些软件公司提供的服务可以迅速克隆声音。“你不需要成为数学博士就能使用它。”Filar说。

黑客可以使用的另一种策略是将音频样本拼接在一起以模仿一个人的声音,这可能需要数小时的录音。安全研究人员去年在Black Hat大会上展示了这项技术。

攻击者可以使用公开的录音来冒充名人或高管。

Filar说:“你不可能四处走动却一直保持沉默。每个人都可能遇到这样的情况,你会暴露出你从未想过可以用来对付你的信息。”

联合国区域间犯罪与司法研究所人工智能与机器人中心负责人Irakli Beridze说:将机器学习技术应用于欺骗性声音使网络犯罪变得更加容易。

联合国中心正在研究检测虚假视频的技术,Beridze先生称这对于黑客来说可能是一个更有用的工具。就英国能源公司而言,一个不熟悉的电话号码终于引起了怀疑。“想象一下,以CEO的声音进行视频通话,这是您熟悉的面部表情。那么你根本不会有任何疑虑,“他说。

 

AI换声只需5秒样本,谷歌项目开源

其实,利用AI克隆一个人的声音也不是什么新鲜事,百度去年就推出了一种新的神经语音克隆系统,只从少数音频样本中就能合成一个人的声音。

谷歌旗下的加拿大公司Lyrebird,只需一分钟音频即可生成与用户语音特征高度相似的数字语音。

谷歌也发表过一篇题为“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis” (SV2TTS) 的论文,描述了一种用于文本到语音(TTS)合成的基于神经网络的系统,该系统能够以许多不同发言者的声音产生语音音频。

640.webp

SV2TTS是一个三阶段的深度学习框架,可以从几秒钟的音频中创建语音的数字表示,并使用它来调节文本到语音的模型,该模型经过训练可归纳为新的语音。也就是说,只需5秒钟的音频样本,就可以克隆一个人的声音该系统由三个经过独立训练的组件组成:

speaker encoder网络;

基于Tacotron 2的序列到序列合成网络,其以语音嵌入为条件,从文本生成mel频谱;

一个自动回归的基于WaveNet的声码器,它将mel频谱图转换为一系列时域波形样本。

Speaker Encoder是谷歌之前提出的说话人鉴别网络,该深度网络单独预训练,训练语料使用大量的说话人音频,不需要对应文本,且音频可以充满噪音,该部分网络输出固定大小的speaker embedding,说话人向量就编码了说话人的声音特征。

这项研究证明了所提出的模型能够将由经过判别训练的说话者编码器学习的说话者可变性的知识传递给多语言TTS任务,并且在看不到说话者的情况下能够从训练期间合成自然语音。

最后,我们证明随机抽样的speaker embedding可以用来合成新说话人语音中的语音,这表明该模型获得了高质量的说话人表示。

论文地址:

https://papers.nips.cc/paper/7700-transfer-learning-from-speaker-verification-to-multispeaker-text-to-speech-synthesis.pdf

音频样本:

https://google.github.io/tacotron/publications/speaker_adaptation/

开源地址(非官方):

https://github.com/CorentinJ/Real-Time-Voice-Cloning

 

开源模型成AI诈骗“罪魁祸首”?

前几天,在中国火爆的一款名为“ZAO”的应用软件也被质疑恶意收集用户面部信息,更有专业的法律人士发现,这款软件的用户条款里存在“打擦边球”的漏洞。北京时间 9 月 4 日,工信部对 ZAO 软件开发公司进行了约谈,并要求整改。

跟“ZAO 事件”一样,声音版 DeepFake 也在技术论坛上引发了人们对于开源模型的担忧。在 Reddit 论坛上,已经有不少人对此类事件展开了讨论:

“开源社区中有许多正在进行的开源语音合成模型项目。此外,一些开源语音合成模型已在未经他人同意的情况下进行着声音训练。”

“这些模型可能会被滥用,我们不能在未经别人同意的情况下克隆任何人的声音。一个人的声音模型可以使其面临更高的骚扰和欺诈风险。”

也有人从另外的角度提出建议:能否从保护受害者的角度是否可以采取一些措施?有些受害者甚至自己都不知道已经在无意中泄露了隐私。

“我们不应该仅仅因为有恶意使用而禁止语音合成技术,正如我们不应该因为同样的理由禁止互联网一样。我们也不能期望每个人都能够跟上时代,并且清楚地了解机器 / 深度学习可能带来的新型威胁。在这里参与讨论的每一个人基本都知道“DeepFake”是什么东西,但是其他人呢?”

一个让人有些无奈的事实是:参与讨论的大部分人都表示,无法阻止有人利用技术作恶,目前人们能做的,也只能是期待尽快立法来对部分技术的使用加以约束,并加强对普通用户的安全教育。

不过,也有人表示目前已有的在线模型质量其实并没有那么好:它们仍然需要 10-20 个小时的音频数据;在优化的硬件上,这些模型的实际推理速度为 16-60 倍;这些模型在自然度 (MOS) 方面的表现通常比串联语音合成差;它们在不同的场景下表现参差不齐,并不能很好地模仿和表达声音。

但是,技术终将走向成熟,它会更具有伤害别人的潜力,使用者到底会用它来做什么,仍然是一个巨大的不可控的因素。

引导页

2019年9月4日 16:43
浏览量:0
收藏
本网站由阿里云提供云计算及安全服务 Powered by CloudDream