前一阵子,我们突然发现了一个很离谱的事儿:
在本人完全不知情的情况下,差评君的声音,被偷去卖不可言说的保健品了。
咱不是啥声优,也不是名人歌手。可现在,逆天的 AI 已经能用 5、6 秒的样本,复刻盗用任何一个普通人的声音了。
看完了这些视频,差评君都有点怀疑自己,是不是真干过这个配音兼职,但这兼职费也没到账啊?
在这细思极恐的时刻,咱是真的很想知道,这玩意儿到底发展到啥地步了???
我们查了不少资料,发现 AI 声音克隆虽然看起来刚成熟不久,变现的赛道上却已经拥挤得很了。
首先,上游的工具准备阶段,卖铲子的老套路依然在赚。
声音克隆的工具其实不少都是免费的,像 ElevenLabs、各种 github 开源模型等等。
材料也是免费的,从各个网站视频里扒名人大 V 的语音就行,只要 10 秒左右的高质量音频,足够后续任何内容的生成了。
教程,还是免费的。视频平台上搜索一下 声音 , 克隆 关键词,相关的教程五花八门。
从复杂的开源部署,到简单的打开网页一键生成,效果看起来一个比一个吊。
把这些免费的工具、素材、教程一块打包,就能轻松卖个几分十几块。
这些技术含量极低的玩意儿,少则卖几十单,多的居然卖了两百多单。
商品详情页普遍打着 只要 x 秒样本、相似度高达 90%+、定制任何语音、情感高度还原 等等宣传语,点进去就是一波焦虑营销,号称是做自媒体必备。
到了下游,用 AI 声音克隆做什么样的 自媒体 ,才是真正赚钱的地方。
靠着这些素材和工具,利用明星的知名度和大伙儿的热情,用 AI 克隆明星声音,成了最快的起号办法。
他们甚至还把防 gank 和吸粉的经验总结起来,整出了声音克隆界的千层套路。
来源:素之初私域
不想被封,就要用 杭州薛之谦 、 东北权志龙 这种擦边账号名;官方人物碰不得;绝对不要声称是本人。
想长期养号,就得多个明星声音混剪、搞点方言,或者用老明星声音钓鱼网友怀旧情怀。
可以说,平台的雷区和爽点都被玩透了。
良心一点的,不拿去盈利倒也还好。像是用明星的声音去翻唱各种歌,每天能发好几首,最高点赞也上万了。
更恶心一点的,就打着明星和家人的旗号,开始直播带烂货圈钱了。
比如前一阵子,央视也报道了声音克隆的乱象。
有的视频开局一张图,再盗用体育明星的声音,就能给 家乡 各种农副产品做代言。
一堆网友以为真是本人,纷纷下单支持,直接卖出去了 4.7 万单。
收益全被灰产吃干抹净,风险却甩锅给明星本人。
粉丝以为是偶像开新号,稀里糊涂就关注了;消费者买到烂货,骂声全冲着正主去。
声音的影响力,一点不比形象差。
最难绷的是,克隆成本极低的另一面,AI分辨检测成了昂贵、且很难完成的任务。
我们最先找到的是这个叫 AI Voice Detector 的网站,在没有任何免费试用,效果未知的情况下,检测 AI 声音的价格最低是一个月 17.8 美元。
也就是说,别人花五十多终身使用,甚至免费搞出来的东西,我们要想去证明,每个月就要花一百多。
免费的检测倒是也有,我们也找了几个,可免费的 AI 声音克隆各有各的吊,免费的 AI 检测软件各有各的拉。
我们用浏览器插件 Hiya 测了前沿部江江的真人配音和大饼的 AI 配音,结果 AI 得分 96,真人配音 87,小丑竟是我自己啊。
做声音克隆出身的 Elevenlabs,即使有相关的技术积累也听不出是 AI。
所以,为啥现在分辨AI声音克隆这么难?
造成这个局面的,一方面是因为 AI 声音合成技术,已经今非昔比了。
现在的克隆技术,使用了大量的语音数据进行训练,又把音色、情感、语调、节奏等等维度拆开建模,细节都能学得人味十足。
来自 Amanda de Andrade 博客
与克隆技术飞速发展相对的另一面,检测工具搞得实在太被动了。
他们要等新的克隆技术出现,花时间采集新数据,重新训练模型,才可能有效。
矛和盾的不均衡发展,让现在AI声音克隆正在逐渐失控,背离发展的初心。
本来吧,它是用来帮助我们给自己发声的。
像是咱这种搞媒体的,有了它就不用天天花那么多时间去录音修音了,一键生成,又快又省心。
对于一些发声困难的人,AI 克隆更是他们重新说话的希望。
像是演员李雪健老师,之前就通过 AI 帮助修复声音,继续表演创作。
可惜的是,这项刚刚成熟的技术,还没等来完善的使用规范,就已经被滥用了。
我们也咨询了法务冯律师,他表示,根据 《 民法典 》 第 1023 条明确规定,自然人的声音保护参照肖像权保护的规定。声音作为人格权益的一部分,具有人身专属性,未经许可不得擅自使用、复制或商业化利用。
然而,受害者的自证要比侵权麻烦得多。在这个守不住底线的互联网,你的声线也守不住了。
AI 声音克隆,正在走向和 deepfake 换脸一样的结局。
对于我们这些普通人来说,一些靠声纹识别的安全技术,比如要念出来的验证码,以后还会有效吗?
给银行打的电话,他们还能确定是我本人吗?
虽然现在声音只是被盗去给视频配音,倒是不算啥大事。但可以预见,我们距离这样的电话已经很近了:
是我是我,妈,我现在急需用钱,能先给我打 1 万块吗?