编辑:硬AI

任何人都可以克隆任何人的声音并以几乎任何措辞措辞!AI“深度造假”能力_视频_措辞 AI简讯

AI的造假能力强到什么程度?

近日,美国前总统特朗遍及奥巴马、俄罗斯总统普京及前总统叶利钦、特斯拉首席实行官马斯克以及C罗的AI合成***在X(前身为Twitter)和Reddit等社交平台上被不雅观看了数千次。

在马斯克的***中,“他”用法语接管了媒体采访,阐述他对付AI威胁的意见。

不仅音色、语气以假乱真,就连对口型也险些毫无马脚。

这便是最近爆火的“深度造假”(Deepfake)技能,不仅可以克隆声音,精通险些所有措辞,而且还可以匹配口型。

专门从事“深度造假”的DeepMedia创始人Rijul Gupta表示:

我们基本上已经达到了这样的程度:任何人都可以克隆任何人的声音,并通过5秒的音频素材,使其以险些任何措辞说话。

目前,市情上已经涌现几款通过“深度造假”技能进行***语音翻译和口型同步的运用程序。

LipDub:风投心头好

LipDub是一款***语音翻译+口型同步的移动APP,用户能在几分钟内“用外语互换”,早些时候在App Store上线。

LipDub的核心技能是AI,它能够准确识别***中的语音,利用GPT-4将其翻译成其他措辞,并利用“ zero-shot model(零样本模型)”算法,将翻译后的语音与***人物的口型进行匹配。

利用过程大略粗暴:上传一段***、选择目标措辞、得到带有新语音和口型同步的翻译***。
全体过程仅须要几分钟的韶光。

LipDub目前支持28种措辞,包括韩语、西班牙语、捷克语、泰米尔语和乌克兰语。

LipDub由初创公司Captions出品。
该公司成立于2021年,由Snap前设计工程主管Gaurav Misra和Dwight Churchill联合创立,目标是天生式AI翻译工具市场。

Captions早期得到了红杉成本、Andreessen Horowitz等有名风投的投资,并得到了Instagram联合创始人Kevin Systrom和Mike Krieger以及Facebook前产品设计副总裁Julie Zhuo的支持。

截至目前,Captions拥有10万日活用户,Misra估量LipDub也能吸引同样多的用户。

据悉,LipDub下一阶段的目标是更流畅的翻译和逼真自然的口型同步。

Misra说:

下一步是让***看起来更加自然——真正做出一段***,你根本觉得不到里面有配音或处理,非常自然和易懂。

这种技能过去我们只在《星际迷航》这类作品里看到,对吧?切实其实是硬核科幻啊。

这样的前景使Captions在今年6月份得到了2500万美元的B轮融资,由硅谷传奇投资公司凯鹏华盈(Kleiner Perkins)领投。

值得把稳的是,LipDub所代表的***AI翻译技能,也引发了业界对“深度造假”的担忧,存在被滥用于虚假***及其他不正当用场的风险。

当前,LipDub作为***AI翻译的头部玩家,处于快速迭代阶段,其核心技能还有很大改进空间。
同类竞品也在蜂拥而至,竞争激烈。

HeyGen:致力于肃清措辞障碍

HeyGen,AI口型同步和短***内容翻译领域的另一个大玩家,该公司在9月7日推出***翻译功能后在X上迅速走红,目前拥有数百万用户。

有用户曾利用HeyGen制作了马斯克、梅西和扎克伯格用多种外语讲话的片段。

HeyGen联合创始人兼首席实行官Joshua Xu表示,其目标是“肃清措辞障碍”。

我们设想未来用不同措辞制作***内容和传播信息将变得像打字一样大略。

HeyGen看中了环球***翻译的巨大市场。
Xu曾在X上揭橥一个AI天生***中说:

想想看,肃清措辞障碍使内容对环球用户可用,而不仅仅10%的英语利用者。

他还表示,像Coursera、Khan Academy 和MasterClass等教诲平台可以通过“多措辞化”来扩大其影响力。

HeyGen目前支持10种输入措辞和8种输出措辞,包括英语、西班牙语、中文、意大利语、印地语和日语等。

HeyGen前身是一个名叫Movio的AI***翻译平台。
该平台基于内容天生引擎Surreal Engine,于2022年7月推出,仅7个月内就得到了100万美元的年常常性收入。

Xu与前字节跳动和美国社交媒体音乐公司Smule工程师 Wayne Liang于2020年创立了Surreal。

Surreal专注制作逼真的“深度造假“***,紧张面向电商广告客户。
Surreal在深圳启动运营4个月后,便完成了100万美元天使融资。

去年4月,Xu将Movio更名为HeyGen。
自 2020 年以来,HeyGen和Surreal已从红杉成本、IDG 成本、真格基金和百度风投得到至少900万美元的资金。

时至今日,Surreal在中国仍旧生动,但HeyGen紧张在美国洛杉矶运营。

Verbalate:支持30分钟***处理

视线转向澳洲,还有一个不可忽略的AI***翻译平台——Verbalate。

它和LipDub 和HeyGen一样,将用户的***配音成目标措辞,不同之处在于,Verbalate可处理长达30分钟的***。

Verbalate创始人Grant Davies,成立该平台最初的想法是出于疫情期间澳大利亚封锁期间的无聊。

2022年,Davies在骑车时听Joe Rogan的播客,知道YouTuber用户MrBeast利用配音演员翻译***。
当时Davies正在研究AI,以为可以用AI做自动翻译。

据悉,Verbalate的根本订阅月费为9美元,可以制作一个10分钟***,比较之下,竞争对手HeyGen的月费为29美元,可制作多个5分钟***。

LipDub AI:瞄准影视配音

有些平台则瞄准了于更大的市场和更长的***运行韶光。

加拿大公司MARZ的LipDub AI平台(不要与Captions 的LipDub稠浊)面向电影电视行业,供应高质量的配音翻译***。

目前LipDub AI处理一分钟包含多个镜头的***片段所需的运行韶光不到20分钟。

该公司目前依赖演习素材(例如***片段)来制作这些配音,但它估量将在一年内加快这一过程,仅依赖音频和原始片段制作配音。

LipDub AI平台的***处理速率正在提升,估量可以仅依赖音频就天生配音***。

与其他口型配音平台不同,LipDub AI没有采取外部大型措辞模型,而是利用自己的天生模型,该模型通过录音进行演习。

MARZ市场总监Tim Reyes认为,口型匹配技能将帮助制片人扩大电影或电视节目的影响力,同时又不会危及演员的事情保障。

Reyes表示: LipDub AI 实际上为新市场开辟了一大堆机会,这不像其他一些人工智能技能,他们毁坏了电影业目前的事情流程。

本文来自华尔街见闻,欢迎***APP查看更多