作者 | 月山橘

最新AI配音技能刷屏!声音克隆+口型同步 | 新榜出品_配音演员_措辞 计算机

编辑 | 张洁

没开玩笑,现在的AI技能,能让全天下都说中国话。

继“AI孙燕姿”后,最近,有一条***再次刷新了大众对付AI配音技能的认知。

10月19日,B站UP主“johnhuu”发布了一条题为“这才是没有译制片腔调的翻译”的***。

***一开头,霉霉正在用隧道的普通话侃侃而谈。
正当我惊异于“霉霉什么时候中文这么标准了”的时候,才创造这是AI配音的效果。

比拟英文原版***,AI不仅准确翻译了她的话,而且还原了她的声音、语气和腔调,乃至连嘴型都换了……

除了霉霉之外,***还展示了特朗普、憨豆师长西席、斯佳丽、艾玛等人“说中文”,蔡明用英文说小品的效果,弹幕直呼“有内味了”。

比较于“噢!
我的老伙计,你最近过得还好吗?”这样的传统译制片腔,这些AI配音可以说是自然得毫无违和感。

于是有网友当即表示:“配音演员岂不是又要失落业一大片?”

也有网友表达了对付虚假信息和AI诱骗更加泛滥和难以辨别的担忧:

不过,仔细想想,这种技能的运用前景还是挺令人愉快的。

如果能利用AI轻松实现音***内容确当地化,对付内容创作者来说,无疑是拓宽了受众范围,受众自身也能得到更原汁原味、更具沉浸感和情绪共鸣的视听体验。
对付出海创业者来说,则是妥妥的出海好帮手。

那么,AI本地化配音背后的技能事理是什么?目前有哪些工具可以实现上述***的效果?这项技能的运用前景如何?配音演员会因此面临失落业危急吗?

AI+配音现在盛行这么玩?

正如UP主“johnhuu”所说,要达到***中的效果,常日须要同时知足3个条件:隧道的口语翻译、克隆说话者的声音、把嘴型换了。

随着语音识别技能(ASR)的进步,以及ChatGPT等AI工具越来越多地运用于措辞翻译,AI每每可以天生比机翻更准确、隧道的翻译文本。

而声音克隆技能是AI歌手所依赖的核心。
当下较为出名的声音克隆工具如Eleven Labs、微软的VALL-E等,均可以通过上传少量音频样本,天生与原音色极为靠近的声音。

再通过TTS(Text To Speech)和口型同步技能,即可天生险些完备覆盖原片、让人难辨真假的AI配音。

而且,目前的TTS技能已从通用TTS、个性化TTS向情绪TTS发展。

相较前两者,后者依赖“情绪意图识别”“情绪特色挖掘”“自然措辞处理”等AI技能,可以使AI配音更生动、富于感情变革,以肃清冰冷、不自然的机器感。

话不多说,接下来“头号AI玩家”就给大家盘点几个AI***翻译+配音的工具。

1. AI Dubbing

https://elevenlabs.io/dubbing

这是ElevenLabs近期发布的一款产品,结合了ElevenLabs的多措辞语音合成、声音克隆、文本和音频处理技能,可以把任意一段音频或者***,快速翻译为包括中文、葡萄牙语、日语等在内的29种措辞,同时保留原语音者的音色特色和情绪。

访问AI Dubbing官网,选择Create a New Dub创建一个新项目,为项目添加一个名称,Source Language可以手动选择或者让系统自行检测,Target Language选择想要输出的目标措辞即可。

除了上传***外,还可以粘贴Youtube、TikTok、X(Twitter)、Vimeo,以及任意***的链接。
设置完成后,点击最下方的Create按钮,开始音频克隆,完成后可以预览看看效果,然后再***。

此外,在高等选项中还可以选择原***中的人物数量、***的质量,以及其他设置。

须要把稳的是,在未登录和注册的情形下,AI Dubbing仅支持翻译一个最长为1分钟的***,免费体验额度用完即须要付费利用。

在AI Dubbing的发布会上,ElevenLabs首席实行官兼联合创始人Mati Staniszewski分享了他在童年期间经历的后期配音内容的负面体验:“我在波兰终年夜,我们看的英语电影都是由一个旁白配音的。
这意味着每个演员都有同样的声音,这让不雅观影体验大打折扣。
人工智能配音的发布是我们在肃清这些内容措辞障碍方面迈出的最大一步,将帮助不雅观众享受他们想要的任何内容,无论他们说什么措辞。

2. HeyGen

https://labs.heygen.com/guest/video-translate

HeyGen是一个AI***和数字人天生网站,9月7日上线了Video Translate(***翻译)功能后,在X上迅速走红。

有国外网友利用HeyGen的即时配音+口型同步功能,天生了Elon Mask用日语、西班牙语、德语等8种措辞的讲话片段。

此外,还有梅西和扎克伯格等人用多种外语讲话的逼真片段在社交媒体疯传。

目前,HeyGen的***翻译功能支持14种措辞,依托的是ElevenLabs的声音处理技能。
不过,用户必须上传时长居于30秒至5分钟之间的***,否则无法翻译和天生。

HeyGen的创作者包月套餐最低为每月29美元,可以制作多个***,每个***最长5分钟。

3. LipDub

https://www.lipdub.app/

LipDub由初创公司Captions开拓,这家公司成立于2021年,已得到红杉成本、Instagram联合创始人Kevin Systrom和Mike Krieger,以及Facebook前产品设计副总裁Julie Zhuo的投资。

目前LipDub支持28种措辞,在措辞翻译方面利用了OpenAI的GPT-4模型,并且可以识别讲话人的唇部动作。

LipDub的创始人Misra和Churchill表示,他们早就想在配音翻译中加入口型匹配功能,但没想到会这么快实现。

Misra说:“我们最初认为这项技能须要10年韶光才能够实现,但现在的技能发展实在太快了,险些每个月乃至每周都有新东西涌现。

4. Verbalate

https://verbalate.ai/

Verbalate也能将***同步配音成目标措辞,不同的是,Verbalate可以为长达30分钟的***配音。

目前Verbalate最根本的订阅操持为每月9美元,该套餐许可用户翻译一个10分钟的***,每分钟的额外用度为1美元。

除了上述专门的AI***翻译+配音工具外,上个月,外洋流媒体音乐做事平台Spotify也开始涉足这一领域,推出Voice Translation(语音翻译)功能。

该功能由OpenAI的语音识别模型Whisper供应技能支持,能够在翻译音频时模拟原播客主播的声音,并利用相同的语气和节奏,供应西班牙语、法语和德语的无缝听力体验。

目前,演员Dax Shepard和Kristen Bell、麻省理工学院研究员Lex Fridman和Steven Bartlett等人均有了西班牙语播客,法语和德语翻译也将很快推出。

AI配音会让配音演员失落业吗?

先说结论:不会。

就现阶段AI音***翻译和配音技能的发展程度而言,基本可以搪塞大部分对艺术性和表现性哀求较低的内容,如宣扬***、讲解培训***、在线学习***、播客、部分社交媒体内容等。

但如果从商业化能力出发,游戏和影视常日被视为AI配音技能的最佳落地场景。

游戏中的角色语音常日须要聘请不同国家的声优,用不同的措辞表达同样的内容,而AI可以将原配快捷地转换为其他语种,并且保留原配的音色和情绪。

以米哈游旗下的游戏《原神》为例,目前,全配音基本已经成为游戏主线剧情和部分主要支线剧情的标配。

“剧情怎么没语音”“静音过剧情实在很难代入”等已成为玩家社区中常见的不满声音,豪华的声优阵容也是玩家们津津乐道的话题。

但同时,聘请声优的价格也相称昂贵,在涌现台词微调、内容编削的情形下,还须要重新调集配音演员反复进棚重录。

因此,在游戏配音领域,AI有着极高的降本潜力,并且可以大大提高事情流的可控性。

有名游戏引擎厂商Unity和Epic都许可将AI配音插件嵌入到引擎程序中,以便于游戏开拓者调用。
国内外的许多游戏、影视公司也在积极加码AI配音技能。

去年9月,因配音演员无法连续参与语音收录事情,为了避免较永劫光静音实装,影响玩家游戏体验,米哈游旗下《未定事宜簿》和网易旗下《时空中的绘旅人》都宣告采取AI配音暂时替代真人配音。

《未定事宜簿》称,将基于自研的“逆熵AI”天生角色语音。
《时空中的绘旅人》则与网易互娱AI Lab互助,通过提取角色原有配音声纹特色,录制新语音。

一出,众说纷纭,很多玩家认为这比换新CV更随意马虎让人接管,但质疑者担心,AI配音没有情绪和灵魂。

然而,当角色的AI语音实装后,玩家们无不惊艳了一把!
AI险些完美复刻了原配音演员的音色,就连气音、颤音、停顿、轻重等细节也有所呈现。

后期换了新CV后,由于业务能力受到质疑,乃至有玩家呼吁“弗成就换回AI”。

今年9月,日本配音演员梶裕贵在出道20周年之际,宣告操持利用自己的声音开拓AI语音软件,并在Youtube发布了一条与他本人无异的AI语音。

更有甚者直接创办了一家AI配音公司,造福大众。
今年10月,配音演员Ciccy Jones创办了一家AI初创公司Morpheme,据她先容,未来繁芜的配音事情只须要外包给自己的“数字孪生”。

前不久,开放天下3A大作《赛博朋克2077》的资料片《昔日之影》发布,CDPR用AI在片中重现了已故配音演员雷泽克的声音。

雷泽克是游戏中人气角色维克多的配音演员,但已因病去世。
为了保持资料片与游戏本体的声音同等,防止游戏玩家产生割裂感,CDPR决定采取AI技能来呈现雷泽克的声音。

在征得雷泽克家属的容许后,CDPR请来一位配音演员重新录制了维克多的全部台词,并通过语音合成软件Respeecher对配音进行微调。

不过,虽然AI配音运用本钱较低,市场也颇为看好AI配音技能在游戏、影视,以及个性化人机交互等领域的运用前景,但高质量确当地化配音高度依赖语境、情绪和口语化措辞,须要处理细微的情境和文化差异。

总的来说,AI配音目前还无法非常准确地处理这些繁芜成分。
如果要担保配音质量,人工参与不可或缺。

而且,由于游戏、影视领域的配音演员生态已经非常成熟,短期来看,AI配音技能依然只是对配音演员生态的补充。

此外,环绕AI配音还有诸多版权和伦理道德争议有待厘清,比如:谁拥有AI配音的所有权?如果AI配音与声优的声音极为相仿,却说了声优本人从未说过的,且有损其荣誉的话,该当如何进行侵权剖断?纵然声优授权AI利用自己的声音,谁持有他们之前配音作品的版权?

这些都是值得被进一步谈论的问题。