咳咳,在开始讲之前,先跟差友们宣告个事儿:

试了爆火全网的语音AI我快分不清谁是真人了_的是_音频 AI快讯

是日然的语气,隐约还能听到些换气声,是不是已经有差友快中计了。

但大伙可别真以为世超要暴露真声,实在这段音频,是我用 AI 做出来的,从打开网址到做好整段音频,统共用了都没两分钟。

可能已经有朋友猜到世超用的是啥 AI 工具,便是最近刚火出圈的那位,ChatTTS 。

刚开源没几天,它的 GitHub 就有一万多颗标星,而且还在连续噌噌猛涨,就在世超在写稿的时候,亲眼看到它打破 2 万大关。


网上的热度也贼高,光是 b 站,随便一搜 ChatTTS ,就能弹出一大堆***来,不是在教大伙怎么安装,便是在夸它有多逼真。

乃至连热度都传到国外了。

实在像 ChatTTS 这类文本转语音( Text to Speech )的工具,市情上一抓一大把,各家做 AI 运用的企业,基本上都有文本转语音的功能。

但和它们不一样的是, ChatTTS 主打的是,最自然地还原人声。

它网页版上的参数调节按钮,有一大半都是为了让天生的音频,更像咱们真人说话。

就比如,精调文本按钮打开之后,末了天生的音频里,会自动加一些口语化的连词,或者换气、笑声啥的,还有信噪比,便是为了还原说话时的背景音。

世超随便输了段话给 ChatTTS ,没动它的默认设置,天生的效果的是下面这个样子。

乍一听,还以为是办公室哪位同事遛火锅回来的吐槽。
看下输出的文本,它是在末了一句的中间和结尾,自动加了两个气口。

不过要多听几遍,还是能在里面找到些 AI 味儿。

如果嫌天生的效果一样平常,我们也可以自个儿去手动设置,在输入文本里加 [ uv _ break ] 或者 [ laugh ] ,就能直接掌握气口和笑声。

还是上面那句话,世超直接在结尾加上个 [ laugh ] ,整句话都会更自然一点,结尾那个笑声,还能咂摸出一点无奈的味儿。

光靠这一句话,咱还看不太出 ChatTTS 的实力,接下来上点难度,扔两段绕口令给它。

假如给咱们没练过的人来,指不定得口胡几次,没想到 ChatTTS ,模拟这个挺有一手。

讲到后面,它是直接一口气说完的,跟咱快忘词儿的语调比较,不能说十分像吧,最少也有个七八分了。

乃至为了让末了那句 “ 你看我说的还行吧 ” 更自然点,它还自己手动加了个词儿( 那个 )。

除了会说中文外, ChatTTS 也能整上两句英文。

世超输句肖申克的经典台词 “ Hope is a good thing and maybe the best of things.And no good thing ever dies.” 进去,它能顺溜天生语音。

至于效果嘛,世超以为,没说中文自然。


当然,作为在咱们这儿土生土长的 AI ,说中文比说英文自然也情有可原。

不过让世超意外的是,虽然英语一样平常,但在学 ABC 中英夹杂, ChatTTS 是真有点天赋。

世超随便在台词里加了一些网上很火的英文梗,它直接把里面的精髓给模拟出来了。

不仅能准确切换中英文,口气啥的也都像模像样,而且该补充的连词也都补充了。
硬要挑刺的话,便是末了那句有点卡壳,但平时咱说话,谁没有秃噜嘴的时候。

试到这儿,世超已经稍稍被 ChatTTS 给折服了。


然鹅,就在咱准备再深度探索探索时,它持续给咱来了好几次大翻车。

就比如我想试试不精调文本,看看 ChatTTS 会天生若何的音频,结果倒好,它直接罢工,输入的一大段话,它只读第一个字。

试了好几次都是这效果。


( 由于输出的问题,iOS系统可能会打不开这段音频。

而且如果整段笔墨里有阿拉伯数字, ChatTTS 也识别不了,得我们手动切换成中文数字。

更离谱的是,只要字数一多起来,它就开始混水摸鱼,支支吾吾只从大段笔墨里挑着念,乃至有时候都能把它们的 GPU 给干宕机了。

像是世超想让 ChatTTS 帮差友们读下这篇文章的开头,它就已经撑不住了。


这都还不算啥, ChatTTS 有个最大的缺陷,便是咱们不能事先知道选择了啥音色,只能在 “ 音频种子 ” 里输入数字盲选,或者掷骰子抽卡。

合着便是尝尝看呗。


不过关于这些 “ BUG ” ,研究团队也有它们的说辞。
一句话概括便是,为了防止 ChatTTS 被有心之人利用,他们没放出最好的模型。

据他们的说法,目前开源的和网站上用的,都是用4 万个小时数据演习出来的模型,还没经由监督微调( SFT )。

并且为了防止 AI 诱骗,他们还在这些演习数据里,加了少量的高频噪声,数据用的也都是音频质量不太高的 MP3 格式。

团队手里呢,实在还有个更大杯、性能更好的模型,用10 万小时数据。

ChatTTS 真实的实力,该当是官方***里展示的那样。
像咱们上面展示的那几个例子,它都能做得更好,比如中英文夹杂的句子,***的示例比咱试的要丝滑得多,而且全体人声的清晰度,也比世超在线天生的强。

按照设想,它之后还能接入措辞大模型,能直接和 AI 来个面对面交谈。

乃至光是凭几分钟的音频,它能直接把乔布斯、泰勒 · 斯威夫特的声音给克隆出来。

之后再进化进化,结合 ChatGPT 和对口型的 AI ,让它帮忙直播带货估计都没人能看得出来了。

当然有好处是一方面,但世超想说的是,说到底这 AI 还是模拟人说话的,假如被有心之人给利用了,带来的后果可不是一点好处就能抵消的。

像去年,就发生了好几起关于 AI 诱骗的案例,被骗好几百万的都有。
而现在 AI 音频越来越逼真,即是说诱骗的门槛是越来越低了。

还有版权风险,也算是这类音频 AI 的一堵墙。
前段韶光,寡姐还由于声音版权的问题,公开撕了 OpenAI ,以 OpenAI 下架干系音色告终。

乃至在今年早些时候,美国田纳西州还立了个法,不让用 AI 模拟人声。

总之,在音频 AI 这块儿,还有很多窟窿要被补上。


但说句心里话,世超还真挺希望这模拟人说话的 AI 能尽快落地的,要能接到公众年夜众号上就更好了。

毕竟这 “ 听一听 ” 功能里的机器音,听着是真叫人难熬痛苦。