而OpenAI发布的GPT-4o(“o”代表“omni”)它接管文本、音频和图像的任意组互助为输入,并天生文本、音频和图像的任意组合输出。
模型更加智能,且输入输出办法更加自然,符合人类的交互需求。
它可以在短短 232 毫秒内相应音频输入,均匀为 320 毫秒,这与人类在对话中的相应韶光相似,且模型输出的音频对话富有人类的感情。
无奈OpenAI发布的模型一样平常不对普通用户开放,想体验一下GPT-4o的功能还须要升级plus会员,就算是这样,一样平常也不能利用。

微软新一代文本转语音模型——笑声情绪心情打造真实AI语音_语音_文本 AI快讯

前期我们也先容过微软的tts(文本转语音做事)做事,当然微软也开放了其tts的个别做事,我们完备可以利用python代码实行文本转语音做事。
而利用python代码实行文本转语音做事也很大略。
只须要如下几行代码就可以实行文本转语音。

import edge_ttsimport asyncioTEXT = ""with open ('1.***','rb') as f: data = f.read() TEXT = data.decode('utf-8')print(TEXT)voice = 'zh-CN-YunxiNeural'output = '4.mp3'rate = '-4%'volume = '+0%'async def my_function(): tts = edge_tts.Communicate(text = TEXT,voice = voice,rate = rate,volume=volume) await tts.save(output)if __name__ == '__main__': asyncio.run(my_function())

但是天生的音频文件,缺少了人类的各种感情,语音语调险些没有,更别说是笑声,叹气声等语气词了。
而微软最新发布了自己的文本转语音做事,包含笑声,语气词,让文本转的音频更加靠近人类谈天的语气。

试听一下此音频,完备添加了人类谈天的语气词,更添加了停顿,笑声等。
切实其实跟真人谈天一样。

文本转音频

借助 Azure OpenAI GPT 等大型措辞模型 (LLM) 的强大功能,AI 可以产生比以往更自然、流畅和高质量的相应。
因此,在进行口头对话时,对文本转语音 (TTS) 声音的自然性和表现力的哀求比以往任何时候都更高。
微软发布的新一代文本转音频模型,其新的逼真声音非常适宜任何必要逼真语音交互的运用程序,包括谈天机器人、语音助手、游戏、电子学习、娱乐等。

无论是创建基于语音的谈天机器人、语音助手还是对话代理,这些新声音都将确保交互更加真实、逼真和引人入胜。
与为通用目的设计的语音比较,在阅读会话和休闲文本时,针对会话优化的语音听起来更自然、更有吸引力。
此外,它们乃至还包括笑声和充满停顿等感叹词,为您的虚拟对话增长人情味。

各种场景的音频天生

微软新一代的文本转音频做事,不仅更加逼人,更是供应了不同场景的做事,包含:对话,感叹词对话,冥想,***,诗歌,故事,电子学习,广告,定制服务,广播等,覆盖了生活中很多的场景。

当然除了中文,英文外,其模型还支持其他措辞的措辞,切实其实是配音的好帮手。

支持的其他措辞措辞

新 GA 语音:en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、De-DE-FlorianMultilingualNeural、De-DE-SeraphinaMultilingualNeural、Fr-FR-RemyMultilingualNeural、Fr -FR-VivienneMultilingualNeural zh-CN-XiaoxiaoMultilingualNeural