微软新一代文本转语音模型——笑声情绪心情打造真实AI语音_语音_文本

2024-12-25 00:02:26 AI快讯

而OpenAI发布的GPT-4o（“o”代表“omni”）它接管文本、音频和图像的任意组互助为输入，并天生文本、音频和图像的任意组合输出。
模型更加智能，且输入输出办法更加自然，符合人类的交互需求。
它可以在短短 232 毫秒内相应音频输入，均匀为 320 毫秒，这与人类在对话中的相应韶光相似，且模型输出的音频对话富有人类的感情。
无奈OpenAI发布的模型一样平常不对普通用户开放，想体验一下GPT-4o的功能还须要升级plus会员，就算是这样，一样平常也不能利用。

微软新一代文本转语音模型——笑声情绪心情打造真实AI语音_语音_文本 AI快讯

前期我们也先容过微软的tts（文本转语音做事）做事，当然微软也开放了其tts的个别做事，我们完备可以利用python代码实行文本转语音做事。
而利用python代码实行文本转语音做事也很大略。
只须要如下几行代码就可以实行文本转语音。

import edge_ttsimport asyncioTEXT = ""with open ('1.***','rb') as f: data = f.read() TEXT = data.decode('utf-8')print(TEXT)voice = 'zh-CN-YunxiNeural'output = '4.mp3'rate = '-4%'volume = '+0%'async def my_function(): tts = edge_tts.Communicate(text = TEXT,voice = voice,rate = rate,volume=volume) await tts.save(output)if __name__ == '__main__': asyncio.run(my_function())

但是天生的音频文件，缺少了人类的各种感情，语音语调险些没有，更别说是笑声，叹气声等语气词了。
而微软最新发布了自己的文本转语音做事，包含笑声，语气词，让文本转的音频更加靠近人类谈天的语气。

试听一下此音频，完备添加了人类谈天的语气词，更添加了停顿，笑声等。
切实其实跟真人谈天一样。

文本转音频

借助 Azure OpenAI GPT 等大型措辞模型 (LLM) 的强大功能，AI 可以产生比以往更自然、流畅和高质量的相应。
因此，在进行口头对话时，对文本转语音 (TTS) 声音的自然性和表现力的哀求比以往任何时候都更高。
微软发布的新一代文本转音频模型，其新的逼真声音非常适宜任何必要逼真语音交互的运用程序，包括谈天机器人、语音助手、游戏、电子学习、娱乐等。

无论是创建基于语音的谈天机器人、语音助手还是对话代理，这些新声音都将确保交互更加真实、逼真和引人入胜。
与为通用目的设计的语音比较，在阅读会话和休闲文本时，针对会话优化的语音听起来更自然、更有吸引力。
此外，它们乃至还包括笑声和充满停顿等感叹词，为您的虚拟对话增长人情味。

各种场景的音频天生

微软新一代的文本转音频做事，不仅更加逼人，更是供应了不同场景的做事，包含：对话，感叹词对话，冥想，***，诗歌，故事，电子学习，广告，定制服务，广播等，覆盖了生活中很多的场景。

当然除了中文，英文外，其模型还支持其他措辞的措辞，切实其实是配音的好帮手。

支持的其他措辞措辞

新 GA 语音：en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、De-DE-FlorianMultilingualNeural、De-DE-SeraphinaMultilingualNeural、Fr-FR-RemyMultilingualNeural、Fr -FR-VivienneMultilingualNeural zh-CN-XiaoxiaoMultilingualNeural