微软近期对其Azure AI语音服务进行了重大升级,推出了9种新的更真实的AI语音,旨在为用户带来更加自然和沉浸式的对话体验。这次升级的核心是引入了零样本学习(Zero-shot)的文本到语音(TTS)模型,这些模型在提高合成语音自然度的同时,更好地模仿了提示语音中的特征。
Azure AI语音服务的Personal Voice功能通过这些新模型,使得个性化语音的创建变得快速而简单。用户只需提供一小段语音样本,即可在几秒钟内生成能模仿其独特语音特征的AI语音。这种高度自然的语音输出,不仅流畅自然,还能精准捕捉到人类语音的细微差别,如语调、节奏和情感表达,极大地提升了合成语音的生动性和真实感。
更新体验:https://ai.azure.com/explore/speech
微软的这项服务支持超过400种神经语音,覆盖了140多种语言和地区,使得文本到语音的转换不仅快速,而且无障碍。此外,通过自定义神经语音功能,用户可以轻松为其业务创建独特的品牌声音,无论是个人化应用还是跨语种配音,都能满足需求。
Azure AI语音服务的应用场景非常广泛,包括个性化的语音助手、沉浸式游戏体验、多语言配音、媒体和娱乐内容的创作,以及语音翻译等。这些新的Zero-shot TTS模型不仅适用于个人化应用,也能为需要实时互动的场景提供支持。
微软还特别强调了负责任的AI使用,对于Zero-shot TTS模型的使用实施了严格的指导原则和访问控制,以确保技术的负责任部署和使用,保护个人和社会的权利。
此外,微软还发布了9种针对对话优化的AI语音,这些语音覆盖了多种语言,为用户提供了更多的选择和多样性。这些语音在阅读对话和非正式文本时听起来更自然、更引人入胜,甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。
新的通用可用(GA)语音包括多种语言选项,如英语、德语、法语和中文等,这些语音都经过了针对对话风格的优化,扩展了微软在91种语言及其变种中传达内容的能力,体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。
用户可以通过Azure AI语音服务的在线语音库查看详细介绍和演示效果,并通过更新体验链接进一步探索这些新功能。微软的这次升级,无疑将为各种业务场景提供更加丰富和真实的语音交互体验。