微软发布声音克隆技术Personal Voice 提供1分钟样本即可生成AI语音

微软近日发布了一项名为Personal Voice的新技术，该技术可以克隆用户的声音，并且能够复制出与原声音完全一致的人工智能语音。用户只需提供1分钟的语音样本，Personal Voice就能在几秒钟内生成相应的AI语音。

这项技术支持多达100种不同语言的语音输出，包括中文、西班牙语、德语等。Personal Voice利用设备端的机器学习技术，确保用户的个人信息安全，并与LiveSpeech进行无缝集成，让用户在与他人交流时可以使用Personal Voice的AI语音。

除了为语音助手、游戏、语言配音等应用提供个性化声音，Personal Voice还在娱乐、媒体领域有着广泛的应用。通过将用户的本声配音应用于故事、有声书、播客、视频等内容，可以使这些内容更加贴近用户，提升沉浸感。

微软还和海尔合作，将个性化声音引入其智能音箱和更智能的家电产品中，为品牌带来了创新的用户体验。微软的Personal Voice功能为用户提供了在短时间内实时复制自己声音的机会，使智能音箱更具家庭氛围，丰富了用户的生活。

该功能将在西欧、美国东部和东南亚地区率先上线，并于12月1日上线公共预览版。

微软强调了Personal Voice的责任使用。用户必须明确同意并录制声明，以确保对个人和社会权益的保护。微软承诺以有限的注册方式提供Personal Voice，仅限于特定用途。符合资格的客户可以将Personal Voice API集成到支持个性化声音的应用中，包括智能设备的语音助手和游戏中角色声音的定制。

此外，微软还在Personal Voice生成的声音中添加水印，以便用户可以识别是否使用了Azure AI Speech，并确定使用的是哪个声音。这为合规性和透明性提供了一层保障。