当前位置:AIGC资讯 > AIGC > 正文

文心一言上线新功能,2 秒即可定制你自己的声音!

 
 

点击上方关注 “终端研发部”

设为“星标”,和你一起掌握更多数据库知识

果然,国内的AI大模型,还得是百度AI!

用户在智能体对话中可使用自己的音色进行语音播报,并通过通话按钮与数字分身实时对话,音色和音调与本人一致。

具体步骤如下:

在百度文心一言的 App,点击最下方的“+”号,然后选择创建智能体;

在选项里有声音一项,会发现一个名为“创建我的声音”的功能;

根据系统提示读出一段话,两秒左右的时间,系统便能捕捉到用户的声音特点,为用户生成一个独特的“语音助手”。在确认声音质量后,你的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,你都可以点击播放键,使用自己合成的音色进行语音播报。

其底层原理,我们可想而知,虽然百度文心一言没有公布使用什么声音合成的模型,但是这种技术自己已经屡见不鲜

依托文心大模型和语音合成大模型通过大量的语音训练,让AI真正理解了文本和声音的对应关系,结合大模型Prompt技术,无需微调,能够以zeroshot的方式,快速生成自然、流畅的个性化合成声音。

需要经过以下几个流程:

语音采集

声音分析:系统会捕捉用户的声音,并通过深度学习模型分析声音的特征,包括音调、音色、语速、节奏等

音色建模:基于分析得到的声音特征,系统会构建一个声音模型,这个模型能够模拟用户的声音特点,生成与用户声音相似的合成语音。

声音合成:一旦声音模型构建完成,系统就可以使用这个模型来合成新的语音内容

其中,时长模型的功能是给定语言学特征,获得每一个建模单元(例如:音素)的时长信息;声学模型则基于语言学特征和时长信息预测声学特征;声码器则将声学特征转换为对应的语音波形。

系统结构:

在定制声音的功能中,通过系统提示读出一段文字,RNN模型能够迅速捕捉并记忆用户的声音特点。在短短2秒内,系统便能根据这些声音特点构建出一个独特的“语音库”,进而生成与用户音色相近的声音。

传统的变声原理如下,我们可以大胆猜测一下:

1、变声器会对声音信号进行一系列的分析和处理。它首先会识别声音信号中的不同成分,如音调、音色、音量等。

2、变声器会运用数字信号处理算法,对这些成分进行精确的控制和调整。比如,它可以提高或降低音调,改变声音的音色,甚至调整声音的音量大小

3、采用高级的算法,在不同的空间,不同的场景,模拟出不同的声音

4、最后形成一个新的信号源,通过扬声器释放出来

在与使用该“语音库”的智能体的每一次对话中,用户都可以点击播放键,使用自己合成的音色进行语音播报。

相比于传统学术领域的语音合成技术,百度新技术有较强的抗噪能力,即使原始录制音频背景嘈杂,依然能够获得流畅的、音质干净的合成效果

应用场景

1、语音交互

比如:SSML可自动处理正常的停顿(例如,在句号后面暂停片刻),或者在以问号结尾的句子中使用正确的音调。

2、阅读&教育

3、泛娱乐

比如云游戏、高清视频、VR、AR直播等等,将带来更清晰的交互流程和更优质的交互体验,实现定制化、智能化和场景化的高度渗透与融合

想象一下,在虚拟世界中,我们可以随心所欲地改变自己的声音,与不同的角色进行互动和交流,这将是一种多么令人兴奋的体验啊!

回复 【idea激活】即可获得idea的激活方式

回复 【Java】获取java相关的视频教程和资料

回复 【SpringCloud】获取SpringCloud相关多的学习资料

回复 【python】获取全套0基础Python知识手册

回复 【2020】获取2020java相关面试题教程

回复 【加群】即可加入终端研发部相关的技术交流群

阅读更多

用 Spring 的 BeanUtils 前,建议你先了解这几个坑!

lazy-mock ,一个生成后端模拟数据的懒人工具

在华为鸿蒙 OS 上尝鲜,我的第一个“hello world”,起飞!

字节跳动一面:i++ 是线程安全的吗?

一条 SQL 引发的事故,同事直接被开除!!

太扎心!排查阿里云 ECS 的 CPU 居然达100%

一款vue编写的功能强大的swagger-ui,有点秀(附开源地址)

相信自己,没有做不到的,只有想不到的

在这里获得的不仅仅是技术!


喜欢就给个“在看” 

更新时间 2024-06-22