【精华】AIGC之文生音乐及实践应用

文章目录

AIGC之文生音乐及实践应用（一）序言（二）常见算法框架（1）Mubert （2）Make-An-Audio （3）bark （三）研究里程碑（四）当前挑战（1）高自由度音频生成需要依靠大量文本 - 音频对数据（2）长时波形建模存在诸多困难（五）最新研究进展

AIGC之文生音乐及实践应用

（一）序言

近期 AIGC 如同上了热搜一般，火热程度居高不下，当然除了名头格外响亮，突破也是绝对斐然：输入自然语言就可自动生成图像、视频甚至是 3D 模型，你说意不意外？

但在音频音效的领域，AIGC 的福利似乎还差了一些。主要由于高自由度音频生成需要依靠大量文本 - 音频对数据，同时长时波形建模还有诸多困难。目前主流解决思路是将自然语言描述作为输入，而且是任意模态（例如文本、音频、图像、视频等）均可，同时输出符合描述的音频音效，广大网友很难不为其可控性以及泛化性点赞。

可以预见的是，音频合成 AIGC 将会在未来电影配音、短视频创作等领域发挥重要作用，而借助 Make-An-Audio 等模型，或许在未来人人都有可能成为专业的音效师，都可以凭借文字、视频、图像在任意时间、任意地点，合成出栩栩如生的音频、音效。但现阶段 Make-An-Audio 也并不是完美无缺的，可能由于丰富的数据来源以及不可避免的样本质量问题，训练过程中难免会产生副作用，例如生成不符合文字内容的音频，Make-An-Audio 在技术上被定位是 “辅助艺术家生成”，可以肯定的一点，AIGC 领域的进展确实令人惊喜。

（二）常见算法框架

（1）Mubert

官网： https://mubert.com/ GitHub：https://github.com/MubertAI/Mubert-Text-to-Music

（2）Make-An-Audio

论文链接： https://arxiv.org/abs/2301.12661 项目链接： https://text-to-audio.github.io

（3）bark

项目链接： https://github.com/suno-ai/bark

（三）研究里程碑

时间所属机构描述 2022年10月 Mubert 推出Mubert-Text-to-Music API 2023年1月浙大+北大+火山语音推出模型 Make-An-Audio，共同提出了Distill-then-Reprogram 文本增强策略，即使用教师模型获得音频的自然语言描述，再通过随机重组获得具有动态性的训练样本。

（四）当前挑战

（1）高自由度音频生成需要依靠大量文本 - 音频对数据

（2）长时波形建模存在诸多困难

（五）最新研究进展

AIGC基于文本生成音乐，现在压力来到配乐行业这边这段音频火爆外网！文字、图片一键生成逼真音效，音频界AIGC来了最新语音合成变声器轻松克隆你的声音，SoVits AI体验语音合成工具_bark