AIGC音乐生成#riff + diffusion 以生成频谱图图像来转换为音乐

小杜

无界日报第2期，本期头条 - stable diffusion 微调模型 riff + diffusion 以生成频谱图图像来转换为音乐。

无界日报

2022.12.16

第02期

- 头条 -

riff + diffusion

#AIGC# #工具#

riff + diffusion 是 stable diffusion 的微调模型，以生成频谱图图像来转换为音乐。开发团队制作了一个交互式网络应用程序来输入提示并实时无限生成音频内容，同时以 3D 方式可视化频谱图时间线。

当用户输入新提示时，音频会平滑地过渡到新提示风格。如果没有新提示，应用程序将在同一提示的不同种子值之间进行音频生成。频谱图被可视化为沿时间线的 3D 波纹图，带有半透明的播放条提示播放进度。

-音频频谱图：如图所示，是一种表示声音片段频率内容的可视化方式。x 轴代表时间，y 轴代表频率。每个像素的颜色给出了音频在其行和列给定的频率和时间的振幅。

除了用文本生成/修改生成音频，riffuion 也支持用图像-图像生成/修改音乐，并且能保留原始频谱图图像的结构，不改变音频走势框架的同时对音频进行定向的微调修改。

1.带有爵士乐萨克斯管独奏的放克低音
- 微调后 -
2.放克钢琴

项目官网给出了详细的提示语建议与微调操作指南，感兴趣的朋友可以前往项目页体验一番～

......

项目官网：
www.riffusion.com/
项目解读：
www.riffusion.com/about

- More -

# 02

#AIGC##工具#

Whisper to Stable Diffusion

用母语说话(或唱歌)来生成图形，任何语言都将自动翻译为英文，由 Sylvain @fffiloni 制作 -Whisper：是一种通用的语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

demo地址：
huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

# 03

#智能产品# #插件#

AIGC音乐生成#riff + diffusion 以生成频谱图图像来转换为音乐 | 无界日报 第2期