每日AIGC最新进展(29)：复旦大学提出通过人类反馈来优化语音生成模型SpeechAlign、浙江大学提出跟踪3D空间中的任何2D像素SpatialTracker、西安交大提出动态场景的语义流

Diffusion Models专栏文章汇总：入门与实战

SpeechAlign: Aligning Speech Generation to Human Preferences

本文介绍了一种名为SpeechAlign的方法，旨在通过人类反馈来优化语音生成模型，使其更符合人类偏好。作者首先分析了当前语音语言模型中存在的分布差距问题，指出这导致了训练和推理阶段之间的不一致性，进而影响了模型性能。为了解决这一问题，作者提出了一种迭代自我改进策略，通过构建对比真实和合成编码令牌的偏好数据集，并进行偏好优化，从而将弱模型转变为强模型。

SpeechAlign方法通过构建一个偏好编解码器数据集来开始，该数据集将高质量的真实编码令牌与合成令牌进行对比。然后，利用这个数据集进行偏好优化，以改善编解码器语言模型。这一过程包括多种策略，如Chain-of-Hindsight、直接偏好优化（DPO）、基于人类反馈的强化学习&#

数据集语言模型解码器高质量生成模型强化学习语音生成 diffusion 一致性模型性能人类偏好