Diffusion Models专栏文章汇总:入门与实战
SpeechAlign: Aligning Speech Generation to Human Preferences
本文介绍了一种名为SpeechAlign的方法,旨在通过人类反馈来优化语音生成模型,使其更符合人类偏好。作者首先分析了当前语音语言模型中存在的分布差距问题,指出这导致了训练和推理阶段之间的不一致性,进而影响了模型性能。为了解决这一问题,作者提出了一种迭代自我改进策略,通过构建对比真实和合成编码令牌的偏好数据集,并进行偏好优化,从而将弱模型转变为强模型。
SpeechAlign方法通过构建一个偏好编解码器数据集来开始,该数据集将高质量的真实编码令牌与合成令牌进行对比。然后,利用这个数据集进行偏好优化,以改善编解码器语言模型。这一过程包括多种策略,如Chain-of-Hindsight、直接偏好优化(DPO)、基于人类反馈的强化学习&#