当前位置:AIGC资讯 > AIGC > 正文

每日AIGC最新进展(29):复旦大学提出通过人类反馈来优化语音生成模型SpeechAlign、浙江大学提出跟踪3D空间中的任何2D像素SpatialTracker、西安交大提出动态场景的语义流

Diffusion Models专栏文章汇总:入门与实战

SpeechAlign: Aligning Speech Generation to Human Preferences

本文介绍了一种名为SpeechAlign的方法,旨在通过人类反馈来优化语音生成模型,使其更符合人类偏好。作者首先分析了当前语音语言模型中存在的分布差距问题,指出这导致了训练和推理阶段之间的不一致性,进而影响了模型性能。为了解决这一问题,作者提出了一种迭代自我改进策略,通过构建对比真实和合成编码令牌的偏好数据集,并进行偏好优化,从而将弱模型转变为强模型。

SpeechAlign方法通过构建一个偏好编解码器数据集来开始,该数据集将高质量的真实编码令牌与合成令牌进行对比。然后,利用这个数据集进行偏好优化,以改善编解码器语言模型。这一过程包括多种策略,如Chain-of-Hindsight、直接偏好优化(DPO)、基于人类反馈的强化学习&#

更新时间 2024-06-25