Meta AI开源T2V模型AVID 可修复视频改变纹理

Meta AI最近开源了AVID，这是一项具有先进修复和扩展能力的 T2V 模型。AVID 不仅支持通过文本编辑视频，还可以修复视频、更改视频对象、改变纹理和颜色，甚至删除视频内容或更换视频环境。

项目地址:https://zhang-zx.github.io/AVID/

这个开源项目是为了解决文本引导的视频修复所面临的三个主要挑战:时间一致性、不同保真度级别的支持以及处理可变的视频长度。

AVID 模型具备有效的运动模块和可调节的结构引导，可以用于固定长度的视频修复。此外，该模型还引入了一种新颖的时间多重扩散采样管道，具有中帧注意力引导机制，有助于生成任何所需持续时间的视频。经过综合实验，AVID 模型在不同的视频持续时间范围内都能稳健地处理各种修复类型，并且质量很高。

在培训阶段，AVID 模型采用了两步方法。首先，在主要文本到图像（T2I）修复模型的每一层后集成了运动模块，并对视频数据进行了优化。

其次，保留了 UNet $\epsilon_\theta$ 中的参数，并利用 UNet 编码器的参数副本专门训练了结构指导模块 $\mathbf{s}_\theta$。在推理过程中，对于长度为 $N^\prime$ 的视频，AVID 模型会构建一系列片段，每个片段包含 $N$ 个连续帧，并在每个去噪步骤中计算并汇总每个分段的结果。

视频修复文本到图像 github 文本编辑开源项目文本引导注意力 git 一致性视频内容编辑视频结构指导 url