【AIGC-图片生成视频系列-7】MoonShot：实现多模态条件下的可控视频生成和编辑

一. 贡献概述

二. 方法详解编辑

三. Zero-Shot主题定制视频生成

四. 文本到视频生成

五. 直接使用图像ControlNet

六. 图像动画比较

七. 视频编辑

八. 针对视频生成中多模态 Cross-Attn的消融实验

九. 对视频生成中多模态 Cross-Attn的消融实验

十. 论文

十一. 个人思考

现有的视频扩散模型（VDM）大多仅限于纯文本条件。因此，它们通常缺乏对生成的视频的视觉外观和几何结构的控制。

今天介绍一种名为 MoonShot 的新视频生成模型，它同时基于图像和文本的多模态输入进行条件控制，在视觉质量和时间一致性方面相对于现有模型有了显著的提高。

一. 贡献概述

已有问题及解决方法：

在视觉外观方面，文字提示词无法精确描述生成的外观。现有解决方法是在一些图片上对模型做微调，从而实现个性化的生成。同样地，对于视频生成，AnimateDiff 依赖于定制的模型权重来注入条件视觉内容，无论是通过 LoRA 还是 DreamBooth。

在几何结构生成方面，尽管已有的方法，如 ControlNet 和 T2I-Adapter，利用深度、边缘图作为图像生成的视觉条件，但类似的策略对于视频合成仍然是不确定的。在视频生成中，一些工作重用了预训练的 ControlNet 模块来生成图像。然而，它们需要通过帧传播或跨帧注意力机制来适配文本到图像的模型用于视频生成，导致与基于 VDM 的方法相比，时间一致性较差。

MoonShot是一个视频生成模型，它使用图像和文本输入来生成视频。该模型基于一个名为多模态视频块（MVB）的视频生成模块。

每个MVB都有三个主要的设计考虑因素：

传统的时空模块用于视频生成，其中包括一个空间卷积层、一个自注意层和一个聚合空间特征的时间注意层。这种设计允许重复使用文本到图像生成模型的预训练权重，而不改变其空间特征分布，从而包证其生成质量。

解耦的多模态交叉注意层，它在文本和图像输入上调节生成。这两个条件相互补充，以指导生成。此外，图像输入提供参考视觉线索，允许时间模块专注于视频的一致性。这提高了整体的生成质量和帧的连贯性，如实验证明的那样。

自由选择模块，由于空间特征分布被保留，预训练的图像ControlNet模块可以立即集成，以控制生成的几何结构，而不需要额外的训练开销。

有一点值得强调，MoonShot的设计允许它通过使用图像和文本输入生成高质量的视频。该模型的多模态交叉注意层通过使用文本和图像输入来指导生成过程，进而提高整体生成质量和帧的连贯性。

二. 方法详解

解耦的多模态交叉注意层的总体工作流程和结构。

在训练阶段，使用视频的初始帧作为图像条件。对于推理，模型接受任何图像以及相应的文本。

值得关注的是，在Unet结构中，有一个新颖的操作，解耦Image Feature 和Text Feature 对结果的影响。

具体的:

Latent Feature 经过转换得到Query。

Image Feature 和Text Feature 经过各自相应的Cross-Attn操作，再和Latent Feature 对应的Query做交叉注意操作。

最将结果cat在一起，继续进入Unet 其余结构中。此举充分结合图片和文字提示的信息。

三. Zero-Shot主题定制视频生成

四. 文本到视频生成

五. 直接使用图像ControlNet

六. 图像动画比较

七. 视频编辑

八. 针对视频生成中多模态 Cross-Attn的消融实验

九. 对视频生成中多模态 Cross-Attn的消融实验

十. 论文

https://arxiv.org/pdf/2401.01827.pdf

十一. 个人思考

这篇文章的提出的多模态Cross-Attn对我启发性很大，但也看到了一些熟悉的影子，比如IP-Adapter, 以及DreaMoving中的content guider，看来结合多种模态组合来引导生成的方法还是挺有潜力的，大家也可以关注一下。

关注公众号【AI杰克王】

1. 回复“资源”，获取AIGC 博客教程，顶级大学PPT知识干货；

2. 回复“星球”，获取AIGC 免费知识星球入口，有前沿资深算法工程师分享讨论。

欢迎加入AI杰克王的免费知识星球，海量干货等着你，一起探讨学习AIGC!

总结

**MoonShot视频生成模型概述**
本文介绍了一种创新的视频生成模型MoonShot，它打破了传统视频扩散模型（VDM）仅限于纯文本条件的局限，引入了图像和文本的多模态输入进行条件控制。MoonShot在视觉质量和时间一致性方面相较于现有模型取得了显著提升，展现了多模态融合在视频生成领域的巨大潜力。
**主要贡献与特点**
1. **多模态控制**：MoonShot允许用户通过图像和文本共同控制视频生成，实现个性化生成效果，这远远超过了传统的纯文本驱动方式。
2. **创新的设计因素**：MoonShot采用了几个精心设计的主要因素，包括传统的时空模块、解耦的多模态交叉注意层和自由选择模块，这些设计确保了视频生成的高质量和时间一致性。
3. **解耦的多模态交叉注意层**：这一层在文本和图像输入上调节生成，通过结合两者的信息，使生成的视频更符合用户预期。
4. **丰富的应用场景**：MoonShot不仅支持文本和视频输入来直接生成视频，还可以处理图像的动态生成以及视频编辑等任务，展现了其广泛的适用性。
5. **良好的性能**：MoonShot通过与其他类似方法进行对比和实验验证，证明了其优秀的性能和视频生成质量。
**研究方向与建议**
该研究成果提供了一种结合了文本和图像条件的强大视频生成模型，为解决传统方法面临的外观描述精确性、几何结构生成不确定性等问题提供了新的思路。作者的个人思考也指出，结合多种模态来引导生成的方法仍然是一个极具潜力的发展方向。因此，对视频生成技术感兴趣的研究人员和工程师们，可进一步关注和研究MoonShot模型以及其他相关技术，以推动视频生成领域的持续发展。
**附加资源**
同时，通过回复特定指令至公众号“AI杰克王”，还可以获取丰富的AIGC博客教程、顶级大学PPT知识干货以及加入免费的AIGC知识星球，与前沿资深算法工程师共同分享讨论。欢迎各位爱好者加入，共同探讨和学习AIGC领域的新知识和技术。

视频生成多模态 aigc 生成模型一致性 controlnet 生成质量图像输入视频编辑工程师预训练 ppt 视觉质量公众号视频扩散文本输入学习ai dream 个性化文字提示