每日AIGC最新进展(30)：阿卜杜拉国王大学提出旋转视角视频生成Vivid-ZOO、浙江大学提出4D场景编辑Instruct 4D-to-4D、西安交大提出3D重建大规模数据集OpenMateria

Diffusion Models专栏文章汇总：入门与实战

Vivid-ZOO: Multi-View Video Generation with Diffusion Model

本文提出了一种名为Vivid-ZOO的新型扩散模型，用于从文本生成高质量的多视角视频。Vivid-ZOO通过分解视角空间和时间因素来解决多视角视频生成的复杂性，同时解决了大规模标注多视角视频数据集的缺乏问题。该模型结合了先进的预训练多视角图像和2D视频扩散模型的层，以确保生成视频的多视角一致性和时间连贯性，显著降低了训练成本。

Vivid-ZOO创新性地引入了3D-2D对齐层和2D-3D对齐层，以解决预训练模型间由于领域差异导致的不兼容性问题。这些对齐层分别用于将特征对齐到预训练2D时间层的潜在空间，并将其映射回多视角空间。此外，研究者还构建了包含14,271个标注多视角视频的小规模数据集，以支持当前和未来的研究。

总结

**Diffusion Models专栏文章摘要：Vivid-ZOO视频生成技术突破**
在Diffusion Models这一技术前沿中，Vivid-ZOO作为一项引人注目的新型扩散模型技术，成功开创了一种全新的多视角视频生成方式。该技术通过有效整合文本输入，解决了多视角视频生成中长期存在的复杂性和标注数据稀缺的难题，极大地提高了生成视频的多视角一致性与时间连贯性。
Vivid-ZOO的关键突破在于其独特的视角空间和时间因素的分解方案，结合already-trained的多视角图像和2D视频扩散模型层，实现了低成本的高效训练。此外，模型创新的3D-2D和2D-3D对齐层设计，有效解决了预训练模型间的领域差异兼容性问题，为视频特征的精确对齐与映射提供了强大支持。
更为值得一提的是，Vivid-ZOO不仅提升了技术高度，还紧随实践需求，构建了一个小规模却极具价值的多视角视频标注数据集，该数据集共有14,271个样本，对当前和未来的相关研究都有着重要的支撑作用。
综上所述，Vivid-ZOO凭借其独特的技术优势和前瞻性的数据集资源，为多视角视频生成的进一步发展打开了全新的方向，堪称是Diffusion Models技术的一大亮点和实战代表。