当前位置:AIGC资讯 > AIGC > 正文

超逼真AI生成电影来了!《泰坦尼克号》AI重生!浙大&阿里发布MovieDreamer,纯AI生成电影引爆热议!

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。

对此,浙大&阿里发布了一种新颖的分层框架MovieDreamer,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。

不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。

相关链接

论文链接:https://arxiv.org/pdf/2407.16655

项目主页:https://aim-uofa.github.io/MovieDreamer/

github链接:https://github.com/aim-uofa/MovieDreamer

论文阅读

MovieDreamer:连贯长视觉序列的分层生成

摘要

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。我们提出了 MovieDreamer,这是一种新颖的分层框架,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。我们的方法利用自回归模型实现全局叙事连贯性,预测视觉标记序列,然后通过扩散渲染将其转换为高质量的视频帧。这种方法类似于传统的电影制作过程,将复杂的故事分解为可管理的场景捕捉。此外,我们使用多模式脚本,通过详细的角色信息和视觉风格丰富场景描述,增强场景之间的连续性和角色身份。我们在各种电影类型中进行了广泛的实验,表明我们的方法不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。

方法

MovieDreamer 的框架。我们的自回归模型将多模态脚本作为输入,并预测关键帧的标记。然后将这些标记渲染成图像,形成用于扩展视频生成的锚帧。我们的方法确保视觉叙事的长期连贯性和短期保真度,同时很好地保留角色的身份。

我们提出了一种用于生成扩展视频序列的新框架,该框架利用自回归模型的优势实现长期时间一致性,并利用扩散模型实现高质量图像渲染。我们的方法以多模态脚本为条件,以自回归方式预测关键帧标记,并使用这些帧作为锚点来生成全长视频。我们的方法提供了灵活性,可以支持零样本生成以及少样本场景,在这些场景中,生成结果需要遵循给定的风格。我们特别注意在多模态脚本设计、自回归训练和扩散渲染过程中保留角色的身份。

效果

故事结果

我们的 MovieDreamer 能够生成非常长的故事结果,并且能够很好地保存多个角色。

角色 ID 保存

MovieDreamer 能够以零镜头方式在长时间跨度内保留角色身份。

视频结果

MovieDreamer与现有的长视频生成方法正交,但从中受益。 现有的长视频生成方法通常侧重于以一张图片或文字作为输入来生成一段长视频,确保数十秒的高质量结果。然而,将它们扩展到生成几分钟的长视频需要极大的计算量,而生成几个小时的长视频则几乎是不可能的。我们从不同的角度解决了这个问题,即通过分层的方式生成长视频。具体来说,我们首先生成关键帧,这些关键帧作为生成长视频的锚帧。此外,我们的范式统一了长故事生成和长视频生成。首先,我们在生成内容的长度方面超越了现有的方法,无论是在故事生成还是视频生成方面,同时确保质量不会下降。其次,我们的生成质量也超过了目前最先进的方法,这在评估指标中得到了证明。最后,我们的方法非常灵活,允许使用一些目前高质量的闭源视频生成模型来创建具有丰富叙事的高质量长视频,同时很好地保留了多个角色的一致性。 MovieDreamer + Luma

与现有方法相比

首先,我们的生成范式可以生成丰富的叙事内容,在时长方面显著超越现有方法。我们生成的长内容并非简单的循环。其次,定量指标有力地证明了我们的方法在生成长内容的同时还能确保高质量的结果。

更多结果

结论

我们提出 MovieDreamer 来解决生成具有复杂叙事的长时视觉内容的挑战。该方法巧妙地结合了自回归和扩散的优点,并且能够生成长视频。此外,我们设计了多模式脚本,旨在在生成的序列中保持角色一致性。我们进一步引入了 ID 保留渲染,以更好地保留角色 ID,并支持由于上下文建模而进行的少量电影创作。这项工作可能为未来自动化长时视频制作的进步开辟令人兴奋的可能性。

总结

### 文章总结:MovieDreamer——创新的长视频生成分层框架
视频生成技术尽管已取得显著进展,尤其依赖短时内容的扩散模型,但在处理复杂叙事及长视频生成中保持角色一致性的问题上仍存在不足。浙大与阿里巴巴联手推出了一款革新的分层框架**MovieDreamer**,通过巧妙结合自回归模型的全局叙事能力与基于扩散的高质量图像渲染,成功实现了长时间跨度下的高质量长视频生成,有效突破了当前技术局限。
**核心贡献**:
- **分层生成架构**:MovieDreamer融合了自回归和扩散两种技术的优势,确保了视觉内容的长期叙事连贯性与高保真图像质量。
- **多模态脚本输入**:框架引入详细的多模态脚本,涵盖丰富的角色信息与视觉风格,大大提升了生成内容的连贯性与场景丰富性。
- **扩展性强**:不仅能够处理零样本场景生成,还兼容现有高质量视频模型,提升了生成的灵活性与质量上限。
**技术优势**:
- **生成高质量长内容**:超越了当前技术的限制,能够在多个时间尺度(几分钟到几小时)上保持高水准的视觉和叙事表现。
- **保持角色身份**:在长时间的序列生成过程中,实现了出色的角色一致性保存,提升了观赏的真实感和连续性。
**实验与成果**:
通过在各类电影场景下的广泛测试,MovieDreamer证明了其在复杂情节建模与高质量视觉生成上的卓越表现,有效延长了生成内容的持续时长,且保持了稳定的高生成质量。其性能超越现有长视频生成技术,为后续自动化电影制作开辟了新的道路。
**展望未来**:
MovieDreamer为视频生成技术的进一步发展奠定了基础,特别是自动化电影生产领域的革新。这项技术可能引发视频创作与生产模式的重大变革,使内容创作变得更加高效和多元化。
**获取更多详情**:
- **论文链接**:https://arxiv.org/pdf/2407.16655
- **项目主页**:https://aim-uofa.github.io/MovieDreamer/
- **GitHub 仓库**:https://github.com/aim-uofa/MovieDreamer
以上即为MovieDreamer技术的主要成果与创新亮点。

更新时间 2024-08-18