LLM生成3D场景，无限延伸！斯坦福华人提出3D动画生成框架，一句话一幅图创造无限3D世界

斯坦福华人退学博士开发的Pika，让AI技术和艺术迸发出了绚丽的火花。

最近，又有斯坦福的华人研究人员提出的新的框架——WonderJourney，

可以用一句话或者一张图，自动生成一系列3D场景的连续画面，效果炫酷！

图片

用一张爱丽丝奇境漫游的图片，就能生成一段真的爱丽丝漫游的梦境经历。

或者，用一首陆游的《游山西村》，可以生成一段水墨风格的诗词梦境：

莫笑农家腊酒浑，丰年留客足鸡豚。山重水复疑无路，柳暗花明又一村。箫鼓追随春社近，衣冠简朴古风存。从今若许闲乘月，拄仗无时夜扣门

图片

项目网址：https://kovenyu.com/WonderJourney/

图片

论文地址：https://arxiv.org/abs/2312.03884

WonderJourney是一个用于永久场景生成的模块化框架。

与之前专注于单一类型场景的视图生成框架不同，WonderJourney可以从用户提供的任何位置（通过文本描述或图像）开始，并通过一长串不同但连贯相连的3D场景生成旅程。

作者利用LLM来生成场景的文本描述，利用文本驱动的点云生成管道，来制作漂亮且连贯的3D场景序列，并利用大型VLM（视觉语言模型）来验证生成的场景。

No, no! The adventures first, explanations take such a dreadful time. --- Alice's Adventures in Wonderland

——作者表示，不解释了，赶紧先看效果！

首先展示从任意位置开始，沿着摄像机轨迹生成一系列不同但连贯的3D场景。

图片

以上图中的场景为起点，WonderJourney进行了延伸和想象：

图片

确实连贯且优美，从闹市到亭台山水，不得不说，AI的想象力真的有点东西。

然后展示WonderJourney合成长篇视频的能力：

图片

虽然有瑕疵，并且建筑风格不太统一，但小编觉得最后视角突然进入房间，算是很有意思的安排。

接下来，从同一地点开始，WonderJourney可以生成一组不同的「wonderjourneys」，——即不同的发展方向，在不同的目的地结束。这里使用相机姿势的轨迹来渲染视频。

图片

——小编称之为”AI的平行世界“。

最后，WonderJourney还可以根据一系列文本描述（例如诗歌、俳句和故事摘要）生成受控的wonderjourneys，也就是文生视频的能力。

首先是一首古诗：

图片

双飞燕子几时回，夹岸桃花蘸水。开春雨断桥人不渡，小舟撑出柳阴来。

燕子、桃花、水流、小舟，也是该有的意象都有了。

然后是日文的俳句，小编实在不懂日文，就把原文放在下面了：

图片

虽然不懂，但「远山」、「日」、「枯野」咱还是能看出来的。

最后是英文场景下的故事摘要，这里描绘的是诗歌Jabberwocky（龙）中的场景（Fighting...Hero returns...Storyteller...）：

图片

战斗、英雄凯旋、最后是讲故事的人。

不知道大家有没有发现，三种语言画出来的风格完全不同。中文是水墨画，日文有点像浮世绘，英文有一点点油画的感觉。

论文细节

在《爱丽丝梦游仙境》中，故事开始于爱丽丝掉进兔子洞，进入一个陌生而迷人的仙境。

在穿越这个仙境的旅程中，爱丽丝遇到了许多神奇的角色，如柴郡猫和疯帽子，以及茶话会和玫瑰园等奇特的场景——最终在皇宫结束。

这些角色和场景结合在一起，形成了一个引人入胜的世界，多年来吸引了无数读者。

在本文中，作者遵循这一创意，探索现代计算机视觉和人工智能模型，如何同样生成如此有趣和多样化的视觉世界，用户可以穿越这些世界，就像爱丽丝在仙境中的冒险一样。

图片

为了实现这个目标，作者引入了永久3D场景生成。

这项工作的目标是，从单个图像或语言描述的任意位置开始，合成一系列不同的3D场景。

生成的3D场景沿着远程摄像机轨迹连贯连接，穿过各种合理的地方，使用一系列不同的场景渲染视频，以模拟在虚构的“仙境”中旅行的视觉体验。

永久3D场景生成的主要挑战集中在，生成多样化但合理的场景元素上。这些场景元素需要通过连贯连接的3D场景来支持路径的形成，

包括可以被观察到的场景中的各种对象、背景和布局，并自然地过渡到下一个但未观察到的场景。

图片

WonderJourney的生成过程可以分解为：确定要为给定场景生成哪些对象，在哪里生成这些对象，以及这些场景如何以几何方式相互连接。

确定要生成哪些元素需要对场景进行语义理解（比如，狮子可能不太适合厨房）；确定在哪里生成需要关于视觉世界的常识（比如，狮子不应该漂浮在天空中）；

此外，在新的连接场景中生成这些元素需要几何理解（比如，遮挡和无遮挡、视差和适当的空间布局）。

WonderJourney利用LLM生成一长串场景描述，然后使用文本驱动的视觉场景生成模块，生成一系列彩色点云来表示连续的3D场景。

在这里，LLM提供常识和语义推理；视觉模块提供视觉和几何理解以及适当的3D效果。

最后，利用VLM来验证生成，并在检测到不需要的视觉效果时，启动重新生成。

图片

上图展示了WonderJourney框架和跨模块的工作流程。

WonderJourney框架是完全模块化的，每个模块都可以由最好的预训练模型实现。

WonderJourney框架包含三个核心组件：一个用于生成场景描述的LLM，一个用于生成连贯3D场景的文本驱动的视觉模块，以及一个用于验证生成场景的VLM。

方法

WonderJourney的主要思想是生成下一个场景所包含的视觉元素的文字描述，然后使用一个文本引导的视觉生成模块来制作三维场景。

WonderJourney将整个生成任务分解为场景描述生成、视觉场景生成和视觉验证。

给定输入图像或文本，首先通过使用文本到图像模型生成图像，或使用VLM生成描述，将其与其他模态配对。

然后，通过LLM生成下一个场景描述。视觉场景生成模块接收下一个场景描述和当前场景图像，生成下一个由彩色点云表示的 3D 场景。

之后，VLM会检查此生成过程，以确保没有不良影响，否则会重新生成。

场景描述生成

这里定义场景描述，它由一个在场景中保持一致的样式S、场景中的对象O和一个描述场景背景的简洁标题B组成。

利用LLM输出自然语言描述，然后使用词汇类别过滤器来处理O和B的原始文本，只保留实体的名词和属性的形容词。

从经验上讲，与要求LLM直接输出这种结构化描述相比，本文的做法会产生更连贯的连接场景。

视觉场景生成

视觉场景生成器包括免学习操作，例如透视取消投影和渲染，以及使用参数化（预训练）视觉模型的组件，包括深度估计器、基于分割的深度精简器和文本条件图像Inpainter。

将图像提升到点云：给定由图像表示的当前场景，通过估计深度将其提升到3D，并使用针孔相机模型将其取消投影。

实验中使用了MIDAS v3.1，是目前最先进的深度估计器之一。

现有的单目深度估计器有两个共同的问题：

首先，深度不连续性没有得到很好的建模，导致物体边界的深度边缘过于平滑。

其次，天空的深度总是被低估。

为了解决这两个问题，这里引入了一种利用像素分组分割，和天空分割的深度细化过程。

为了增强跨对象边界的深度不连续性，当元素的视差范围有限时，使用正面平面对场景元素进行建模。

图片

上图展示了视觉场景生成模块。每个箭头代表一个参数化视觉模型（比如深度估计器）或一个操作（比如渲染）。

针对具有不同风格的一般场景，本文使用视差范围的标准来保持估计的深度，而不是选择语义类。

对于天空深度，这里使用 OneFormer来分割天空区域，并删除沿天空边界的点。

此外，作者发现远处像素的深度通常不可靠。因此，文中还设置了一个深度为F的远背景平面，该平面切断了超出该深度的所有像素的深度。

作者沿着连接新场景和当前场景的摄像机轨迹，放置一个额外的摄像机，在该摄像机上渲染部分图像，对图像进行涂色，并将附加点添加到点云中。

在实践中，保持较大的点云，会导致在生成高分辨率场景的长轨迹时，需要大量GPU内存的点太多。

视觉验证

根据经验，在生成的大部分照片和绘画中，会出现画框或照片边框，从而破坏了几何图形的一致性。

此外，在生成的图像边界附近经常存在不需要的模糊失焦对象。

因此，文中加入一个验证步骤，来识别和拒绝这些不需要的生成场景。

这里将其表述为基于文本的检测问题，目标是在生成的场景图像中检测一组预定义的不良效果。

如果检测到任何不良影响，框架会拒绝并重新生成场景图像。

图片

上图展示了从同一输入图像生成的不同旅程的定性结果，表明 WonderJourney 产生的结果表现良好。

实验

由于永久3D场景生成是一项没有现有数据集的新任务，因此这里混合使用人工拍摄的照片、来自网络的无版权照片和生成的示例，用于实验评估，并通过DALL·E 3执行文本到图像配对的过程。

论文使用两种最先进的永久视图生成方法作为基准：基于图像的InfiniteNature-Zero和基于文本的SceneScape。

图片

上图定性地展示了跨不同场景和不同风格生成旅程的示例。其中前两行输入是真实拍摄的照片。

这些结果表明，WonderJourney能够从各种类型的输入图像中生成多样化但连贯连接的场景。

图片

上图展示了WonderJourney与InfiniteNature-Zero和SceneScape的比较。

由于InfiniteNature-Zero是在自然照片上训练的，因此实验仅使用逼真的自然图像作为输入对其进行比较。

WonderJourney以创意和娱乐为目的，因此这里专注于人类偏好评估作为量化的指标，使用以下四个轴：单次旅程中生成场景的多样性、视觉质量、场景复杂性和整体趣味性。

实验招募了400名参与者，其中200名用于评价与InfiniteNatureZero相比的情况，另外200名用于比较SceneScape的情况。

每个参与者回答12个问题（例如“比较下面的两个视频。哪个视频具有更高的多样性？）。

图片

如上表所示，在所有四个轴上，WonderJourney都比两个基线都更受欢迎。

InfiniteNature-Zero仅合成自然场景，而WonderJourney则生成更多样化的场景和对象，例如登山者和房屋，这些场景和对象与初始自然场景自然相连。

由于使用了纹理网格，SceneScape倾向于生成类似洞穴的场景，因此所有示例都会收敛到洞穴中。此外，SceneScape往往不会生成新对象。所以用户对WonderJourney的偏好更高。

参考资料：

https://arxiv.org/pdf/2312.03884.pdf

https://kovenyu.com/wonderjourney/