谷歌发布AI视频生成器Lumiere，在生成可爱动物视频方面表现出色

1月26日消息，据外媒报道，谷歌公布了一款名为Lumiere的人工智能视频生成器，并在相关的预印本论文中称其为“逼真视频生成的时空扩散模型”。Lumiere在制作可爱动物在荒谬场景中的视频方面做得很好，比如穿旱冰鞋、开车或弹钢琴。

根据谷歌的说法，Lumiere利用独特的架构一次生成视频的整个时间持续时间。或者，正如该公司所说，“我们引入了一种时空U-Net架构，通过模型中的一次传递，可以立即生成视频的整个时间持续时间。”这与现有的视频模型形成对比，现有的视频模型合成远距离关键帧，然后是时间超分辨率，这种方法本质上使全局时间一致性难以实现。”

通俗地说，谷歌的技术旨在同时处理空间(视频中物体的位置)和时间(整个视频中物体的移动和变化)两个方面。因此，它不是通过将许多小部件或帧放在一起制作视频，而是可以在一个平滑的过程中从头到尾创建整个视频。

Lumiere也可以做很多派对技巧，在谷歌的演示页面上有很好的例子。例如，它可以执行文本到视频的生成(将书面提示转换为视频)，将静止图像转换为视频，使用参考图像生成特定风格的视频，使用基于文本的提示应用一致的视频编辑，通过动画图像的特定区域创建电影图形，并提供视频绘画功能(例如，它可以改变一个人穿着的衣服的类型)。

在Lumiere的研究论文中，谷歌研究人员表示，AI模型输出5秒长的1024×1024像素视频，他们称之为“低分辨率”。尽管存在这些限制，但研究人员进行了一项用户研究，并声称Lumiere的输出比现有的AI视频合成模型更受欢迎。