训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

论文地址：https://arxiv.org/pdf/2311.08046.pdf
GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi
Huggingface 地址：https://huggingface.co/Chat-UniVi
Demo 地址：https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

图 1 Chat-UniVi 在图片、视频上的 17 个基准上达到先进的性能

具体来说，北京大学和中山大学的研究人员提出了一种名为 Chat-UniVi 的统一的视觉语言方案，其能通过统一的视觉表征同时处理图片任务和视频任务。作为一个统一的视觉理解模型，Chat-UniVi 以更少的视觉 token 数量，超过了专门针对图片设计的多模态大模型和专门针对视频设计的多模态大模型。更值得注意的是，所提出的统一的视觉表征极大减少了输入视觉 token 的数量，大大降低了模型的训练和推理成本，使得训练一个具有 130 亿参数的通用视觉语言大模型只需要三天。

在介绍本文方法之前，我们先看一下 Demo 展示：

方法介绍

现有的多模态语言模型通常只专注于图片或视频输入。其中，专注于图片理解的方法通常使用大量的视觉 token 来获得更精细的空间分辨率。而专注于视频理解的方法往往会牺牲每帧的空间分辨率，以输入更多帧构建更精细的时间理解能力。

对此，研究人员提出使用一组动态视觉 token 统一表示图片和视频。如图 2 所示，图片可以通过不同大小的视觉 token 来建模。例如，主要对象 (即图 2 中的羊) 需要使用更多视觉 token 进行细粒度表示，而背景 (即雪山) 只需使用一个视觉 token 即可充分建模。对于视频来说，视频首先会被分成多个关键事件，随后视觉 token 会在事件内部进行拓展。这种图片和视频的统一表示大大减少了视觉 token 的数量，同时保持了模型的表达能力。值得注意的是，在该方法中，较长的视频被分配了更多的视觉 token。因此，比现有的方法更适合于具有可变长度视频的理解。

图 2 Chat-UniVi 提出的统一视觉表征

为了获得这些动态的视觉 token，研究人员基于最近邻的密度峰聚类算法，逐步对视觉 token 进行分组和合并。当涉及视频时，同样应用最近邻的密度峰聚类算法来获取事件的帧集合。为了进一步提升模型的性能，研究人员为 LLM 提供了一个多尺度表征，其中多尺度表征的上层特征表示高级语义概念，而下层特征强调视觉细节表示。

图 3 Chat-UniVi 整体框架图

Chat-UniVi 框架具有两个引人注目的优点：首先，其统一的图片和视频建模方法允许在图片和视频混合数据集上进行训练，而无需任何修改即可直接应用于图片和视频任务。其次，多尺度表征有助于对图片和视频的全面理解，使 Chat-UniVi 能够适应各种任务，包括使用高层次特征进行语义理解，使用低层次特征生成详细描述。

Chat-UniVi 的训练分为两个阶段：

（1）多模态预训练。在第一阶段，研究人员冻结 LLM 和视觉编码器的同时只训练投影矩阵。这种训练策略使模型能够有效地捕获视觉信息，而不会对 LLM 的性能造成任何明显的损害。

（2）联合指令微调。在第二阶段，研究人员在一个包含图片和视频的混合数据集上对整个模型进行了全参数微调。通过在混合数据集上的联合训练，Chat-UniVi 实现了对大量指令的卓越理解，并产生了更自然、更可靠的输出。

实验

图片理解实验。Chat-UniVi 使用更少的视觉 token，同时实现卓越的性能。值得注意的是，Chat-UniVi 模型在 7B 参数下，也能达到 LLaVA 模型 13B 参数下的性能水平，证明了该方法的有效性。

视频理解实验。Chat-UniVi 作为一个统一的视觉语言模型，超过了专门针对视频设计的方法，例如 VideoChat 和 Video-ChatGPT。

图片问答实验。Chat-UniVi 在 ScienceQA 数据集上获得了有竞争力的性能。值得注意的是，Chat-UniVi 优于专门针对科学问答进行优化的 LLaMA-SciTune 模型，充分体现了该方法的优越性。

视频问答实验。在所有数据集上，Chat-UniVi 都优于最先进的方法，例如 VideoChat 和 Video-ChatGPT。

幻觉实验。在幻觉评估上，Chat-UniVi 优于最近提出的最先进的方法。此外，研究人员发现多尺度表征提高了抵抗幻觉的能力。值得注意的是，作为 7B 模型，Chat-UniVi 甚至优于 13B 模型，如 MiniGPT4。研究人员将这一成功归功于多尺度表征，多尺度表征使模型能够同时感知高级语义概念和低级视觉外观。

人工评测实验。同时，研究人员也进行了人工评估实验。研究人员发现基于 Flamingo 的方法在理解视频的能力上存在局限性。这种限制归因于它们使用 Q-Former 从不同长度的视频中提取固定数量的视觉 token，这阻碍了它们在建模时间理解方面的有效性。相比之下，Chat-UniVi 作为一个统一的模型，不仅优于基于 Flamingo 构建的方法，而且超过了专门为图片和视频设计的模型。

可视化。Chat-UniVi 所使用的动态视觉 token 有效地概括了对象和背景。这使 Chat-UniVi 能够使用有限数量视觉 token 的同时构建图片理解所需的细粒度的空间分辨率和视频理解所需的细粒度时间分辨率。