首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

目标跟踪是计算机视觉的一项基础视觉任务，由于计算机视觉的快速发展，单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性，我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷，以实现复杂环境下全天候目标跟踪。

然而，现有的多模态跟踪任务也面临两个主要问题：

由于多模态目标跟踪的数据标注成本高，大多数现有数据集规模有限，不足以支持构建有效的多模态跟踪器；
因为不同的成像方式在变化的环境中对物体的敏感度不同，开放世界中主导模态是动态变化的，多模态数据之间的主导相关性并不固定。

在 RGB 序列上进行预训练，然后以完全微调的方式转移到多模态场景的许多多模态跟踪工作存在时间昂贵和效率低下的问题，同时表现出有限的性能。

除了完全微调方法之外，受自然语言处理 (NLP) 领域参数高效微调方法成功的启发，一些最近的方法通过冻结骨干网络参数并附加一组额外可学习的参数，将参数高效 prompt 微调引入到多模态跟踪中。

这些方法通常以一种模态 (通常是 RGB) 为主导模态，另一种模态作为辅助模态。然而，这些方法忽略了多模态数据的动态主导相关性，难以在如图 1 所示的复杂场景中充分利用互补的多模态信息，从而限制了跟踪性能。

图 1：复杂场景下不同的主导模态。

为了解决上述问题，来自天津大学的研究人员设计出了一种双向 adapter 用于多模态跟踪 (BAT)。与在主导模态中添加辅助模态信息作为提示以增强基础模型在下游任务中的表示能力的方法 (通常使用 RGB 作为主要模态) 不同，该方法没有预设固定的主导模态 - 辅助模态，而是在辅助模态向主导模态变化的过程中动态提取有效信息。

BAT 由两个共享参数的特定于模态分支的基础模型编码器和一个通用的双向 adapter 组成。在训练过程中，BAT 没有对基础模型进行完全的微调，每个特定的模态分支由具有固定参数的基础模型初始化，仅训练新增的双向 adapter。每个模态分支从其他模态中学习提示信息，与当前模态的特征信息相结合，增强表征能力。两个特定模态的分支通过通用双向 adapter 执行交互，在多模态非固定关联范式中动态地相互融合主导辅助信息。

通用双向 adapter 具有轻量级沙漏结构，它可以嵌入到基础模型的每一层 transformer 编码器中，而不需要引入大量的可学习参数。通过添加少量的训练参数 (0.32M)，BAT 与全微调方法和基于提示学习的方法相比具有更低的训练成本，获得了更好的跟踪性能。

论文《Bi-directional Adapter for Multi-modal Tracking》：

论文链接：https://arxiv.org/abs/2312.10611

代码链接：https://github.com/SparkTempest/BAT

主要贡献

我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化，以自适应的方式有效融合多模态信息。
据我们所知，我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效，能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数，我们的模型可以鲁棒应对开放场景下的多模态跟踪。
我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构，并验证了我们在多个 RGBT 跟踪相关数据集上的优势。

核心方法

如图 2 所示，我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT)，框架具有 RGB 模态和热红外模态的双流编码器结构，每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置，从两个模态相互交叉提示多模态数据。

方法没有对基础模型进行完全的微调，仅通过学习轻量级双向 Adapter，将预先训练好的 RGB 追踪器高效地转移到多模态场景中，实现了出色的多模态互补性和卓越的追踪精度。

图 2：BAT 的总体架构。

首先将每种模态的模板帧（第一帧中目标物体的初始框）和搜索帧（后续追踪图像）转换为，将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

双向 adapter 与双流编码器层并行设置，可以学习从一种模态到另一种模态的特征提示。为此，将两个分支的输出特征相加并输入到预测头 H 中，得到最终的跟踪结果框 B。

双向 adapter 采用模块化设计，分别嵌入到多头自注意力阶段和 MLP 阶段，如图 1 右侧所示双向 adapter 的详细结构，其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成，tn 表示每个模态的 token 个数，输入 token 首先通过下投影被降维为 de 并通过一个线性投影层，然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。

通过这种简单的结构，双向 adapter 可以有效地在模态之间进行特征提示，实现多模态跟踪。

由于冻结了 transformer 编码器和预测头，因此只需要优化新增 adapter 的参数。值得注意的是，与大多数传统 adapter 不同，我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的，确保了开放世界中良好的跟踪性能。

实验效果

如表 1 所示，在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示，在 LasHeR 数据集的不同场景属性下，与最先进方法的性能比较也证明了所提出方法的优越性。

这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标，并自适应地从动态变化的主导 - 辅助模态中提取有效信息，达到了最先进的性能。

表 1 RGBT234 和 LasHeR 数据集上的整体性能。

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。

实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示，与固定主导模态的相关方法相比，我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标，当 RGB 和 TIR 在后续场景中都能提供有效的信息时，追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征，捕获更准确的目标响应位置，并消除 RGB 模态的干扰。

图 4 跟踪结果的可视化。

我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示，在 VisEvent 测试集上与其他方法相比，我们的方法在不同复杂场景下的追踪结果最为准确，证明了我们的 BAT 模型的有效性和泛化性。

图 5 VisEvent 数据集下追踪结果。

图 6 attention 权重可视化。

我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比，我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息，同时随着网络深度的增加保持主导模态的有效性，从而提高了整体跟踪性能。

实验表明，BAT 成功地捕获了多模态互补信息，实现了样本自适应动态跟踪。