【论文笔记】Attention Prompting on Image for Large Vision-Language Models

小嗷犬2024-11-022025-08-13

基本信息

标题: Attention Prompting on Image for Large Vision-Language Models
作者: Runpeng Yu, Weihao Yu, Xinchao Wang
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2409.17143

摘要

与大型语言模型（LLMs）相比，大型视觉语言模型（LVLMs）也能接受图像作为输入，从而展现出更多有趣的涌现能力，并在各种视觉语言任务上表现出令人印象深刻的表现。

受LLMs中的文本提示启发，视觉提示已被探索以增强LVLM感知视觉信息的能力。

然而，之前的视觉提示技术仅处理视觉输入，不考虑文本查询，限制了模型遵循文本指令完成任务的能力。

为了填补这一空白，在这项工作中，我们提出了一种名为Attention Prompting on Image（API）的新提示技术，它简单地在原始输入图像上叠加一个由文本查询引导的注意力热图，从而有效地增强了LVLM在各种任务上的表现。

具体来说，我们使用类似于CLIP的辅助模型根据文本查询生成输入图像的注意力热图。

然后，热图简单地乘以原始图像的像素值，以获得LVLM的实际输入图像。

在各个视觉语言基准上的大量实验验证了我们的技术的有效性。

例如，API在MM-Vet和LLaVA-Wild基准上分别将LLaVA-1.5提高了3.8%和2.9%。

主要贡献

我们发现，当前的视觉提示技术严重修改输入图像，而没有考虑文本查询，限制了模型准确遵循指令的能力。
为了填补这一空白，我们提出了API方法，探讨如何从各种类型的VLM模型中提取有价值的归因图，并将它们作为视觉提示来提供视觉感知的线索，从而提高性能。
我们的实验证明了该方法在各种数据集上对广泛VLM模型的有效性。此外，我们的方法在解决幻觉问题上也已被证明是有效的。

方法

使用一个辅助的大型视觉语言模型结合输入图像和文本提示，生成一个由文本查询引导的注意力热图，再将注意力热图叠加在原始图像上。

Obtaining Attribution Map from CLIP

CLIP模型 $g_{\text{clip}}$ 由一个视觉编码器和一个文本编码器组成，在隐空间中计算输入图像和文本之间的相似度 $sim(\hat{I}, \hat{T})$ ，其中 $\hat{I} = g_{\text{clip}}^{\text{img}}(I)$ ， $\hat{T} = g_{\text{clip}}^{\text{text}}(T)$ 。该相似度用于度量整张图像和文本之间的相关性。为了获得文本查询到每个图像patch的相关度图，我们需要对图像级别的相似度特征 $\hat{I}$ 进行分解，以此得到每个图像patch特征与文本特征 $\hat{T}$ 的相似度。

由于存在残差连接，视觉编码器的最终输出 $\hat{I}$ 实际上包括了每一层的影响。因此， $\hat{I}$ 可以表示为每一层类别标记位置值的线性组合：

\hat{I} = \mathcal{L}\left(\left[Z_{\text{cls}}^{0}\right]\right) + \sum_{l=1}^{L}\mathcal{L}\left(\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{\text{cls}}\right) + \sum_{l=1}^{L}\mathcal{L}\left(\left[\operatorname{MLP}^{l}\left(\hat{Z}^{l}\right)\right]_{\text{cls}}\right)

$L$ 表示视觉编码器中Transformer层的数量，其中 $\operatorname{MSA}$ 和 $\operatorname{MLP}$ 分别代表Transformer中的多头自注意力结构和多层感知器结构； $\mathcal{L}$ 代表包括全连接层和Transformer结构之后计算相似度得分之前执行的归一化操作的线性变换； $Z^l$ 表示第 $l$ 个Transformer层的输入token序列； $[Z]_\text{cls}$ 表示token序列 $Z$ 中cls token的值。这些输出的cls token通过残差连接聚合，形成视觉编码器的输出。

在这些求和项中，MSA最后几层的输出起着决定性作用，而来自浅层MSA层输出、MLP输出以及与输入图像无关的 $Z^0_\text{cls}$ 项的贡献可以视为对最终相似度测量的忽略不计。因此，相似度 $sim(\hat{I}, \hat{T})$ 可以通过计算 $\hat{T}$ 与深层MSA的聚合输出的相似度来近似：

\operatorname{sim}(\hat{I}, \hat{T}) \approx \operatorname{sim}\left(\sum_{l=L^{\prime}}^{L}\mathcal{L}\left(\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{\text{cls}}\right), \hat{T}\right)

其中 $L^{\prime}$ 代表预定义的起始层索引。为进一步计算文本查询对每个patch的归因，我们展开多头自注意力机制的操作：

\begin{align*} {\left[\operatorname{MSA}^{l}\left(Z^{l-1}\right)\right]_{cls}} &= \sum_{h}^{H}\left[A^{(l, h)} V^{(l, h)} W^{(l, h)}\right]_{cls} + B^{l} \\ &= \sum_{t=1}^{T} \underbrace{\left[\sum_{h}^{H} A_{cls, t}^{(l, h)} V_{t,:}^{(l, h)} W^{(l, h)} + \frac{1}{H T} B^{l}\right]}_{\text{The MSA output corresponding to the }t\text{-th patch(token)}} \triangleq \sum_{t=1}^{T} \eta_{t}^{l} \end{align*}

在第 $l$ 层中， $A(l,h)$ 和 $V(l,h)$ 分别是对应于第 $h$ 个注意力头的注意力图和Value矩阵； $W(l,h)$ 是第 $l$ 层中用于合并多个注意力头的权重矩阵，对应于第 $h$ 个头； $B(l)$ 是第 $l$ 层中用于合并多个注意力头的偏置矩阵； $A_{cls, t}^{(l, h)}$ 表示cls token对第 $t$ 个token的注意力值； $V_{t,:}^{(l,h)}$ 表示 $V(l,h)$ 的第 $t$ 行； $H$ 和 $T$ 分别是注意力头的数量和token的数量；而值 $T$ 等于patch数 $P \times P + 1$ 。

因此，第 $t$ 个patch的特征可以表示为 $\psi_{t}\triangleq\sum_{l=L^{\prime}}^{L}\mathcal{L}\left(\eta_{t}^{l}\right)$ ，我们可以计算文本查询与第 $t$ 个图像patch之间的相似性。相应地，归因图 $\Psi^{cls} \in \mathbb{R}^{P \times P}$ 被定义为：

\Psi^{cls}_{i,j} \triangleq sim(\psi_{t}, \hat{T}), \quad\text{where}\ t = 1 + j + P * (i - 1).

通过对 cls token进行分解，我们可以识别哪些patch与查询更为相关。当查询包含特定实体时，这种方法特别有效，允许进行精确的定位。然而，在复杂的视觉问答（VQA）任务中，查询中往往没有明确提及实体，或者回答问题所涉及的逻辑和分析过程可能依赖于查询中没有明确提及的实体。为了解决这个问题，我们还定义了另一个互补归因图 $\Psi^{comp}$ 。该图旨在捕捉与查询具有潜在或隐含相关性的区域。

我们实验观察到，在CLIP的视觉Transformer中，查询特征 $\hat{T}$ 与最终层中除cls token外的token的相似度得分可以（反向）选择重要区域。对应图像背景或大块单色区域的patch与 $\hat{T}$ 的相似度得分显著高于代表特定实体（这些实体可能不一定出现在查询中）的token。一个可能的解释是，这些“空白”token本身缺乏有价值的信息，被Transformer视为寄存器。Transformer最初利用它们存储来自其他token的信息，随后通过注意力机制过滤和汇总这些存储的信息到cls token，以形成最终的预测。因此，与 $\hat{T}$ 具有高相似度得分的除cls token外的token，代表信息含量低的patch，可以不予考虑。我们定义互补归因图如下：

\Psi^{comp}_{i,j} \triangleq 1 - sim(\mathcal{L}(Z^L_t), \hat{T}), \quad\text{where}\ t = 1 + j + P * (i - 1).

$Z^L_t$ 表示最后一个Transformer层的第 $t$ 个输出token。互补归因图与相似度成反比，表明缺乏信息的patch被忽略，仅保留具有潜在相关性的patch。

因此，我们获得了两张相互补充的归因图： $\Psi^{cls}$ 明确识别与查询实体直接相关的区域，但可能遗漏一些可能相关的区域。 $\Psi^{comp}$ 同样识别所有可能相关的区域，但缺乏特异性，无法突出显示与查询实体直接相关的区域。

通过以下操作整合两个归因图，我们得到CLIP的最终归因图：

\Psi_{i,j} \triangleq \Psi^{cls}_{i,j} + \Psi^{comp}_{i,j} - \Psi^{cls}_{i,j} * \Psi^{comp}_{i,j}

这种整合可以被视为一种soft OR操作。

Obtaining Attribution Map from LLaVA

LLaVA模型是一种MLLM，它利用多头自注意力机制从文本查询和图像patch中提取信息，预测后续的token。给定长度为 $N$ 的文本token序列 $Z^\text{text} = {\{Z^\text{text}_t \}}_{t=1}^{N}$ ，以及长度为 $P \times P$ 的图像token序列 $Z^\text{img} = {\{Z^\text{img}_t \}}_{t=1}^{P \times P}$ ，LLaVA生成一个长度为 $M$ 的新token序列 $Z^\text{out} = {\{Z^\text{out}_t \}}_{t=1}^{M}$ 。我们直接使用token $Z^\text{out}_t$ 与每个图像token之间的注意力权重作为 $Z^\text{out}_t$ 对该图像patch的归因。类似于CLIP模型的策略，我们选择深层的注意力图来提取注意力权重。最终的归因图在整个生成的token序列和所有注意力头之间平均。形式上，归因图 $\Psi$ 定义为：

\Psi_{i, j} \triangleq \frac{1}{M H} \sum_{m=1}^{M} \sum_{h=1}^{H} A_{m, t}^{(\bar{L}, h)}, \quad\text{where}\ t = j + P * (i - 1).

在定义中， $A^{(\bar{L}, h)}$ 是第 $\bar{L}$ 层的第 $h$ 个头对应的注意力图，其中 $\bar{L}$ 是一个超参数集合；为了符号的简洁性，此处 $A^{(\bar{L}, h)}$ 是整个注意力图的一个子矩阵，仅包括 $Z^\text{out}$ 和 $Z^\text{img}$ 之间的交叉注意力； $A_{m, t}^{(\bar{L}, h)}$ 仍然表示从第 $m$ 个token到第 $t$ 个token的注意力值。

From Token Space to Pixel Space

$\Psi \in \mathbb{R}^{P \times P}$ 的归因图在token空间中生成。我们首先将其调整回像素空间以获得原始热图 $\hat{\Phi} \triangleq \operatorname{Resize}(\Psi)$ 。由于patch的方形形状， $\hat{\Phi}$ 中的掩码模式也呈矩形。为了减轻矩形掩码模式与物体不规则形状不匹配的问题，我们应用均值滤波器以获得最终热图 $\Phi \triangleq \operatorname{Mean_k}(\hat{\Phi})$ ，其中 $k$ 是滤波器的核大小。然后，将最终热图 $\Phi$ 通过将其用作 alpha 通道叠加到原始图像上，得到标注后的最终图像 $I^a$ 。