【论文笔记】VCoder: Versatile Vision Encoders for Multimodal Large Language Models

小嗷犬2024-11-082025-01-05

基本信息

标题: VCoder: Versatile Vision Encoders for Multimodal Large Language Models
作者: Jitesh Jain, Jianwei Yang, Humphrey Shi
发表: CVPR 2024
arXiv: https://arxiv.org/abs/2312.14233
GitHub: https://github.com/SHI-Labs/VCoder

摘要

人类拥有非凡的视觉感知能力，即看到并理解所见，这帮助他们理解视觉世界并推理。

多模态大型语言模型（MLLM）最近在视觉-语言任务上取得了令人印象深刻的成果，这些任务包括视觉问答、图像标题生成、视觉推理和图像生成。

然而，当被要求识别或计数（感知）给定图像中的实体时，现有的MLLM系统却失败了。

为了开发一个准确的多模态MLLM感知和推理系统，我们提出使用Versatile enCoder（VCoder）作为多模态MLLM的感知之眼。

我们将分割或深度图等感知模态输入到VCoder中，从而提高MLLM的感知能力。
我们利用COCO图像和现成视觉感知模型的输出，创建我们的COCO分割文本（COST）数据集，用于训练和评估MLLM在物体感知任务上的表现。
我们引入了评估MLLM在COST数据集上物体感知能力的指标。
我们提供了广泛的实验证据，证明了VCoder在物体级感知技能上优于现有的多模态MLLM，包括GPT-4V。

我们将数据集、代码和模型开源，以促进研究。

主要贡献

我们提出使用额外的（感知）控制输入，并将其提供给通用编码器（VCoder），以提升物体感知性能。
我们引入了COCO分割文本（COST）数据集，用于训练和评估多模态LLM系统在物体识别、计数和顺序预测等基本物体级感知任务上的表现。
此外，为了量化MLLMs的物体感知能力，我们提出了计算计数得分（CS）、幻觉得分（HS）和深度得分（DS）。我们的实验表明，在COST数据集上进行验证时，VCoder适配的LLaVA1.5在所有指标上均优于基线MLLMs。

工作

COST 数据集

我们将COCO中的图像、GPT-4中的问题和OneFormer的分割输出整合到问答格式中，用于训练和评估MLLLMs在物体识别任务上的表现。

我们还通过整合DINOv2 DPT的深度图输出，将COST扩展到物体顺序感知任务。

通过类似地整合其他模态（例如，关键点图），COST可以扩展到更多物体级任务。

VCoder

<seg>: OneFormer 的分割图通过一个SegCoder（CLIP-ViT-L-336px）和一个两层MLP。
<depth>: DINOv2 DPT 深度图通过一个DepthCoder（CLIP-ViT-L-336px）和一个两层MLP。
<image>: 原图通过一个DepthCoder（CLIP-ViT-L-336px）和一个两层MLP。
<query>: 文本分词后嵌入。
LLM: Vicuna-1.5

Evaluation Metrics for Object Identification

尽管存在各种指标来衡量视觉-语言模型中的物体幻觉，但现有的指标在计算幻觉得分时都没有考虑明确的物体数量。

我们认为，MLLM返回的物体数量是评估物体识别性能时不应忽视的关键组成部分。

因此，我们提出使用两个指标来评估MLLM中的物体识别性能：计数得分（ $\mathbf{CS}$ ）和幻觉得分（ $\mathbf{HS}$ ）。

给定一个真实句子（ $G$ ）和一个MLLM预测的响应（ $P$ ），我们首先从两个文本样本中提取对象词（名词）及其对应的计数，并以字典形式表示，其中键为对象名词，值为对应对象的计数：

$\begin{align*} G_{\text{dict}} &= \{\mathbf{OBJ}^G_1 : \mathbf{CNT}^G_1; \cdots; \mathbf{OBJ}^G_N : \mathbf{CNT}^G_N\} \\ P_{\text{dict}} &= \{\mathbf{OBJ}^P_1 : \mathbf{CNT}^P_1; \cdots; \mathbf{OBJ}^P_M : \mathbf{CNT}^P_M\} \end{align*}$

其中 $N$ 和 $M$ 分别代表 $G$ 和 $P$ 中不同对象名词的数量。接下来，我们以 $G_{\text{dict}}$ 和 $P_{\text{dict}}$ 作为参考，对键的计数进行一对一匹配，以计算计数得分（ $\mathbf{CS}$ ）和幻觉得分（ $\mathbf{HS}$ ）：

$\begin{array}{l} \mathbf{CS} = \frac{100}{N} \sum_{i=1}^{N} \left\{ \begin{array}{ll} \frac{\min(\mathbf{CNT}_{i}^{G}, \mathbf{CNT}_{i}^{P})}{\max(\mathbf{CNT}_{i}^{G}, \mathbf{CNT}_{i}^{P})} & \text{if } I(\mathbf{OBJ}_{i}^{G}, P_{\text{dict}}) \\ 0 & \text{otherwise} \end{array} \right. \\ \mathbf{CS} = \frac{100}{M} \sum_{j=1}^{M} \left\{ \begin{array}{ll} 1 - \frac{\min(\mathbf{CNT}_{j}^{P}, \mathbf{CNT}_{j}^{G})}{\max(\mathbf{CNT}_{j}^{P}, \mathbf{CNT}_{j}^{G})} & \text{if } I(\mathbf{OBJ}_{j}^{P}, G_{\text{dict}}) \\ 1 & \text{otherwise} \end{array} \right. \\ I(\mathbf{OBJ}, D) = \left\{ \begin{array}{ll} \text{True} & \text{if } \mathbf{OBJ} \text{ is in keys}(D) \\ \text{False} & \text{otherwise} \end{array} \right. \end{array}$

计数得分（ $\mathbf{CS}$ ）：表示MLLM相对于真实句子预测的正确物体计数百分比，越高越好。

幻觉得分（ $\mathbf{HS}$ ）：表示MLLM预测的额外物体计数百分比，这些计数在真实句子中不存在，越低越好。

实验

COST IT LLaVA-1.5-7b: 使用COST训练数据与LLaVA-1.5中使用的指令微调数据混合而成的数据从头训练LLaVA-1.5。
Soft-Prompted LLaVA-1.5: 在LLM输入前添加576个可学习标记（⟨prompt⟩），并在COST训练数据集上仅微调⟨prompt⟩参数。
ImCoder LLaVA-1.5: 使用原图作为控制输入，在COST训练数据上进行训练。