【论文笔记】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

基本信息

标题: Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
作者: Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan
发表: EMNLP 2024
arXiv: https://arxiv.org/abs/2311.10122

基本信息

摘要

大型视觉-语言模型(LVLM)提高了视觉-语言理解中各种下游任务的表现。

大多数现有方法将图像和视频编码到不同的特征空间中,然后将它们作为输入馈送到大语言模型。

然而,由于缺乏图像和视频的统一标记化,即投影前的错位,大语言模型(LLM)从多个投影层中学习多模态交互变得具有挑战性。

在这项工作中,我们将视觉表示统一到语言特征空间,以推动基础LLM向统一的LVLM发展。

因此,我们建立了一个简单但稳健的LVLM基线,即Video-LLaVA,它从图像和视频的混合数据集中学习,相互增强。

Video-LLaVA在5个图像问答数据集和4个图像基准工具包的9个图像基准上实现了优异的性能。

此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet上分别比Video-ChatGPT高出5.8%、9.9%、18.6%和10.1%。

值得注意的是,广泛的实验表明,Video-LLaVA在统一的视觉表示中相互促进图像和视频,优于专门为图像或视频设计的模型。

我们希望这项工作为LLM的多模态输入提供一些启示。

Comparing Different LVLM Paradigms

Comparison between different Large Vision-Language Models

主要贡献

  1. 我们引入了Video-LLaVA,一个强大的LVLM基线。在训练过程中,Video-LLaVA将视觉信号绑定到语言特征空间,统一视觉表示,并提出在投影前进行对齐的解决方案。我们使LLM能够同时在对图像和视频上执行视觉推理能力。
  2. 大量实验表明,统一的视觉表示有助于LLM在同时处理图像和视频时进行学习,验证了模态的互补性,与专门为图像或视频设计的模型相比,显示出显著的优越性。

Video-LLaVA

模型架构

Training framework and performance

Framework Overview

如图2所示,Video-LLaVA由LanguageBind编码器fVf_\mathbf{V},用于从原始视觉信号(例如图像或视频)中提取特征,大语言模型fLf_\mathbf{L}(如Vicuna),视觉投影层fPf_\mathbf{P} 和词嵌入层fTf_\mathbf{T} 组成。

我们最初使用LanguageBind编码器获取视觉特征。

LanguageBind编码器能够将不同模态映射到文本特征空间,从而为我们提供一个统一的视觉表示。

随后,统一的视觉表示由Share Projection进行编码,然后与分词文本查询结合,输入到大语言模型中生成相应的响应。

United Visual Representation

我们的目标是把图像和视频映射到一个共享的特征空间,以便大语言模型可以从统一视觉表示中学习。

我们假设相同的信息可以通过多种媒介传达。例如,一只奔跑的狗可以通过语言、图像或视频同时表达。因此,我们可以将不同模态的信息压缩到公共特征空间中,使模型能够从密集的特征空间中提取信息,促进模态交互和互补。

因此,我们选择了来自LanguageBind的模态编码器,它将图像和视频与文本特征空间对齐。

Alignment Before Projection

具体而言,LanguageBind从OpenCLIP初始化,自然地将图像和语言对齐到共享特征空间。

随后,它使用来自VIDAL-10M的300万个视频-文本对,将视频表示与语言空间对齐。

通过共享语言特征空间,图像和视频表示最终汇聚到一个统一的视觉特征空间,我们称之为图像和视频的涌现对齐。

因此,我们的视频编码器和图像编码器从LanguageBind encoders zoo初始化,预先对齐LLM的输入,缩小不同视觉信号表示之间的差距。

统一的视觉表示在通过共享投影层后输入LLM。

训练

总体而言,Video-LLaVA生成响应的过程与大语言模型(例如GPT系列)类似。

给定文本输入XT\mathbf{X_T} 和视觉信号XV\mathbf{X_V},输入信号根据公式:

ZT=fT(XT),ZV=fP(fV(XV))\mathbf{Z_T} = f_{\mathbf{T}}(\mathbf{X_T}), \mathbf{Z_V} = f_{\mathbf{P}}(f_{\mathbf{V}}(\mathbf{X_V}))

编码成一系列标记。

通过最大化公式:

p(XAXV,XT)=i=1Lpθ(XA[i]ZV,ZT[1:i1])p(\mathbf{X_A} \mid \mathbf{X_V}, \mathbf{X_T}) = \prod_{i=1}^{L} p_{\theta}\left(\mathbf{X_A}^{[i]} \mid \mathbf{Z_V}, \mathbf{Z_T}^{[1:i-1]}\right)

中的似然概率,模型最终实现了多模态理解能力。

其中,LL 是生成的序列XA\mathbf{X_A} 的长度,θ\theta 是一个可训练的参数。

我们动态地对图像和视频进行联合训练,其中单个批次同时包含图像和视频样本。

Data composition for training Video-LLaVA

Understanding Training

在此阶段,模型需要具备在广泛图像/视频-文本对数据集中解释视觉信号的能力。

每个视觉信号对应一次对话数据(Xq\mathbf{X_q}Xa\mathbf{X_a}),其中XT=Xq\mathbf{X_T = X_q}Xa\mathbf{X_a} 为真实值。

本阶段的训练目标是原始的自回归损失,模型学习基本的视觉观察能力。

在此过程中,我们冻结了模型的其他参数。

Instruction Tuning

在这个阶段,模型需要提供与不同指令相对应的响应。

这些指令通常涉及更复杂的视觉理解任务,而不仅仅是描述视觉信号。

请注意,对话数据Xq1,Xa1,,XqN,XaN\mathbf{X}^1_\mathbf{q}, \mathbf{X}^1_\mathbf{a}, \cdots, \mathbf{X}_\mathbf{q}^N, \mathbf{X}_\mathbf{a}^N 由多轮对话组成。

XTr={Xq1,r=1Concat(XAr1,Xqr1,Xq),r>1\mathbf{X}_T^r = \begin{cases} \mathbf{X}_{q}^1, & r = 1 \\ \text{Concat}(\mathbf{X}_A^{r-1}, \mathbf{X}_q^{r-1}, \mathbf{X}_q), & r > 1 \end{cases}

其中,rr 代表轮数。当r>1r > 1 时,我们将所有前一轮的对话与当前指令作为本轮的输入进行拼接。

训练目标与前一阶段保持一致。

在此阶段之后,模型学会根据不同的指令和要求生成相应的回复。

在此阶段,大语言模型(LLM)也参与了训练。

实验

主实验

Comparison between different LVLMs on image understanding benchmarks

Comparison between different LVLMs on video reasoning benchmarks

Zero-shot object hallucination evaluation results

消融实验

Examples of Video-LLaVA’s multimodal understanding capabilities

Effect of alignment before projection on image

Effect of alignment before projection on video

Effect of joint training on video

Effect of joint training on image

总结

在这项工作中,我们介绍了Video-LLaVA,一个简单但强大的大型视觉语言基线模型。

我们提出了一种新颖的框架来解决投影前的错位问题,利用LanguageBind编码器将视觉信号预先绑定到语言特征空间。

为了使大语言模型能够同时理解图像和视频,我们对图像和视频进行了联合训练,使大语言模型能够从统一的视觉表示中学习多模态交互。

大量实验表明,图像和视频的联合训练相互促进性能。

此外,我们验证了在投影前对齐视觉表示有助于大语言模型的学习。

值得注意的是,大语言模型在从统一的视觉表示中学习后,表现出同时与图像和视频互动的非凡能力,展示了强大的对统一视觉概念的理解。

这些结果共同证明了Video-LLaVA训练框架的有效性。

作为一个统一的视觉训练框架,Video-LLaVA的性能甚至超过了专门为图像或视频设计的专家模型。

未来工作

虽然Video-LLaVA在图像和视频方面都表现出强大的竞争力,但我们观察到它在把握时空关系和时空定位方面存在困难。

Video-LLaVA可以作为基准扩展到其他视觉相关模态,如深度和红外图像。

此外,我们可以探索如何有效地整合时间戳嵌入,使大型视觉语言模型能够回答与时空关系相关的问题。