【论文笔记】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
【论文笔记】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
小嗷犬基本信息
标题: Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
作者: Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan
发表: EMNLP 2024
arXiv: https://arxiv.org/abs/2311.10122
摘要
大型视觉-语言模型(LVLM)提高了视觉-语言理解中各种下游任务的表现。
大多数现有方法将图像和视频编码到不同的特征空间中,然后将它们作为输入馈送到大语言模型。
然而,由于缺乏图像和视频的统一标记化,即投影前的错位,大语言模型(LLM)从多个投影层中学习多模态交互变得具有挑战性。
在这项工作中,我们将视觉表示统一到语言特征空间,以推动基础LLM向统一的LVLM发展。
因此,我们建立了一个简单但稳健的LVLM基线,即Video-LLaVA,它从图像和视频的混合数据集中学习,相互增强。
Video-LLaVA在5个图像问答数据集和4个图像基准工具包的9个图像基准上实现了优异的性能。
此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet上分别比Video-ChatGPT高出5.8%、9.9%、18.6%和10.1%。
值得注意的是,广泛的实验表明,Video-LLaVA在统一的视觉表示中相互促进图像和视频,优于专门为图像或视频设计的模型。
我们希望这项工作为LLM的多模态输入提供一些启示。
主要贡献
- 我们引入了Video-LLaVA,一个强大的LVLM基线。在训练过程中,Video-LLaVA将视觉信号绑定到语言特征空间,统一视觉表示,并提出在投影前进行对齐的解决方案。我们使LLM能够同时在对图像和视频上执行视觉推理能力。
- 大量实验表明,统一的视觉表示有助于LLM在同时处理图像和视频时进行学习,验证了模态的互补性,与专门为图像或视频设计的模型相比,显示出显著的优越性。
Video-LLaVA
模型架构
Framework Overview
如图2所示,Video-LLaVA由LanguageBind编码器,用于从原始视觉信号(例如图像或视频)中提取特征,大语言模型(如Vicuna),视觉投影层 和词嵌入层 组成。
我们最初使用LanguageBind编码器获取视觉特征。
LanguageBind编码器能够将不同模态映射到文本特征空间,从而为我们提供一个统一的视觉表示。
随后,统一的视觉表示由Share Projection进行编码,然后与分词文本查询结合,输入到大语言模型中生成相应的响应。
United Visual Representation
我们的目标是把图像和视频映射到一个共享的特征空间,以便大语言模型可以从统一视觉表示中学习。
我们假设相同的信息可以通过多种媒介传达。例如,一只奔跑的狗可以通过语言、图像或视频同时表达。因此,我们可以将不同模态的信息压缩到公共特征空间中,使模型能够从密集的特征空间中提取信息,促进模态交互和互补。
因此,我们选择了来自LanguageBind的模态编码器,它将图像和视频与文本特征空间对齐。
Alignment Before Projection
具体而言,LanguageBind从OpenCLIP初始化,自然地将图像和语言对齐到共享特征空间。
随后,它使用来自VIDAL-10M的300万个视频-文本对,将视频表示与语言空间对齐。
通过共享语言特征空间,图像和视频表示最终汇聚到一个统一的视觉特征空间,我们称之为图像和视频的涌现对齐。
因此,我们的视频编码器和图像编码器从LanguageBind encoders zoo初始化,预先对齐LLM的输入,缩小不同视觉信号表示之间的差距。
统一的视觉表示在通过共享投影层后输入LLM。
训练
总体而言,Video-LLaVA生成响应的过程与大语言模型(例如GPT系列)类似。
给定文本输入 和视觉信号,输入信号根据公式:
编码成一系列标记。
通过最大化公式:
中的似然概率,模型最终实现了多模态理解能力。
其中, 是生成的序列 的长度, 是一个可训练的参数。
我们动态地对图像和视频进行联合训练,其中单个批次同时包含图像和视频样本。
Understanding Training
在此阶段,模型需要具备在广泛图像/视频-文本对数据集中解释视觉信号的能力。
每个视觉信号对应一次对话数据(,),其中, 为真实值。
本阶段的训练目标是原始的自回归损失,模型学习基本的视觉观察能力。
在此过程中,我们冻结了模型的其他参数。
Instruction Tuning
在这个阶段,模型需要提供与不同指令相对应的响应。
这些指令通常涉及更复杂的视觉理解任务,而不仅仅是描述视觉信号。
请注意,对话数据 由多轮对话组成。
其中, 代表轮数。当 时,我们将所有前一轮的对话与当前指令作为本轮的输入进行拼接。
训练目标与前一阶段保持一致。
在此阶段之后,模型学会根据不同的指令和要求生成相应的回复。
在此阶段,大语言模型(LLM)也参与了训练。
实验
主实验
消融实验
总结
在这项工作中,我们介绍了Video-LLaVA,一个简单但强大的大型视觉语言基线模型。
我们提出了一种新颖的框架来解决投影前的错位问题,利用LanguageBind编码器将视觉信号预先绑定到语言特征空间。
为了使大语言模型能够同时理解图像和视频,我们对图像和视频进行了联合训练,使大语言模型能够从统一的视觉表示中学习多模态交互。
大量实验表明,图像和视频的联合训练相互促进性能。
此外,我们验证了在投影前对齐视觉表示有助于大语言模型的学习。
值得注意的是,大语言模型在从统一的视觉表示中学习后,表现出同时与图像和视频互动的非凡能力,展示了强大的对统一视觉概念的理解。
这些结果共同证明了Video-LLaVA训练框架的有效性。
作为一个统一的视觉训练框架,Video-LLaVA的性能甚至超过了专门为图像或视频设计的专家模型。
未来工作
虽然Video-LLaVA在图像和视频方面都表现出强大的竞争力,但我们观察到它在把握时空关系和时空定位方面存在困难。
Video-LLaVA可以作为基准扩展到其他视觉相关模态,如深度和红外图像。
此外,我们可以探索如何有效地整合时间戳嵌入,使大型视觉语言模型能够回答与时空关系相关的问题。