【论文笔记】CDFSL-V: Cross-Domain Few-Shot Learning for Videos

基本信息

标题: CDFSL-V: Cross-Domain Few-Shot Learning for Videos
作者: Sarinda Samarasinghe, Mamshad Nayeem Rizve, Navid Kardan, Mubarak Shah
发表: ICCV 2023
arXiv: https://arxiv.org/abs/2309.03989

基本信息

摘要

少量样本视频动作识别是一种有效的方法,只需少量标记示例即可识别新类别,从而减少了收集和标注大规模视频数据集的挑战。

现有的视频动作识别方法依赖于同一领域的大型标记数据集。然而,这种设置并不现实,因为新类别可能来自不同的数据领域,这些领域可能具有不同的时空特征。源域和目标域之间的这种差异可能构成重大挑战,使传统的少量样本动作识别技术失效。

为了解决这个问题,在本工作中,我们提出了一种新的跨域少量样本视频动作识别方法,该方法利用自监督学习和课程学习来平衡源域和目标域的信息。

具体来说,我们的方法采用基于掩码自动编码器的自监督训练目标,以自监督的方式从源数据和目标数据中学习。然后,一个渐进式课程学习平衡了从源数据集中学习的判别信息与从目标域学习的一般信息。最初,我们的课程利用监督学习从源数据中学习类判别特征。随着训练的进行,我们转向学习目标域特定的特征。我们提出了一种渐进式课程,基于源域中的类判别监督特征,鼓励目标域中丰富特征的出现。

我们在几个具有挑战性的基准数据集上评估了我们的方法,并证明了我们的方法优于现有的跨域少量样本学习技术。

我们的代码可在https://github.com/Sarinda251/CDFSL-V上获取。

引言

On the left, we have the existing benchmark for CDFSL in the image domain

左侧展示了图像域中现有的 CDFSL 基准。右侧展示了我们提出的视频域 CDFSL 基准。我们的基准包括来自不同目标数据集的任务,这些任务需要从不同的数据分布(UCF101、HMDB51)中识别新动作,需要强大的时间推理能力(SSV2),需要理解非典型动作(RareAct),以及需要精细的时间理解(Diving48)。

主要贡献

  • 我们提出了一种新的、具有挑战性和现实性的问题,称为视频跨域小样本学习(CDFSL-V)。
  • 我们针对这一挑战性问题提出了一种基于自监督特征学习和课程学习的新方法,该方法通过在学习和分类特征之间取得平衡,可以解决与 CDFSL-V 相关的困难。
  • 我们在多个基准数据集上进行了广泛的实验。我们提出的方法在跨域小样本学习方面优于现有方法,以及基于迁移学习的强基线。

方法

本节详细阐述了我们在视频领域解决 CDFSL 问题的方法。我们的方法核心在于分别以监督和自监督的方式从源数据和目标数据中学习特征。此外,我们提出了一种渐进式课程,基于源域中的类别判别监督特征,以鼓励目标域中丰富特征的出现。

问题表述

跨域少样本视频分类任务要求对属于目标数据集DT\mathcal{D}_T 的未标记查询视频进行分类。

在训练过程中,有一个大型的已标记源数据集DS\mathcal{D}_S 可用。DS\mathcal{D}_SDT\mathcal{D}_T 没有共享类别,并且通常存在显著的领域差距。

DT\mathcal{D}_T 的未标记训练分割在训练中被利用,记为DTU\mathcal{D}_{TU}

为了评估,从DT\mathcal{D}_T 的测试分割中采样多个少样本集。这些集由一个小的已标记支持集SDT\mathcal{S} \subset \mathcal{D}_T 组成,该支持集包含每个目标类别的少量已标记样本,以及一个与之不相交的查询集QDT\mathcal{Q} \subset \mathcal{D}_T 用于分类。

NN-wayKK-shot分类设置中,Q\mathcal{Q}S\mathcal{S} 共享从DT\mathcal{D}_T 中采样的相同的NN 个类别,其中S\mathcal{S} 每个类别有KK 个标记示例。

方法实现

Our goal is to solve the cross-domain few-shot learning task for the target dataset, leveraging the labeled base dataset alongside unlabeled target data

自监督特征学习

解决少样本问题的一个基本挑战是学习可泛化的表示。一个成功的表示学习方法基于自监督学习,因此它已被广泛应用于少样本学习问题。

尽管如此,它尚未应用于跨域少样本(CDFS)学习中。借鉴 VideoMAE 的成功经验,为了从视频数据中提取强大的表示,我们在预训练阶段应用了 VideoMAE 模型。

为此,从源数据集DS\mathcal{D}_S 和目标数据集的未标记集合DTU\mathcal{D}_{TU} 的组合中提取了一组丰富的特征。

在这一步之后,利用来自 VideoMAE 的编码器模型ff,作为我们的主要特征提取器。

课程学习

接下来,在我们的框架中,我们进一步利用源数据的真实标签来提高提取特征的质量。

为此,我们在ff 的基础上训练一个分类器gg,该分类器输出的类别数等于源域中的类别数。

以这种方式监督训练分类器使得自监督表示更加紧凑和类别区分性,特别是在源域中。

理想情况下,我们也希望在目标域中实现这一点。然而,在没有访问目标域的真实标签的情况下这样做是困难的。

为了克服这一挑战并更好地利用目标数据,我们最小化未标记目标样本的一致性损失。

这种一致性损失在源域的输出空间中被最小化,其中使用教师网络生成伪标签。

监督表示学习 为了从源数据集中提取判别性特征,我们首先基于标记的源数据上的监督损失训练一个学生模型fsf_s。我们使用常用的交叉熵损失作为监督损失Lsup\mathcal{L}_{sup},定义如下:

Lsup=LCE(Softmax(fs(xi)),yi)=i=1Myilog(Softmax(fs(xi))),\begin{split} \mathcal{L}_{sup} &= \mathcal{L}_{CE}(\text{Softmax}(f_s(\mathbf{x}_i)), \mathbf{y}_i) \\ &= - \sum_{i=1}^{M} \mathbf{y}_i \log(\text{Softmax}(f_s(\mathbf{x}_i))), \end{split}

其中,xiDS\mathbf{x}_i \in \mathcal{D}_SM=DSM = |\mathcal{D}_S|,且yi\mathbf{y}_i 是真实标签。所学习到的判别性特征为我们提供了更可泛化的特征到目标域。

无监督表示学习 对于来自目标域的未标记数据,我们应用伪标签以无监督的方式提高所学特征的泛化能力。为此,在获得伪标签后,我们计算一致性损失。一致性损失确保学生模型的表示与教师网络的表示相匹配。我们通过以下方式创建教师模型ftf_t

ft(i+1)=αft(i)+(1α)fs(i+1),f_t^{(i+1)} = \alpha f_t^{(i)} + (1 - \alpha) f_s^{(i+1)},

其中,α\alpha 是指数衰减参数,ii 指的是第ii 次迭代。

这种一致性损失确保了学生模型fsf_s 对未标记目标数据的预测与从教师模型ftf_t 生成的伪标签相匹配。

此外,借鉴 DINO 的成功经验,我们希望提取能够学习数据之间局部到全局关系的特征。为此,每一批未标记的目标数据XDTU\mathbf{X} \in \mathcal{D}_{TU} 被转换为两个独立的集合,以生成强增强和弱增强的副本:Xstr\mathbf{X}_{str}Xweak\mathbf{X}_{weak}

具体来说,我们使用时间一致的 RandomResizeCrop 和 RandomHorizontalFlip 作为弱增强集,而强增强集除了包含弱增强集外,还包括时间一致的 RandomColorJitter、RandomGreyscale 和 RandomGaussianBlur。

为了计算一致性损失,首先将弱增强的未标记目标数据通过教师模型以获得教师输出ft(Xweak)f_t(\mathbf{X}_{weak})

这些输出在执行 Softmax 操作后通过温度τ\tau 进行锐化,从而为目标数据形成伪标签。一致性损失是强增强视频的学生输出fs(Xstr)f_s(\mathbf{X}_{str}) 与锐化的教师输出之间的交叉熵损失,定义如下:

Lcon=Y^log(Softmax(fs(Xstr))),\mathcal{L}_{con} = - \sum \hat{\mathbf{Y}} \log(\text{Softmax}(f_s(\mathbf{X}_{str}))),

其中,Y^=Softmax(ft(Xweak)/τ)\hat{\mathbf{Y}} = \text{Softmax}(f_t(\mathbf{X}_{weak}) / \tau)

更新学生网络参数的总体训练目标是监督损失和一致性损失的加权平均,定义如下:

Ltotal=Lsup+λLcon,\mathcal{L}_{total} = \mathcal{L}_{sup} + \lambda \mathcal{L}_{con},

其中,一致性损失缩放参数λ\lambda 控制一致性损失对总损失的相对贡献。

虽然之前的 CDFS 方法都应用了监督损失和一致性损失,但它们是在不同的阶段应用的。我们方法的一个独特之处在于通过课程学习将这两种损失结合起来,这不仅简化了训练流程,还提高了性能。

在我们的课程中,我们通过调整一致性损失的缩放参数λ\lambda 来调节其难度,遵循预定义的课程。

具体来说,在训练开始时,我们将一致性损失的缩放参数λ\lambda 设置为一个非常低的值。这使得训练的开始类似于仅在源数据集上进行监督训练。

随着训练的进行,我们通过在整个训练过程中增加λ\lambda 来强调一致性的的重要性,这鼓励了局部到全局特征的出现,这些特征可能在目标域中具有更好的泛化能力。

此外,为了促进从源域到目标域的过渡,我们在整个训练过程中衰减学生模型中分类器的学习率。

最初,该分类器以与学生模型其余部分相同的速度进行训练。这个学习率在整个训练过程中逐渐降低,以模拟在源数据上进行监督训练后冻结分类器的效果。

一旦训练完成,保留学生模型并丢弃分类器。使用目标数据的标记支持集,在学生模型的基础上学习一个新的逻辑回归层cc'

现在可以使用该模型对目标查询图像进行推理。整个过程总结在算法 1 中。

Algorithm 1 Curriculum Learning for CDFSL-V

实验

主实验

5-way 5-shot Accuracy using Kinetics-400 as the source dataset

消融实验

Results with varying size of source data

The effect of removing different components of our proposed method

Temperature parameter experiments

总结

在这篇论文中,我们解决了视频中的跨域少样本动作识别问题,这是一个具有挑战性和现实意义的问题,在机器人等领域有许多实际应用。

我们提出了一种基于自监督特征学习和课程学习的新方法来应对这一问题的挑战。我们的方法在学习通用特征和类别区分特征之间取得了平衡,显著提高了少样本动作识别的性能。

我们在各种基准数据集上进行了广泛实验,结果表明我们提出的方法在图像域和视频域的跨域少样本学习方法中均优于当前的方法。

我们的工作通过引入一个新的问题并提供一种新颖的解决方案,为计算机视觉社区做出了贡献。

我们希望这项工作能够激发更多在这方面的研究,并帮助推动少样本动作识别领域的前沿进展。