【论文笔记】CDFSL-V: Cross-Domain Few-Shot Learning for Videos

小嗷犬2024-12-292025-06-01

基本信息

标题: CDFSL-V: Cross-Domain Few-Shot Learning for Videos
作者: Sarinda Samarasinghe, Mamshad Nayeem Rizve, Navid Kardan, Mubarak Shah
发表: ICCV 2023
arXiv: https://arxiv.org/abs/2309.03989

摘要

少量样本视频动作识别是一种有效的方法，只需少量标记示例即可识别新类别，从而减少了收集和标注大规模视频数据集的挑战。

现有的视频动作识别方法依赖于同一领域的大型标记数据集。然而，这种设置并不现实，因为新类别可能来自不同的数据领域，这些领域可能具有不同的时空特征。源域和目标域之间的这种差异可能构成重大挑战，使传统的少量样本动作识别技术失效。

为了解决这个问题，在本工作中，我们提出了一种新的跨域少量样本视频动作识别方法，该方法利用自监督学习和课程学习来平衡源域和目标域的信息。

具体来说，我们的方法采用基于掩码自动编码器的自监督训练目标，以自监督的方式从源数据和目标数据中学习。然后，一个渐进式课程学习平衡了从源数据集中学习的判别信息与从目标域学习的一般信息。最初，我们的课程利用监督学习从源数据中学习类判别特征。随着训练的进行，我们转向学习目标域特定的特征。我们提出了一种渐进式课程，基于源域中的类判别监督特征，鼓励目标域中丰富特征的出现。

我们在几个具有挑战性的基准数据集上评估了我们的方法，并证明了我们的方法优于现有的跨域少量样本学习技术。

我们的代码可在https://github.com/Sarinda251/CDFSL-V上获取。

引言

左侧展示了图像域中现有的 CDFSL 基准。右侧展示了我们提出的视频域 CDFSL 基准。我们的基准包括来自不同目标数据集的任务，这些任务需要从不同的数据分布（UCF101、HMDB51）中识别新动作，需要强大的时间推理能力（SSV2），需要理解非典型动作（RareAct），以及需要精细的时间理解（Diving48）。

主要贡献

我们提出了一种新的、具有挑战性和现实性的问题，称为视频跨域小样本学习（CDFSL-V）。
我们针对这一挑战性问题提出了一种基于自监督特征学习和课程学习的新方法，该方法通过在学习和分类特征之间取得平衡，可以解决与 CDFSL-V 相关的困难。
我们在多个基准数据集上进行了广泛的实验。我们提出的方法在跨域小样本学习方面优于现有方法，以及基于迁移学习的强基线。

方法

本节详细阐述了我们在视频领域解决 CDFSL 问题的方法。我们的方法核心在于分别以监督和自监督的方式从源数据和目标数据中学习特征。此外，我们提出了一种渐进式课程，基于源域中的类别判别监督特征，以鼓励目标域中丰富特征的出现。

问题表述

跨域少样本视频分类任务要求对属于目标数据集 $\mathcal{D}_T$ 的未标记查询视频进行分类。

在训练过程中，有一个大型的已标记源数据集 $\mathcal{D}_S$ 可用。 $\mathcal{D}_S$ 和 $\mathcal{D}_T$ 没有共享类别，并且通常存在显著的领域差距。

$\mathcal{D}_T$ 的未标记训练分割在训练中被利用，记为 $\mathcal{D}_{TU}$ 。

为了评估，从 $\mathcal{D}_T$ 的测试分割中采样多个少样本集。这些集由一个小的已标记支持集 $\mathcal{S} \subset \mathcal{D}_T$ 组成，该支持集包含每个目标类别的少量已标记样本，以及一个与之不相交的查询集 $\mathcal{Q} \subset \mathcal{D}_T$ 用于分类。

在 $N$ -way $K$ -shot分类设置中， $\mathcal{Q}$ 和 $\mathcal{S}$ 共享从 $\mathcal{D}_T$ 中采样的相同的 $N$ 个类别，其中 $\mathcal{S}$ 每个类别有 $K$ 个标记示例。

方法实现

自监督特征学习

解决少样本问题的一个基本挑战是学习可泛化的表示。一个成功的表示学习方法基于自监督学习，因此它已被广泛应用于少样本学习问题。

尽管如此，它尚未应用于跨域少样本（CDFS）学习中。借鉴 VideoMAE 的成功经验，为了从视频数据中提取强大的表示，我们在预训练阶段应用了 VideoMAE 模型。

为此，从源数据集 $\mathcal{D}_S$ 和目标数据集的未标记集合 $\mathcal{D}_{TU}$ 的组合中提取了一组丰富的特征。

在这一步之后，利用来自 VideoMAE 的编码器模型 $f$ ，作为我们的主要特征提取器。

课程学习

接下来，在我们的框架中，我们进一步利用源数据的真实标签来提高提取特征的质量。

为此，我们在 $f$ 的基础上训练一个分类器 $g$ ，该分类器输出的类别数等于源域中的类别数。

以这种方式监督训练分类器使得自监督表示更加紧凑和类别区分性，特别是在源域中。

理想情况下，我们也希望在目标域中实现这一点。然而，在没有访问目标域的真实标签的情况下这样做是困难的。

为了克服这一挑战并更好地利用目标数据，我们最小化未标记目标样本的一致性损失。

这种一致性损失在源域的输出空间中被最小化，其中使用教师网络生成伪标签。

监督表示学习 为了从源数据集中提取判别性特征，我们首先基于标记的源数据上的监督损失训练一个学生模型 $f_s$ 。我们使用常用的交叉熵损失作为监督损失 $\mathcal{L}_{sup}$ ，定义如下：

\begin{split} \mathcal{L}_{sup} &= \mathcal{L}_{CE}(\text{Softmax}(f_s(\mathbf{x}_i)), \mathbf{y}_i) \\ &= - \sum_{i=1}^{M} \mathbf{y}_i \log(\text{Softmax}(f_s(\mathbf{x}_i))), \end{split}

其中， $\mathbf{x}_i \in \mathcal{D}_S$ ， $M = |\mathcal{D}_S|$ ，且 $\mathbf{y}_i$ 是真实标签。所学习到的判别性特征为我们提供了更可泛化的特征到目标域。

无监督表示学习 对于来自目标域的未标记数据，我们应用伪标签以无监督的方式提高所学特征的泛化能力。为此，在获得伪标签后，我们计算一致性损失。一致性损失确保学生模型的表示与教师网络的表示相匹配。我们通过以下方式创建教师模型 $f_t$ ：

f_t^{(i+1)} = \alpha f_t^{(i)} + (1 - \alpha) f_s^{(i+1)},

其中， $\alpha$ 是指数衰减参数， $i$ 指的是第 $i$ 次迭代。

这种一致性损失确保了学生模型 $f_s$ 对未标记目标数据的预测与从教师模型 $f_t$ 生成的伪标签相匹配。

此外，借鉴 DINO 的成功经验，我们希望提取能够学习数据之间局部到全局关系的特征。为此，每一批未标记的目标数据 $\mathbf{X} \in \mathcal{D}_{TU}$ 被转换为两个独立的集合，以生成强增强和弱增强的副本： $\mathbf{X}_{str}$ 和 $\mathbf{X}_{weak}$ 。