【论文笔记】CoSign: Exploring Co-occurrence Signals in Skeleton-based Continuous Sign Language Recognition

基本信息

标题: CoSign: Exploring Co-occurrence Signals in Skeleton-based Continuous Sign Language Recognition
作者: Peiqi Jiao, Yuecong Min, Yanan Li, Xiaotao Wang, Lei Lei, Xilin Chen
发表: ICCV 2023

基本信息

摘要

共现信号(例如手势、面部表情和唇形模式)在连续手语识别(CSLR)中起着至关重要的作用。

与RGB数据相比,骨架数据提供了一种更高效、更简洁的表示形式,为CSLR中共现信号的探索奠定了良好的基础。

然而,骨架数据通常仅作为辅助视觉定位的工具,未能获得足够的关注。
在本文中,我们提出了一种简单但有效的基于GCN(图卷积网络)的方法,称为CoSign,用于整合共现信号并探索骨架数据在CSLR中的潜力。

具体来说,我们提出了一种面向组的GCN,以更好地利用每种信号的知识,并通过一种互补的正则化方法来防止信号间复杂的共适应。

此外,我们提出了一种双流框架,逐步融合骨架数据中的静态和动态信息。

在三个公开的CSLR数据集(PHOENIX14、PHOENIX14-T和CSL-Daily)上的实验结果表明,所提出的CoSign在计算成本更低的情况下,与最近的基于视频的方法相比,达到了具有竞争力的性能。

介绍

Two examples of signs, EUROPA (Europe, the upper) and UNWETTER (storm, the lower), from PHOENIX14 dataset

图1显示了来自PHOENIX14数据集的两个手语示例,分别是EUROPA(欧洲,上方)和UNWETTER(风暴,下方)。SignWriting 条目(词汇符号)位于图像的左下角,出现的信号(B、RH、LH、M和F分别代表身体、右手、左手、嘴和脸)标记在图像的左侧。EUROPA主要通过嘴、右手和身体进行表达,而几乎所有的信号都在UNWETTER中出现了。

主要贡献

  • 探索骨架数据在连续手语识别(CSLR)中的潜力,并将关键点归因于对共现信号的利用。
  • 提出一种面向组的GCN(图卷积网络),独立地利用手语中每种信号的知识。
  • 提出一种互补的正则化方法,用于处理噪声骨架输入以及信号之间的共适应问题。
  • 设计了一种双流框架,逐步融合骨架数据中的静态和动态信息。

方法

在本节中,我们首先介绍所提出的单流方法(CoSign-1s),以探索骨架数据中共现信号的潜力,该方法包括一个面向组的GCN和一种互补的正则化方法。然后,我们进一步设计了一种双流框架,命名为CoSign-2s,用于探索融合骨架和运动序列潜力的方法。

背景

基于骨架的CSLR模型旨在学习骨架序列J={J1,,JT}J = \{J_1, \cdots, J_T\} 与对应的词汇序列l={l1,,lN}l = \{l_1, \cdots, l_N\} 之间的单调对齐关系。每一帧骨架包含KK 个关键点Ji={Ji,kR2k=1,,K}J_i = \{J_{i,k} \in \mathbb{R}^2 | k = 1, \cdots, K\}。类似于基于视频的CSLR框架,我们设计了一种面向组的GCN,用于提取每种信号的逐帧特征。随后,通过一个1D CNN层聚合局部特征以捕获词汇层级的特征。我们采用双层BiLSTM来学习长期依赖关系,并利用CTC损失通过动态规划提供对预测y={y1,,yT}y = \{y_1, \cdots, y_T\} 的监督:

LCTC(y)=logp(ly)=logπB1(l)p(πy)L_{\text{CTC}}(y) = -\log p(l|y) = -\log \sum_{\pi \in \mathcal{B}^{-1}(l)} p(\pi|y)

其中,B\mathcal{B} 是预测与标签之间的多对一映射,而π\pi 是一个可行的对齐路径。

单流CoSign

我们CoSign-1s的整体结构如图2所示,由一个面向组的GCN、一个上下文模块以及一个互补的正则化组成。

The framework of CoSign-1s, which contains a group-specific GCN, a contextual module and complementary regularization

面向组的GCN

大多数最近的CSLR数据集仅提供视频数据。为了获取骨架数据,我们使用了一个现成的估计器(MMPose)从手语视频的每一帧中提取全身关键点。为了平衡效率并利用面向组的知识,我们通过经验选择了77个关键点,并将它们分成五组,如图2所示:身体9个关键点,每只手21个,嘴部8个,面部18个(分别表示为GB,GRH,GLH,GM,GFG_B, G_{RH}, G_{LH}, G_M, G_F)。然后,我们应用组特定的中心化方法,以进一步解耦骨架数据中多粒度的运动信息,该方法通过在每个时间点对齐各组的根关键点来实现:

Jt,k=Jt,kJt,r(g),kGgJ_{t,k} = J_{t,k} - J_{t,r(g)}, \, k \in G_g

其中,r(g)r(g) 表示组gg 的根关键点的索引。

为了利用关键点组中的组特定知识,我们设计了四个GCN模块,其中左手和右手共享一个模块。由于其强大的建模能力和轻量级结构,ST-GCN 被选为每个模块的基本构建单元。基本的ST-GCN层由一个空间图卷积和一个时间卷积组成。对于组gg 的关键点,空间特征通过一个基于组特定的邻接矩阵AgA_g 进行聚合,该邻接矩阵是根据人体解剖学连接组gg 中的空间相邻关键点构建的。组gg 的关键点的空间图卷积操作可表示为:

fout(t,g)=kΛg,k12Ag,kΛg,k12fin(t,g)Wkf_{\text{out}}(t, g) = \sum_k \Lambda_{g,k}^{-\frac{1}{2}} A_{g,k} \Lambda_{g,k}^{-\frac{1}{2}} f_{\text{in}}(t, g) W_k

其中,fin(t,g)f_{\text{in}}(t, g) 表示时间步tt 时组gg 中所有关键点的输入特征向量。Λg,kii=jAg,kij+ϵ\Lambda_{g,k}^{ii} = \sum_j A_{g,k}^{ij} + \epsilon 是标准化对角矩阵,ϵ=0.001\epsilon = 0.001 用于避免Ag,kA_{g,k} 的空行。我们采用距离分区策略(例如k=2,A0=I,A1=Ak = 2, A_0 = I, A_1 = A),并且WkW_k 是分区kk 的权重矩阵。

ST-GCN 层通过具有核大小为1×Γ1 \times \Gamma 的标准 2D 卷积,在时间窗口Γ\Gamma 内跨帧聚合相同关键点的特征,这有助于改进不准确的估计。由于预定义的空间图可能并非最优,邻接矩阵AgA_g 是可参数化的,并可以在训练过程中进一步优化,从而有助于学习图中关键点之间的隐式相关性。

最终的基于分组的 GCN 包括一个共享的线性层,用于将关键点的坐标映射到特征空间,以及四个模块,用于从五个关键点分组中捕获分组特定的表示。每个模块包含三个 ST-GCN 层。不同分组的输出特征通过 MLP 层融合,以生成帧级特征。

上下文模块由 1D CNN 和 BiLSTM 层组成,用于融合时间信息并进行预测。

互补正则化

尽管独立地对每个分组进行建模可以更好地利用分组特定的知识,但仍然面临减少估计噪声影响和防止信号间复杂协同适应的挑战。为了解决连续手语识别(CSLR)中的共现问题,我们提出了一种互补正则化方法,旨在通过两个互补信号子集的预测一致性来进行约束。

当通过不同信号传递相同信息时,较弱的信号可能会被忽略。受丢弃法(dropout)方法的启发,我们提出了一种分组丢弃机制,用于更好地利用具有不同强度的信号。具体而言,对于分组特定的 GCN 的输出vRT×N×Cin\mathbf{v} \in \mathbb{R}^{T \times N \times C_{in}},其中NN 表示分组数量,定义了相应的丢弃掩码ξRT×N\xi \in \mathbb{R}^{T \times N},并将其分为[T/τ]×N[T / \tau] \times N 段,每段具有预定义的长度τ\tau。每段的丢弃掩码从伯努利分布B(p)B(p) 独立采样。然后,将丢弃掩码ξ\xi 扩展到ξRT×N×Cin\xi \in \mathbb{R}^{T \times N \times C_{in}},其维度与分组特征v\mathbf{v} 相同。我们将扩展后的掩码应用于分组特征v\mathbf{v},并通过融合 MLP 层H\mathcal{H} 得到帧级特征v~RT×Cout\tilde{\mathbf{v}} \in \mathbb{R}^{T \times C_{out}},公式如下:

v~=H(ξv)\tilde{\mathbf{v}} = \mathcal{H}(\xi \odot \mathbf{v})

其中\odot 表示 Hadamard 乘积,ξv\xi \odot \mathbf{v} 的结果被重新调整形状为(T,NCin)(T, N C_{in})

组特定的GCN(图卷积网络)和组丢弃的结合提供了一种简单的方法,用于控制CSLR(连续手语识别)中参与的信号。受到R-Drop一致性正则化设计的启发,我们进一步提出了一种互补正则化方法,以探索CSLR中的共现关系。具体来说,我们首先生成一个从B(2p)B(2p) 中采样的丢弃掩码ξ\xi,然后将其平均分成两个互补的掩码ϕ\phiϕ\overline{\phi}。如图2所示,组特征通过互补掩码ϕ\phiϕ\overline{\phi} 被两次送入上下文模块,并从分类器CC 中得到两个预测(分别记为PϕC\mathcal{P}^C_\phiPϕC\mathcal{P}^C_{\overline{\phi}})。互补正则化被定义为这两个预测之间对称的Kullback-Leibler散度:

LCR(PϕC,PϕC)=12DKL(PϕCPϕC)+12DKL(PϕCPϕC)\mathcal{L}_{CR}(\mathcal{P}^C_\phi, \mathcal{P}^C_{\overline{\phi}}) = \frac{1}{2} D_{KL}(\mathcal{P}^C_\phi || \mathcal{P}^C_{\overline{\phi}}) + \frac{1}{2} D_{KL}(\mathcal{P}^C_{\overline{\phi}} || \mathcal{P}^C_\phi)

提出的互补正则化的直观意义很简单:使用互补掩码可以消除重复的子集并减少捷径解法;而正则化鼓励来自不同信号的预测一致性,这可以使模型对噪声更具鲁棒性。

监督

正如先前研究所示,采用辅助损失(auxiliary loss)可以缓解过拟合问题,因此我们在1D CNN层之后附加了一个辅助分类器,以提供监督给组特定的GCN。此外,我们对分类器和特征向量的权重矩阵进行了归一化处理,并将主分类器M\mathcal{M} 与辅助分类器A\mathcal{A} 的权重矩阵共享,如同先前的研究所做的一样。

识别损失LSLR\mathcal{L}_{SLR} 由两个CTC损失组成,这些损失分别应用于辅助预测PA\mathcal{P}^A 和最终预测PM\mathcal{P}^M

LSLR1s(ϕ)=LCTC(PϕA)+LCTC(PϕM)\mathcal{L}_{SLR-1s}(\phi) = \mathcal{L}_{CTC}(\mathcal{P}^A_\phi) + \mathcal{L}_{CTC}(\mathcal{P}^M_\phi)

其中,预测P\mathcal{P} 的上标表示生成预测的分类器,下标表示所应用的掩码。

当我们将v\mathbf{v} 两次输入到上下文模块时,使用不同的掩码,会计算两种识别损失。CoSign-1s的最终损失可表述为:

L=12LSLR1s(ϕ)+12LSLR1s(ϕ)+αLCR(PϕA,PϕA)+βLCR(PϕM,PϕM)\mathcal{L} = \frac{1}{2} \mathcal{L}_{SLR-1s}(\phi) + \frac{1}{2} \mathcal{L}_{SLR-1s}(\overline{\phi}) + \alpha \mathcal{L}_{CR}(\mathcal{P}^A_\phi, \mathcal{P}^A_{\overline{\phi}}) + \beta \mathcal{L}_{CR}(\mathcal{P}^M_\phi, \mathcal{P}^M_{\overline{\phi}})

其中,α\alphaβ\beta 表示辅助预测和主要预测中互补正则化损失的权重。

双流 CoSign

静态和动态信息在CSLR(连续手语识别)中都起着关键作用。我们认为,相比仅依赖于组特定GCN中的时间卷积层,直接对它们进行建模更加高效。因此,我们通过计算两个连续帧之间的坐标差,获得关键点Jt,kJ_{t,k} 的双向运动Mt,kM_{t,k}

Mt,k=[Jt,kJt1,k,Jt+1,kJt,k]M_{t,k} = [J_{t,k} - J_{t-1,k}, J_{t+1,k} - J_{t,k}]

其中,[,][\cdot, \cdot] 表示拼接操作。

为了充分利用两个流的中间表示,我们提出了一种双流框架,该框架由三个分支组成(分别称为骨架分支、运动分支和融合分支),每个分支都包含一个组特定GCN(分别记为FsF_sFmF_mFfF_f)。

The structure of two-stream CoSign

如图3所示,骨架分支和运动分支分别独立地处理骨架序列JJ 和运动序列MM。融合分支逐步整合来自两个流的中间特征。与CoSign-1s类似,来自融合分支的组特征被融合到帧级特征中,并进一步送入上下文模块以获得最终的预测。

由于CoSign-2s的容量增加以及各分支的收敛速度不同,我们首先独立地使用LSLR1s(ϕ)\mathcal{L}_{SLR-1s}(\phi) 对基于骨架和运动的CoSign-1s进行了数个周期的预训练。之后,我们加载相应分支的预训练权重,并开始对CoSign-2s进行训练。

LSLR1s(ϕ)\mathcal{L}_{SLR-1s}(\phi) 中的监督方式被应用于CoSign-2s的训练,但进行了轻微的修改。我们在骨架和运动分支上附加了两个辅助分类器(分别记为AsA_sAmA_m,如图3所示),并在每个分支中采用了分组丢弃(group dropout)。对于丢弃掩码ϕ\phi,CoSign-2s的识别损失定义为:

LSLR2s(ϕ)=LCTC(PϕAf)+LCTC(PϕMf)+λ(LCTC(PϕAs)+LCTC(PϕAm))\mathcal{L}_{SLR-2s}(\phi) = \mathcal{L}_{CTC}(\mathcal{P}^{A_f}_\phi) + \mathcal{L}_{CTC}(\mathcal{P}^{M_f}_\phi) + \lambda \left( \mathcal{L}_{CTC}(\mathcal{P}^{A_s}_\phi) + \mathcal{L}_{CTC}(\mathcal{P}^{A_m}_\phi) \right)

其中,λ\lambda 是骨架和运动分支的损失权重,AfA_fmathcalMfmathcal{M}_f 分别表示融合分支的辅助分类器和主分类器。

与单流方法类似,我们在所有分支的组特征上应用了互补掩码ϕ\phiϕ\overline{\phi},但为了简化,仅在融合分支上应用互补正则化。总损失的形式与前文类似:

L=12LSLR2s(ϕ)+12LSLR2s(ϕ)+αLCR(PϕAf,PϕAf)+βLCR(PϕMf,PϕMf)\mathcal{L} = \frac{1}{2} \mathcal{L}_{SLR-2s}(\phi) + \frac{1}{2} \mathcal{L}_{SLR-2s}(\overline{\phi}) + \alpha \mathcal{L}_{CR}(\mathcal{P}^{A_f}_\phi, \mathcal{P}^{A_f}_{\overline{\phi}}) + \beta \mathcal{L}_{CR}(\mathcal{P}^{M_f}_\phi, \mathcal{P}^{M_f}_{\overline{\phi}})

其中,α\alphaβ\beta 表示辅助预测和主要预测中互补正则化损失的权重。

实验

主实验

Performance comparison (WER, %) on PHOENIX14/14-T and CSL-Daily

Efficiency comparison on PHOENIX14 without pose estimation stage taking into account

Performance comparison (WER, %) under PHOENIX14SI setting

消融实验

Ablation results (WER, %) of group-specific GCN

Ablation results (WER, %) of clip length in dropout mask

Ablation results (WER, %) of complementary regularization

Visualization of sign examples

Comparison (WER, %) of different signals with different finetuned models

Comparison (WER, %) with simulated estimation noise on PHOENIX14 Dev set

总结

在本研究中,我们关注骨架数据在连续手语识别(CSLR)中的利用,并将关键归因于共现信号的使用。

为了探索骨架数据的潜力,我们采用了两种技术:第一,特定组的图卷积网络(GCN)旨在独立地挖掘每个信号的知识;第二,互补正则化用于处理信号间的协同适应以及来自噪声骨架输入的影响。

此外,我们设计了一种双流框架,将来自骨架和运动序列的静态和动态信息进行融合。

实验结果表明,我们的CoSign方法能够与基于视频的方法实现有竞争力的性能,并证明了建模共现信号的有效性,同时减少了由估计噪声和信号间协同适应引起的影响。

除了性能表现之外,我们的CoSign模型还具有训练友好性,计算量(FLOPs)更少,模型规模更小。

我们希望我们的方法能够为CSLR中共现信号的进一步研究提供启发,并推动基于骨架的CSLR方法的发展。