【论文笔记】Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining

基本信息

标题: Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining
作者: Benjia Zhou, Zhigang Chen, Albert Clapés, Jun Wan, Yanyan Liang, Sergio Escalera, Zhen Lei, Du Zhang
发表: ICCV 2023
arXiv: https://arxiv.org/abs/2307.14768

基本信息

摘要

手语翻译(SLT)由于其跨领域特性而是一项具有挑战性的任务,涉及将视觉手势语言翻译成文本。

许多先前的方法采用中间表示,即gloss序列,以促进SLT,从而将其转化为两个阶段任务:手语识别(SLR)随后是手语翻译(SLT)。

然而,gloss注释手语数据的稀缺性,加上中级gloss表示中的信息瓶颈,阻碍了SLT任务的进一步发展。

为了应对这一挑战,我们提出了一种基于视觉语言预训练的gloss-free SLT(GFSLT-VLP),通过继承预训练模型中的语言导向先验知识,无需任何gloss注释辅助来提高SLT。

我们的方法包括两个阶段:

  1. 将对比语言-图像预训练(CLIP)与掩码自监督学习相结合,创建预任务以弥合视觉和文本表示之间的语义差距并恢复掩码句子;
  2. 构建一个具有编码器-解码器结构端到端架构,从第一阶段继承预训练的视觉编码器和文本解码器的参数。

这些新颖设计的无缝结合形成了一种鲁棒的手语表示,并显著提高了gloss-free手语翻译。特别是,我们在PHOENIX14T数据集(≥+5)和CSL-Daily数据集(≥+3)上实现了前所未有的BLEU-4分数提升,与最先进的gloss-free SLT方法相比。

此外,我们的方法在与大多数gloss-based的方法相比时,在PHOENIX14T数据集上也取得了具有竞争力的结果。

主要贡献

  • 在这项工作中,我们未使用gloss注释,在SLT的BLEU-4评分上取得了前所未有的提升。具体来说,与最先进的gloss-free SLT方法相比,我们的方法在PHOENIX14T数据集和CSL-Daily数据集上分别实现了≥+5和≥+3的改进。我们相信,这些改进代表了gloss-free SLT任务中的一个重大突破。
  • 据我们所知,这是首次尝试将VLP策略引入到gloss-free的机器翻译任务中,以在联合语义空间中对齐视觉和文本表示。
  • 我们提出了一种新的预训练范式,该范式结合了掩码自监督学习和对比语言-图像预训练,以促进gloss-free SLT任务的实现。这种方法相较于先前的方法具有显著改进,并有望大幅提升SLT系统的准确性和效率。

方法

模型架构

模型架构

Gloss-free SLT Model & Vision Embedding layer

训练

训练

实验

主实验

Experimental results on PHOENIX14T dataset

Experimental results on CSL-Daily dataset

消融实验

Effect of VLP and data augmentation strategies

Investigating the impact of fine-tuning individual components within the Visual-Language-Pretrain (VLP) framework

Effect of longer training regimes

Analysis of the impact of model parameter size

Analyze the impact of freezing the Text Encoder during the pretraining stage

总结

在这项工作中,我们通过缩小视觉和文本表示之间的语义差距,为gloss-free SLT任务提出了一种新的视角,从而使我们能够从手语视频中学习语言指示的视觉表示。

为此,我们引入了一种新的预训练范式,该范式结合了掩码自监督学习和视觉语言监督学习。

我们的实验表明,数据规模和模型参数对该方法性能有显著影响。

虽然我们提出的预训练范式是实现gloss-free SLT的关键步骤,但我们承认还需要进一步的研究,尤其是在大规模SLT数据集(无词标注)上的预训练方面。

我们希望我们的工作能够激发该领域未来的研究。