【论文笔记】Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining

小嗷犬2024-10-292025-02-09

基本信息

标题: Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining
作者: Benjia Zhou, Zhigang Chen, Albert Clapés, Jun Wan, Yanyan Liang, Sergio Escalera, Zhen Lei, Du Zhang
发表: ICCV 2023
arXiv: https://arxiv.org/abs/2307.14768

摘要

手语翻译（SLT）由于其跨领域特性而是一项具有挑战性的任务，涉及将视觉手势语言翻译成文本。

许多先前的方法采用中间表示，即gloss序列，以促进SLT，从而将其转化为两个阶段任务：手语识别（SLR）随后是手语翻译（SLT）。

然而，gloss注释手语数据的稀缺性，加上中级gloss表示中的信息瓶颈，阻碍了SLT任务的进一步发展。

为了应对这一挑战，我们提出了一种基于视觉语言预训练的gloss-free SLT（GFSLT-VLP），通过继承预训练模型中的语言导向先验知识，无需任何gloss注释辅助来提高SLT。

我们的方法包括两个阶段：

将对比语言-图像预训练（CLIP）与掩码自监督学习相结合，创建预任务以弥合视觉和文本表示之间的语义差距并恢复掩码句子；
构建一个具有编码器-解码器结构端到端架构，从第一阶段继承预训练的视觉编码器和文本解码器的参数。

这些新颖设计的无缝结合形成了一种鲁棒的手语表示，并显著提高了gloss-free手语翻译。特别是，我们在PHOENIX14T数据集（≥+5）和CSL-Daily数据集（≥+3）上实现了前所未有的BLEU-4分数提升，与最先进的gloss-free SLT方法相比。

此外，我们的方法在与大多数gloss-based的方法相比时，在PHOENIX14T数据集上也取得了具有竞争力的结果。

主要贡献

在这项工作中，我们未使用gloss注释，在SLT的BLEU-4评分上取得了前所未有的提升。具体来说，与最先进的gloss-free SLT方法相比，我们的方法在PHOENIX14T数据集和CSL-Daily数据集上分别实现了≥+5和≥+3的改进。我们相信，这些改进代表了gloss-free SLT任务中的一个重大突破。
据我们所知，这是首次尝试将VLP策略引入到gloss-free的机器翻译任务中，以在联合语义空间中对齐视觉和文本表示。
我们提出了一种新的预训练范式，该范式结合了掩码自监督学习和对比语言-图像预训练，以促进gloss-free SLT任务的实现。这种方法相较于先前的方法具有显著改进，并有望大幅提升SLT系统的准确性和效率。