【论文笔记】A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
【论文笔记】A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
小嗷犬基本信息
标题: A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
作者: Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin
发表: CVPR 2022
arXiv: https://arxiv.org/abs/2203.04287
摘要
本文提出了一种简单的迁移学习基线用于手语翻译。
现有的手语数据集(例如PHOENIX-2014T、CSL-Daily)仅包含约1万至2万对手语视频、gloss标注和文本,这比训练口语翻译模型的典型平行数据小一个数量级。
因此,数据成为训练有效手语翻译模型的瓶颈。为了缓解这个问题,我们提出从包含大量外部监督的通用领域数据集逐步预训练模型,直至领域内数据集。
具体来说,我们在人类动作的通用领域和gloss标注的领域内数据集上预训练手语到gloss的视觉网络,并在多语言语料库的通用领域和gloss到文本语料库的领域内预训练gloss到文本的翻译网络。
联合模型通过一个名为视觉语言映射器的额外模块进行微调,该模块连接两个网络。
这个简单基线在两个手语翻译基准测试中超越了之前的最先进结果,证明了迁移学习的有效性。凭借其简洁性和强大的性能,这种方法可以作为未来研究的一个坚实的基线。
方法
在Kinetics-400动作识别数据集和WLASL孤立手势识别数据集上预训练的S3D骨干网络。
实验
主实验
消融实验
总结
我们提出了一种简单而有效的多模态迁移学习基线,用于手语翻译。
为了缓解数据稀缺问题,我们通过逐步预训练视觉和语言模块,从通用领域到目标领域,利用大规模外部知识,包括人类动作和口语。
然后,这两个单独预训练的模块通过视觉语言映射器进行联合SLT训练。
在两个SLT数据集上的实验表明,我们的方法优于所有最先进的方法。
我们的方法可以应用于各种手语。
在未来工作中,我们希望使用这个框架将更多外部知识转移到SLT,以进一步提高。
我们希望我们的简单基线能够促进SLT未来的研究,并激励更多研究人员参与这个领域。