【论文笔记】Parameter-Efficient Transfer Learning for NLP

基本信息

标题: Parameter-Efficient Transfer Learning for NLP
作者: Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表: ICML 2019
arXiv: https://arxiv.org/abs/1902.00751

基本信息

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。

作为替代方案,我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变,从而实现了高度的参数共享。

为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中,包括GLUE基准。

适配器达到了接近最先进的性能,而每个任务仅添加少量参数。

在GLUE上,我们的性能与完全微调相差0.4%,每个任务仅添加3.6%的参数。

相比之下,微调为每个任务训练了100%的参数。

Trade-off between accuracy and number of trained taskspecific parameters, for adapter tuning and fine-tuning

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维,经过非线性函数再从低维恢复到高维,并带有残差连接。

微调时冻结其他参数,只微调Adapter Layer。

实验

Results on GLUE test sets scored using the GLUE evaluation server. MRPC and QQP are evaluated using F1 score

Test accuracy for additional classification tasks

Accuracy versus the number of trained parameters, aggregated across tasks

Validation set accuracy versus number of trained parameters for three methods

Validation accuracy versus the number of trained parameters for SQuAD v1.1

Figure 6