原创学习笔记大模型论文笔记微调

【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation

发表于2024-11-10更新于2025-01-05

字数总计:528阅读时长:1分钟阅读量: 成都评论数:

AI-摘要

小嗷犬 GPT

AI初始化中...

介绍自己 🙈

生成本文简介 👋

推荐相关文章 📖

前往主页 🏠

前往爱发电购买

学习笔记大模型论文笔记微调

【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation

小嗷犬2024-11-102025-01-05

基本信息

标题: Prefix-Tuning: Optimizing Continuous Prompts for Generation
作者: Xiang Lisa Li, Percy Liang
发表: ACL 2021
arXiv: https://arxiv.org/abs/2101.00190

摘要

微调是利用大型预训练语言模型进行下游任务的事实上的方法。

然而，微调会修改所有语言模型参数，因此需要为每个任务存储一个完整副本。

在本文中，我们提出了Prefix-tuning，这是一种轻量级的自然语言生成任务微调替代方案，它保持语言模型参数冻结，并优化一系列连续的任务特定向量，我们称之为Prefix。

Prefix-tuning从语言模型的提示中汲取灵感，允许后续标记将此Prefix视为“虚拟token”。

我们将Prefix-tuning应用于GPT-2进行表格到文本生成，以及应用于BART进行摘要。

我们表明，通过仅修改0.1%的参数，Prefix-tuning在全数据设置中获得了可比的性能，在低数据设置中优于微调，并且更好地推广到训练期间未见过的主题示例。

全量微调（上方）更新所有LM参数（红色Transformer框）并需要为每个任务存储完整模型副本。我们提出Prefix-tuning（下方），冻结LM参数，仅优化Prefix（红色Prefix块）

Prefix-Tuning

实验

性能指标（除TER外，数值越高越好）用于E2E（左侧）、WebNLG（中间）和DART（右侧）的表格到文本生成。

（左）低数据环境中的定性示例。（右）前缀调整（橙色）在低数据机制中优于微调（蓝色），并且需要更少的参数。

XSUM摘要数据集上方法的性能。

XSUM上的外推性能。

XSUM上的外推性能。前缀长度与摘要（左）和表格到文本（右）的性能对比。

内嵌式和插入式的内在评估。

初始化前缀时，使用真实单词的激活效果显著优于随机初始化，尤其是在低数据集环境下。

数据效率曲线：训练集百分比与表格到文本（端到端）性能对比。

小嗷犬

分享技术，记录生活

原创【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation

打赏作者

感谢你赐予我前进的力量

WeChat Pay
Alipay

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

运营模式与责任

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自小嗷犬！

大模型44 论文笔记65 微调11

喜欢这篇文章的人也看了

【论文笔记】Direct Preference Optimization: Your Language Model is Secretly a Reward Model

【论文笔记】LoRA: Low-Rank Adaptation of Large Language Models

【论文笔记】LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

【论文笔记】NEFTune: Noisy Embeddings Improve Instruction Finetuning

【论文笔记】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

【论文笔记】Parameter-Efficient Transfer Learning for NLP

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果