基本信息 标题: The Power of Scale for Parameter-Efficient Prompt Tuning 作者: Brian Lester, Rami Al-Rfou, Noah Constant 发表: EMNLP 2021 arXiv: https://arxiv.org/abs/2104.08691 摘要 在这项工作中,我们探讨了“prompt tuning”,这是一种简单而有效的机制,用于学习“soft prompt”以条件化冻结的语言模型执行特定下游任务。 与GPT-3使用的离散文本提示不同,soft prompt是通过反向传播学习的,并且可以调整以包含来自任意数量token示例的信号。 我们端到端的学习方法在少样本学习方面优于GPT-3。 更令人惊讶的是,通过使用T5在模型大小上的消融实验,我们表明提示微调在规模上变得更加具有竞争力:当模型超过数十亿参数时,我们的方法缩小了差距并匹配了模型微调(所有模型权重都进行调整)的强大性能。 这一发现尤其相关,因为大型模型成本高昂且难以共享和部署,而能够重复使用一个冻结模型执行多个下游任务可以减轻这一负担。 ...
基本信息 标题: Parameter-Efficient Transfer Learning for NLP 作者: Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly 发表: ICML 2019 arXiv: https://arxiv.org/abs/1902.00751 摘要 参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。 然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。 作为替代方案,我们提出了带有适配器模块的迁移。 适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。 原始网络的参数保持不变,从而实现了高度的参数共享。 为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类 ...
基本信息 标题: Wings: Learning Multimodal LLMs without Text-only Forgetting 作者: Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye arXiv: https://arxiv.org/abs/2406.03496 摘要 多模态大型语言模型(MLLMs)以训练好的LLM为基础,首先将图像与文本对齐,然后对多模态混合输入进行微调。 然而,MLLM在灾难性地忘记了仅包含文本的指令,这些指令不包括图像,可以在初始LLM中解决。 在本文中,我们提出了WINGS,这是一种新型的MLLM,在纯文本对话和多模态理解方面都表现出色。 分析MLLM在多模态指令中的注意力发现,纯文本遗忘与从预图像文本到后图像文本的注意力转移有关。 据此,我们构建了额外的模块,作为增强学习器来补偿注意力转移。 互补的Visual Learner和Textual Learn ...
基本信息 标题: VCoder: Versatile Vision Encoders for Multimodal Large Language Models 作者: Jitesh Jain, Jianwei Yang, Humphrey Shi 发表: CVPR 2024 arXiv: https://arxiv.org/abs/2312.14233 GitHub: https://github.com/SHI-Labs/VCoder 摘要 人类拥有非凡的视觉感知能力,即看到并理解所见,这帮助他们理解视觉世界并推理。 多模态大型语言模型(MLLM)最近在视觉-语言任务上取得了令人印象深刻的成果,这些任务包括视觉问答、图像标题生成、视觉推理和图像生成。 然而,当被要求识别或计数(感知)给定图像中的实体时,现有的MLLM系统却失败了。 为了开发一个准确的多模态MLLM感知和推理系统,我们提出使用Versatile enCoder(VCoder)作为多模态MLLM的感知之眼。 我们将分割或深度图等感知模态输入到VCoder中,从而提高MLLM的感知能力。 我们利用COCO图像和现成视觉 ...
作者: 阮一峰 链接: https://www.ruanyifeng.com/blog/2019/10/tmux.html 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Tmux 是一个终端复用器(terminal multiplexer),非常有用,属于常用的开发工具。 本文介绍如何使用 Tmux。 一、Tmux 是什么? 1.1 会话与进程 命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。 会话的一个重要特点是,窗口与其中启动的进程是连在一起的。打开窗口,会话开始;关闭窗口,会话结束,会话内部的进程也会随之终止,不管有没有运行完。 一个典型的例子就是,SSH 登录远程计算机,打开一个远程窗口执行命令。这时,网络突然断线,再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。 为了解决这个问题,会话与窗口可以"解绑":窗口 ...
基本信息 标题: Dense Connector for MLLMs 作者: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang 发表: NeurIPS 2024 arXiv: https://arxiv.org/abs/2405.13800 摘要 我们是否充分利用了多模态大型语言模型(MLLMs)中视觉编码器的潜力?近期MLLMs在多模态理解方面的卓越表现引起了学术界和工业界的广泛关注。 在当前的MLLM竞赛中,焦点似乎主要集中在语言方面。 我们见证了更大规模、更高质量的指令数据集的出现,以及更大规模LLMs的参与。 然而,对MLLMs使用的视觉信号的关注却寥寥无几,这些信号通常被认为是冻结的视觉编码器提取的最终高级特征。 在本文中,我们介绍了Dense Connector——一个简单、有效且即插即用的视觉-语言连接器,通过利用多层视觉特征,以最小的额外计算开销显著提升了 ...
基本信息 标题: Attention Prompting on Image for Large Vision-Language Models 作者: Runpeng Yu, Weihao Yu, Xinchao Wang 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2409.17143 摘要 与大型语言模型(LLMs)相比,大型视觉语言模型(LVLMs)也能接受图像作为输入,从而展现出更多有趣的涌现能力,并在各种视觉语言任务上表现出令人印象深刻的表现。 受LLMs中的文本提示启发,视觉提示已被探索以增强LVLM感知视觉信息的能力。 然而,之前的视觉提示技术仅处理视觉输入,不考虑文本查询,限制了模型遵循文本指令完成任务的能力。 为了填补这一空白,在这项工作中,我们提出了一种名为Attention Prompting on Image(API)的新提示技术,它简单地在原始输入图像上叠加一个由文本查询引导的注意力热图,从而有效地增强了LVLM在各种任务上的表现。 具体来说,我们使用类似于CLIP的辅助模型根据文本查询生成输入图像的注意力热图。 然 ...
基本信息 标题: Token Turing Machines 作者: Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab 发表: CVPR 2023 arXiv: https://arxiv.org/abs/2211.09119 摘要 我们提出了一种Token图灵机(TTM),这是一种具有记忆功能的顺序自回归Transformer模型,用于现实世界的顺序视觉理解。 我们的模型受到开创性的神经图灵机的启发,并具有一个外部记忆,由一组总结先前历史(即帧)的标记组成。 这个记忆通过在每个步骤使用Transformer作为处理单元/控制器来高效地寻址、读取和写入。 模型的记忆模块确保新的观察结果只与记忆内容(而不是整个历史)进行处理,这意味着它可以高效地处理长序列,并在每个步骤保持有限的计算成本。 我们表明,在两个现实世界的顺序视觉理解任务上,TTM优于其他替代方案,例如为 ...
基本信息 标题: Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining 作者: Benjia Zhou, Zhigang Chen, Albert Clapés, Jun Wan, Yanyan Liang, Sergio Escalera, Zhen Lei, Du Zhang 发表: ICCV 2023 arXiv: https://arxiv.org/abs/2307.14768 摘要 手语翻译(SLT)由于其跨领域特性而是一项具有挑战性的任务,涉及将视觉手势语言翻译成文本。 许多先前的方法采用中间表示,即gloss序列,以促进SLT,从而将其转化为两个阶段任务:手语识别(SLR)随后是手语翻译(SLT)。 然而,gloss注释手语数据的稀缺性,加上中级gloss表示中的信息瓶颈,阻碍了SLT任务的进一步发展。 为了应对这一挑战,我们提出了一种基于视觉语言预训练的gloss-free SLT(GFSLT-VLP),通过继承预训练模型中的语言导向先验知识,无需任何gloss ...
学习笔记
未读基本信息 标题: C2^22RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval 作者: Zhigang Chen, Benjia Zhou, Yiqing Huang, Jun Wan, Yibo Hu, Hailin Shi, Yanyan Liang, Zhen Lei, Du Zhang arXiv: https://arxiv.org/abs/2408.09949 摘要 手语表示学习(SLRL)对于一系列与手语相关的下游任务至关重要,如手语翻译(SLT)和手语检索(SLRet)。 最近,许多gloss-based和gloss-free的SLRL方法被提出,显示出有希望的性能。 其中,gloss-free的方法在无需依赖gloss的情况下展现出强大的可扩展性。 然而,由于在编码手语视频复杂、上下文敏感的特征方面存在挑战,目前它面临着次优解,主要是在使用非单调的视频-文本对齐策略时难以辨别关键的手语特征。 因此,本文提出了一种新 ...