基本信息 标题: VCoder: Versatile Vision Encoders for Multimodal Large Language Models 作者: Jitesh Jain, Jianwei Yang, Humphrey Shi 发表: CVPR 2024 arXiv: https://arxiv.org/abs/2312.14233 GitHub: https://github.com/SHI-Labs/VCoder 摘要 人类拥有非凡的视觉感知能力,即看到并理解所见,这帮助他们理解视觉世界并推理。 多模态大型语言模型(MLLM)最近在视觉-语言任务上取得了令人印象深刻的成果,这些任务包括视觉问答、图像标题生成、视觉推理和图像生成。 然而,当被要求识别或计数(感知)给定图像中的实体时,现有的MLLM系统却失败了。 为了开发一个准确的多模态MLLM感知和推理系统,我们提出使用Versatile enCoder(VCoder)作为多模态MLLM的感知之眼。 我们将分割或深度图等感知模态输入到VCoder中,从而提高MLLM的感知能力。 我们利用COCO图像和现成视觉 ...
作者: 阮一峰 链接: https://www.ruanyifeng.com/blog/2019/10/tmux.html 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Tmux 是一个终端复用器(terminal multiplexer),非常有用,属于常用的开发工具。 本文介绍如何使用 Tmux。 一、Tmux 是什么? 1.1 会话与进程 命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。 会话的一个重要特点是,窗口与其中启动的进程是连在一起的。打开窗口,会话开始;关闭窗口,会话结束,会话内部的进程也会随之终止,不管有没有运行完。 一个典型的例子就是,SSH 登录远程计算机,打开一个远程窗口执行命令。这时,网络突然断线,再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。 为了解决这个问题,会话与窗口可以"解绑":窗口 ...
基本信息 标题: Dense Connector for MLLMs 作者: Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang 发表: NeurIPS 2024 arXiv: https://arxiv.org/abs/2405.13800 摘要 我们是否充分利用了多模态大型语言模型(MLLMs)中视觉编码器的潜力?近期MLLMs在多模态理解方面的卓越表现引起了学术界和工业界的广泛关注。 在当前的MLLM竞赛中,焦点似乎主要集中在语言方面。 我们见证了更大规模、更高质量的指令数据集的出现,以及更大规模LLMs的参与。 然而,对MLLMs使用的视觉信号的关注却寥寥无几,这些信号通常被认为是冻结的视觉编码器提取的最终高级特征。 在本文中,我们介绍了Dense Connector——一个简单、有效且即插即用的视觉-语言连接器,通过利用多层视觉特征,以最小的额外计算开销显著提升了 ...
基本信息 标题: Attention Prompting on Image for Large Vision-Language Models 作者: Runpeng Yu, Weihao Yu, Xinchao Wang 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2409.17143 摘要 与大型语言模型(LLMs)相比,大型视觉语言模型(LVLMs)也能接受图像作为输入,从而展现出更多有趣的涌现能力,并在各种视觉语言任务上表现出令人印象深刻的表现。 受LLMs中的文本提示启发,视觉提示已被探索以增强LVLM感知视觉信息的能力。 然而,之前的视觉提示技术仅处理视觉输入,不考虑文本查询,限制了模型遵循文本指令完成任务的能力。 为了填补这一空白,在这项工作中,我们提出了一种名为Attention Prompting on Image(API)的新提示技术,它简单地在原始输入图像上叠加一个由文本查询引导的注意力热图,从而有效地增强了LVLM在各种任务上的表现。 具体来说,我们使用类似于CLIP的辅助模型根据文本查询生成输入图像的注意力热图。 然 ...
基本信息 标题: Token Turing Machines 作者: Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab 发表: CVPR 2023 arXiv: https://arxiv.org/abs/2211.09119 摘要 我们提出了一种Token图灵机(TTM),这是一种具有记忆功能的顺序自回归Transformer模型,用于现实世界的顺序视觉理解。 我们的模型受到开创性的神经图灵机的启发,并具有一个外部记忆,由一组总结先前历史(即帧)的标记组成。 这个记忆通过在每个步骤使用Transformer作为处理单元/控制器来高效地寻址、读取和写入。 模型的记忆模块确保新的观察结果只与记忆内容(而不是整个历史)进行处理,这意味着它可以高效地处理长序列,并在每个步骤保持有限的计算成本。 我们表明,在两个现实世界的顺序视觉理解任务上,TTM优于其他替代方案,例如为 ...
基本信息 标题: Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining 作者: Benjia Zhou, Zhigang Chen, Albert Clapés, Jun Wan, Yanyan Liang, Sergio Escalera, Zhen Lei, Du Zhang 发表: ICCV 2023 arXiv: https://arxiv.org/abs/2307.14768 摘要 手语翻译(SLT)由于其跨领域特性而是一项具有挑战性的任务,涉及将视觉手势语言翻译成文本。 许多先前的方法采用中间表示,即gloss序列,以促进SLT,从而将其转化为两个阶段任务:手语识别(SLR)随后是手语翻译(SLT)。 然而,gloss注释手语数据的稀缺性,加上中级gloss表示中的信息瓶颈,阻碍了SLT任务的进一步发展。 为了应对这一挑战,我们提出了一种基于视觉语言预训练的gloss-free SLT(GFSLT-VLP),通过继承预训练模型中的语言导向先验知识,无需任何gloss ...
学习笔记
未读基本信息 标题: C2^22RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval 作者: Zhigang Chen, Benjia Zhou, Yiqing Huang, Jun Wan, Yibo Hu, Hailin Shi, Yanyan Liang, Zhen Lei, Du Zhang arXiv: https://arxiv.org/abs/2408.09949 摘要 手语表示学习(SLRL)对于一系列与手语相关的下游任务至关重要,如手语翻译(SLT)和手语检索(SLRet)。 最近,许多gloss-based和gloss-free的SLRL方法被提出,显示出有希望的性能。 其中,gloss-free的方法在无需依赖gloss的情况下展现出强大的可扩展性。 然而,由于在编码手语视频复杂、上下文敏感的特征方面存在挑战,目前它面临着次优解,主要是在使用非单调的视频-文本对齐策略时难以辨别关键的手语特征。 因此,本文提出了一种新 ...
基本信息 标题: Perceiver: General Perception with Iterative Attention 作者: Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira 发表: ICML 2021 arXiv: https://arxiv.org/abs/2103.03206 摘要 生物系统通过同时处理来自视觉、听觉、触觉、本体感觉等多样化模态的高维输入来感知世界。 另一方面,深度学习中使用的感知模型是为单个模态设计的,通常依赖于特定领域的假设,例如几乎所有现有视觉模型所利用的局部网格结构。 这些先验引入了有用的归纳偏差,但也使模型局限于单个模态。 在本文中,我们介绍了Perceiver——一个基于Transformer构建的模型,它对输入之间的关系几乎没有架构假设,但也能扩展到处理数以万计的输入,就像卷积神经网络。 该模型利用非对称注意力机制,通过迭代地将输入蒸馏到一个紧凑的潜在瓶颈中,从而能够扩展以处理非常大的输入。 我们表明,这种架构 ...
基本信息 标题: xGen-MM (BLIP-3): A Family of Open Large Multimodal Models 作者: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu arXiv: https://arxiv.org/abs/2408.08872 项目主页: https://www ...
基本信息 标题: xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs 作者: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles arXiv: https://arxiv.org/abs/2410.16267 摘要 我们提出了xGen-MM-Vid(BLIP-3-Video):一种针对视频的多模态语言模型,特别设计用于高效捕捉多帧中的时间信息。 BLIP-3-Video除了传统的视觉tokenizer外,还利用了temporal encoder,将多个帧中的序列分词映射成一个紧凑的视觉token集。这使得BLIP3-Video使用的视觉token比其竞争模型少得多(32 vs 4608)。 我们探讨了不同类型的temporal encoder,包括le ...