基本信息 标题: Perceiver: General Perception with Iterative Attention 作者: Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira 发表: ICML 2021 arXiv: https://arxiv.org/abs/2103.03206 摘要 生物系统通过同时处理来自视觉、听觉、触觉、本体感觉等多样化模态的高维输入来感知世界。 另一方面,深度学习中使用的感知模型是为单个模态设计的,通常依赖于特定领域的假设,例如几乎所有现有视觉模型所利用的局部网格结构。 这些先验引入了有用的归纳偏差,但也使模型局限于单个模态。 在本文中,我们介绍了Perceiver——一个基于Transformer构建的模型,它对输入之间的关系几乎没有架构假设,但也能扩展到处理数以万计的输入,就像卷积神经网络。 该模型利用非对称注意力机制,通过迭代地将输入蒸馏到一个紧凑的潜在瓶颈中,从而能够扩展以处理非常大的输入。 我们表明,这种架构 ...
基本信息 标题: xGen-MM (BLIP-3): A Family of Open Large Multimodal Models 作者: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu arXiv: https://arxiv.org/abs/2408.08872 项目主页: https://www ...
基本信息 标题: xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs 作者: Michael S. Ryoo, Honglu Zhou, Shrikant Kendre, Can Qin, Le Xue, Manli Shu, Silvio Savarese, Ran Xu, Caiming Xiong, Juan Carlos Niebles arXiv: https://arxiv.org/abs/2410.16267 摘要 我们提出了xGen-MM-Vid(BLIP-3-Video):一种针对视频的多模态语言模型,特别设计用于高效捕捉多帧中的时间信息。 BLIP-3-Video除了传统的视觉tokenizer外,还利用了temporal encoder,将多个帧中的序列分词映射成一个紧凑的视觉token集。这使得BLIP3-Video使用的视觉token比其竞争模型少得多(32 vs 4608)。 我们探讨了不同类型的temporal encoder,包括le ...
基本信息 标题: MLSLT: Towards Multilingual Sign Language Translation 作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He 发表: CVPR 2022 主页: https://mlslt.github.io/ 摘要 截至目前,大部分研究集中在双语手语翻译(BSLT)。然而,此类模型在构建多语言手语翻译系统中效率低下。 为了解决这个问题,我们引入了多语言手语翻译(MSLT)任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。 随后,我们提出了MSLT的第一个模型——MLSLT,它包含两种新颖的动态路由机制,用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例,层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。 为了评估MSLT的性能,我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten(SP-10),该数据集 ...
基本信息 标题: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs 作者: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2407.13851 摘要 近期在多模态大型语言模型(MLLMs)方面的进步,通过将视觉感知能力整合到大型语言模型(LLMs)中,已经彻底改变了视觉-语言理解领域。 该领域的流行趋势涉及使用来自视觉-语言对比学习(CL)的视觉编码器,擅长捕捉整体表示,但在捕捉详细局部模式方面存在困难。 在本工作中,我们通过结合通过掩码图像建模(MIM)获得的高频和详细视觉表示与由CL捕获的语义丰富的低频表示,来增强MLLMs的视觉表示。为了实现这一目标,我们引入了X-Former,这是一个轻量级的Transformer模块,通 ...
基本信息 标题: VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval 作者: Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong 发表: ACL 2024 main conference arXiv: https://arxiv.org/abs/2406.04292 摘要 多模态检索在实践中的应用越来越广泛。然而,现有的检索器大多以文本为导向,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型,但当前的方法在表示纯文本和纯图像数据方面受到严重限制。 在本工作中,我们提出了一种新的嵌入模型VISTA,用于通用多模态检索。 我们的工作提出了三个方面的技术贡献: 我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。 我们开发了两种数据生成策略,这些策略带来了高质量的合成图像-文本,以促进嵌入模型的训练。 我们引入了一种多阶段训练算法,该算法首先使用大量弱标签数据将视觉标记嵌入与 ...
学习笔记
未读基本信息 标题: MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding 作者: Yue Cao, Yangzhou Liu, Zhe Chen, Guangchen Shi, Wenhai Wang, Danhuai Zhao, Tong Lu arXiv: https://arxiv.org/abs/2410.11829 摘要 尽管在通过跨模态交互理解复杂人类意图的多模态大型语言模型(MLLMs)方面取得了显著进展,但捕捉复杂的图像细节仍然具有挑战性。 先前的方法通过集成多个视觉编码器来增强视觉细节,引入了冗余和计算开销。我们观察到,大多数MLLMs仅利用视觉编码器的最后一层特征图进行视觉表示,忽略了浅层特征图中丰富的细粒度信息。 为了解决这个问题,我们提出了MMFuser,这是一种简单而有效的多层特征融合器,能够高效地整合来自视觉Transformer(ViTs)的深层和浅层特征。 具体来说,它利用语义对齐的深层特征作为Query,动态地从浅层特征中 ...
基本信息 标题: Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation 作者: Ryan Wong, Necati Cihan Camgoz, Richard Bowden 发表: ICLR2024 arXiv: https://arxiv.org/abs/2405.04164 摘要 自动手语翻译需要整合计算机视觉和自然语言处理技术,以有效弥合手语和口语之间的沟通鸿沟。然而,由于大规模训练数据支持手语翻译的不足,我们需要利用口语资源。 我们提出了一种新颖的手语翻译框架,名为Sign2GPT,它通过轻量级适配器利用大规模预训练的视觉和语言模型,实现gloss-free手语翻译。轻量级适配器对于手语翻译至关重要,因为它们克服了有限数据集大小和训练长手语视频时的计算需求。 我们还提出了一种新的预训练策略,该策略指导我们的编码器从自动提取的伪gloss中学习手语表示,而无需gloss顺序信息或标注。 我们在两个公开的手语翻译基准数据集上评估了我们的方法,即RWTH-PHOENIX- ...
基本信息 标题: Fine-tuned CLIP Models are Efficient Video Learners 作者: Hanoona Rasheed, Muhammad Uzair Khattak, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan 发表: CVPR 2023 arXiv: https://arxiv.org/abs/2212.03640 这项工作探讨了名为ViFi-CLIP(Video Fine-tuned CLIP)的简单基线在将图像预训练的CLIP适应视频领域方面的能力。图示比较了vanilla CLIP及其针对视频进行适配的几个变体(在Kinetics-400上训练,在UCF-101和HMDB-51上评估)的无监督性能。从ViFi-CLIP(第4列)获得的视频嵌入的t-SNE可视化与vanilla CLIP(第1列)、单独调优的视频文本CLIP(第2列)和图像编码器(第3列)的嵌入以及最新的最先进工作XCLIP(最后一列)的嵌入进行了比较(Δ表示与XCLIP的差异)。ViFi-CLIP的嵌入具有更好的可分 ...
学习笔记
未读基本信息 标题: Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation 作者: Zhigang Chen, Benjia Zhou, Jun Li, Jun Wan, Zhen Lei, Ning Jiang, Quan Lu, Guoqing Zhao 发表: LREC-COLING 2024 arXiv: https://arxiv.org/abs/2403.12556 摘要 先前的手语翻译(SLT)方法通过依赖gloss注释实现卓越的性能。然而,标注高质量gloss是一项劳动密集型任务,这限制了SLT的进一步发展。 尽管一些方法通过联合训练视觉编码器和翻译网络来追求gloss-free SLT,但这些努力仍然存在性能不佳和利用强大的大语言模型(LLM)不足的问题。 最严重的是,我们发现直接将LLM引入SLT会导致视觉表示学习不足,因为LLM主导了学习曲线。 为了解决这些问题,我们提出了Factorized Learning assisted ...