基本信息 标题: Fine-tuned CLIP Models are Efficient Video Learners 作者: Hanoona Rasheed, Muhammad Uzair Khattak, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan 发表: CVPR 2023 arXiv: https://arxiv.org/abs/2212.03640 这项工作探讨了名为ViFi-CLIP(Video Fine-tuned CLIP)的简单基线在将图像预训练的CLIP适应视频领域方面的能力。图示比较了vanilla CLIP及其针对视频进行适配的几个变体(在Kinetics-400上训练,在UCF-101和HMDB-51上评估)的无监督性能。从ViFi-CLIP(第4列)获得的视频嵌入的t-SNE可视化与vanilla CLIP(第1列)、单独调优的视频文本CLIP(第2列)和图像编码器(第3列)的嵌入以及最新的最先进工作XCLIP(最后一列)的嵌入进行了比较(Δ表示与XCLIP的差异)。ViFi-CLIP的嵌入具有更好的可分 ...
学习笔记
未读基本信息 标题: Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation 作者: Zhigang Chen, Benjia Zhou, Jun Li, Jun Wan, Zhen Lei, Ning Jiang, Quan Lu, Guoqing Zhao 发表: LREC-COLING 2024 arXiv: https://arxiv.org/abs/2403.12556 摘要 先前的手语翻译(SLT)方法通过依赖gloss注释实现卓越的性能。然而,标注高质量gloss是一项劳动密集型任务,这限制了SLT的进一步发展。 尽管一些方法通过联合训练视觉编码器和翻译网络来追求gloss-free SLT,但这些努力仍然存在性能不佳和利用强大的大语言模型(LLM)不足的问题。 最严重的是,我们发现直接将LLM引入SLT会导致视觉表示学习不足,因为LLM主导了学习曲线。 为了解决这些问题,我们提出了Factorized Learning assisted ...
基本信息 标题: CLIP4Clip An empirical study of CLIP for end to end video clip retrieval and captioning 作者: Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li arXiv: https://arxiv.org/abs/2104.08860 摘要 视频片段检索和视频描述任务在多模态研究中扮演着至关重要的角色,是多模态理解和生成的基础研究问题。 CLIP(对比语言-图像预训练)模型展示了从网络收集的图像-文本数据集中学习视觉概念的力量。 在本文中,我们提出了一种CLIP4Clip模型,以端到端的方式将图像-文本预训练的CLIP模型的知识迁移到视频-文本任务。 此外,我们进行了多项实证研究,包括: 图像特征是否足以用于视频-文本检索和视频描述? 基于CLIP在大型视频-文本数据集上的后预训练如何影响性能? 建模视频帧之间时间依赖关系的实际机制是什么? 模型的超参数敏感性。 大量的实验结果表明,从C ...
基本信息 标题: VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs 作者: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing arXiv: https://arxiv.org/abs/2406.07476 摘要 本文介绍了VideoLLaMA 2,一套旨在提升视频和音频任务中时空建模和音频理解的Video Large Language Models(视频-LLMs)。 在继承前代的基础上,VideoLLaMA 2引入了定制的时空卷积(STC)连接器,能够有效捕捉视频数据的复杂时空动态。 此外,我们通过联合训练将音频分支整合到模型中,从而通过无缝融合音频线索丰富了模型的多模态理解能力。 在多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQ ...
基本信息 标题: Flamingo: a Visual Language Model for Few-Shot Learning 作者: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob L Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikołaj Bińkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karén Simonyan 发表: ...
基本信息 标题: Visual Instruction Tuning 作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee 发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023) arXiv: https://arxiv.org/abs/2304.08485 项目主页: https://llava-vl.github.io/ 摘要 使用机器生成的指令遵循数据对大型语言模型(LLMs)进行指令微调已被证明可以提升新任务上的零样本能力,但在多模态领域这一想法探索较少。 我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。 通过对这些生成数据进行指令微调,我们引入了LLaVA:大型语言和视觉助手,这是一个端到端训练的大规模多模态模型,它将视觉编码器和LLM连接起来,以实现通用视觉和语言理解。 为了促进未来对视觉指令遵循的研究,我们构建了两个具有多样性和挑战性应用任务的评估基准。 我们的实验表明,LLaVA展示了令人印象深刻的跨模态聊 ...
基本信息 标题: Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation 作者: Necati Cihan Camgo, Oscar Kollerq, Simon Hadfield and Richard Bowden 发表: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) DOI: 10.1109/CVPR42600.2020.01004 摘要 先前关于手语翻译的研究表明,拥有中级手语词汇表示(有效识别单个手势)可以显著提高翻译性能。事实上,当前最先进的翻译技术需要词汇级别的标记化才能运行。我们提出了一种基于Transformer的新型架构,该架构可以联合学习连续手语识别和翻译,并且可以端到端地训练。 这是通过使用连接主义时序分类(CTC)损失将识别和翻译问题绑定到单个统一架构中实现的。这种联合方法不需要任何真实时间信息,同时解决了两个相互依赖的序列到序列学习问题, ...
引言 在自然语言处理(NLP)领域,如何高效地将连续的文本序列分割成有意义的单元是一项基础且重要的任务。传统的基于规则的方法或者统计方法在处理大规模数据时往往面临着效率低下和灵活性不足的问题。近年来,Byte Pair Encoding (BPE) 算法因其简单有效而成为了一种流行的分词技术。本文旨在介绍BPE算法的基本原理及其在实际应用中的优势。 BPE算法简介 BPE是一种无监督的分词方法,它通过对训练语料库进行分析,逐步合并最频繁出现的字符对来构建词汇表。这种方法能够有效地处理多种语言,尤其是当面临大量未见过的数据时表现出色。 算法步骤 初始化词汇表: Step1:从训练语料库中提取所有唯一的字符作为初始词汇表 VVV。 迭代过程: Step2:计算所有可能的字符对出现的频率,找出出现频率最高的字符对 x,x′x, x'x,x′。 Step3:将该字符对替换为一个新的词元 xx′xx'xx′,并在训练语料库中进行更新。 Step4:将新的词元 xx′xx'xx′ 添加到词汇表 VVV 中。 这一过程会重复进行,直到达到预定的词汇表 ...
学习笔记
未读do_sample do_sample 参数控制是否使用采样方法生成输出。当 do_sample=True 时,模型会根据下一个 token 的概率分布进行采样;当 do_sample=False 时,模型会选择概率最大的 token 作为输出。 temperature temperature 参数通过影响 softmax 控制生成输出时每个 token 的概率分布的平滑程度。 不考虑 temperature 参数,softmax 概率分布的计算公式为: prob(xi)=exi∑j=1nexj\text{prob}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}} prob(xi)=∑j=1nexjexi 加入 temperature 参数后,softmax 概率分布的计算公式为: prob(xi,t)=exit∑j=1nexjt\text{prob}(x_i,t) = \frac{e^{\frac{x_i}{t}}}{\sum_{j=1}^{n} e^{\frac{x_j}{t}}} prob(xi,t)=∑j=1netxj ...
赛事链接:https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms 简述 想象一下,您正试图通过网店为朋友的生日寻找一份完美的礼物。您必须浏览无数产品,阅读评论以衡量质量,比较价格,最后决定购买。这个过程非常耗时,有时还会因为信息量和可选项太多而不知所措。网上购物的复杂性在于,既要在产品、评论和价格的网络中穿梭,又要根据自己的理解和偏好做出最佳决定,这可能会让人不知所措。 这项挑战旨在利用大语言模型(LLM)简化这一过程。虽然目前的技术往往无法理解特定购物术语和知识的细微差别、客户行为、偏好以及产品和语言的多样性,但我们相信,大语言模型具有多任务和少量学习的能力,有潜力驾驭如此复杂的在线购物。在这一潜力的激励下,本挑战赛推出了 ShopBench,这是一个模拟现实世界中在线购物复杂性的综合基准。我们邀请参与者设计功能强大的 LLM,以改进最先进的技术如何更好地帮助我们浏览网上购物,使其成为一种更直观、更令人满意的体验,就像现实生活中知识渊博的购 ...