分类: 学习笔记 | 小嗷犬

分类 - 学习笔记

2024

【论文笔记】Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

【论文笔记】Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion21

大模型论文笔记多模态

2024-12-08

【论文笔记】VisionZip: Longer is Better but Not Necessary in Vision Language Models

【论文笔记】VisionZip: Longer is Better but Not Necessary in Vision Language Models22

大模型论文笔记多模态

2024-12-08

【论文笔记】LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

【论文笔记】LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment23

论文笔记多模态

2024-12-08

【论文笔记】BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues

【论文笔记】BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues24

论文笔记手语翻译

2024-12-08

【论文笔记】A Token-level Contrastive Framework for Sign Language Translation

【论文笔记】A Token-level Contrastive Framework for Sign Language Translation25

论文笔记手语翻译

2024-12-01

【论文笔记】A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

【论文笔记】A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation26

论文笔记手语翻译

2024-12-01

【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation27

大模型论文笔记手语翻译多模态

2024-12-01

【论文笔记】Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions

【论文笔记】Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions28

大模型论文笔记多模态

2024-11-30

【论文笔记】Towards Online Continuous Sign Language Recognition and Translation

【论文笔记】Towards Online Continuous Sign Language Recognition and Translation29

论文笔记手语翻译

2024-11-30

【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga

【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga30

大模型论文笔记多模态

2024-11-24