标签: 论文笔记 | 小嗷犬

论文笔记

2024

【论文笔记】Perceiver: General Perception with Iterative Attention

【论文笔记】Perceiver: General Perception with Iterative Attention51

论文笔记多模态

2024-10-27

【论文笔记】xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

【论文笔记】xGen-MM (BLIP-3): A Family of Open Large Multimodal Models52

大模型论文笔记多模态

2024-10-27

【论文笔记】xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

【论文笔记】xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs53

大模型论文笔记多模态

2024-10-24

【论文笔记】MLSLT: Towards Multilingual Sign Language Translation

【论文笔记】MLSLT: Towards Multilingual Sign Language Translation54

论文笔记手语翻译

2024-10-22

【论文笔记】X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs

【论文笔记】X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs55

大模型论文笔记多模态

2024-10-20

【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

【论文笔记】VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval56

论文笔记多模态

2024-10-20

【论文笔记】MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding

【论文笔记】MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding57

大模型论文笔记多模态

2024-10-17

【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation

【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation58

大模型论文笔记手语翻译多模态

2024-10-17

【论文笔记】Fine-tuned CLIP Models are Efficient Video Learners

【论文笔记】Fine-tuned CLIP Models are Efficient Video Learners59

论文笔记多模态

2024-10-14

【论文笔记】Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

【论文笔记】Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation60

大模型论文笔记手语翻译多模态

2024-10-11