【论文笔记】Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions

基本信息

标题: Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions
作者: Yuhan Fu, Ruobing Xie, Jiazhen Liu, Bangxiang Lan, Xingwu Sun, Zhanhui Kang, Xirong Li
发表: ICLR 2024
arXiv: https://arxiv.org/abs/2410.11701

基本信息

全文摘要

这篇论文主要讨论了如何解决多模态大语言模型中的幻觉问题。

作者提出了一个名为MagPrompt的简单有效方法,通过极其简单的指令来处理幻觉问题。

MagPrompt基于两个关键原则设计各种有效的提示,并展示了鲁棒性:

  1. 多模态大语言模型应该更加关注图像;
  2. 当图像与模型内部知识存在冲突时,多模态大语言模型应优先考虑图像。

MagPrompt不需要训练即可使用,并且可以应用于开源和闭源模型,如GPT-4o和Gemini-pro。

实验结果表明,MagPrompt在多个数据集上表现良好,其效果甚至比更复杂的方法VCD还要好。

此外,本文的提示设计原则和实验分析为多模态幻觉提供了有价值的见解。

方法

方法描述

该论文提出了一种针对多模态学习模型(MLLM)中幻觉问题的解决方案。

作者认为当前的MLLM在视觉能力上存在缺陷,并且倾向于过度关注文本信息而忽略图像内容。

此外,当图像与模型内部知识产生冲突时,模型更容易信任其内部知识,从而导致幻觉问题。

因此,作者提出了两个设计原则:

  1. 让模型更加注重图像内容;
  2. 优先考虑图像而不是模型内部知识。

基于这两个原则,作者设计了MagPrompt模板来帮助用户输入查询并减轻模型的幻觉问题。

MagPrompt

1
2
3
4
5
6
7
You are tasked with answering a question based on the image with following rules:

1. Carefully observe the image and provide an answer based on the content of the image.
2. In cases where the image conflicts with your knowledge or common sense, prioritize the image.

Question: "%s"
Answer:

具体来说,MagPrompt会重新组织用户的查询以使其更符合原则的要求。

此外,作者还提出了其他有效的提示方案,并通过实验验证了这些方案的有效性。

实验

Hallucination performance of different models in POPE adversarial split

Ablation Study on POPE adversarial split. R1 and R2 denote rule1 and rule2

总结

我们利用MLLMs的指令遵循能力,提出了MagPrompt来减轻MLLMs中的幻觉。

为了验证其有效性,我们在多个数据集和多个模型上进行了实验。MagPrompt无需训练,有效,并且可以轻松应用于开源和闭源模型。

我们还对评估指标和实验结果进行了更深入的分析,为未来的多模态幻觉研究提供了有价值的见解。