NUS:多模态大模型的跨模态偏好对齐
多模态大语言模型(MLLM)存在幻觉问题,即模型生成的输出与视觉输入不符。论文提出了跨模态层次直接偏好优化(CHiP)方法,通过多层次文本和视觉偏好优化,显著减少了多模态大语言模型中的幻觉,并增强了跨模态语义对齐。

📖标题:CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs
🌐来源:arXiv, 2501.16629
🌟摘要
🔸尽管多模态大型语言模型(MLLM)具有令人印象深刻的能力,但它们仍然在与幻觉作斗争。最近的研究试图通过将直接偏好优化(DPO)应用于多模式场景,使用基于文本的响应中的偏好对来缓解这一问题。然而,我们对表征分布的分析表明,多模态DPO在对齐图像和文本表征以及区分幻觉和非幻觉描述方面存在困难。
🔸为了应对这些挑战,在这项工作中,我们提出了一种跨模型分层直接偏好优化(CHiP)来解决这些局限性。我们在DPO框架中引入了一个视觉偏好优化模块,使MLLM能够同时从文本和视觉偏好中学习。此外,我们提出了一个分层的文本偏好优化模块,该模块允许模型在多个粒度级别捕获偏好,包括响应、分段和令牌级别。
🔸我们通过定量和定性分析来评估CHiP,多个基准的结果证明了它在减少幻觉方面的有效性。在Object HalBench数据集上,CHiP在减少幻觉方面优于DPO,基于基础模型Muffin和LLaVA模型分别实现了52.7%和55.5%的相对点改善。我们公开所有数据集和代码。
🛎️文章简介
🔸研究问题:多模态大语言模型(MLLM)存在幻觉问题,即模型生成的输出与视觉输入不符。
🔸主要贡献:论文提出了跨模态层次直接偏好优化(CHiP)方法,通过多层次文本和视觉偏好优化,显著减少了多模态大语言模型中的幻觉,并增强了跨模态语义对齐。
📝重点思路
🔸主要思想:跨模态层次直接偏好优化(CHiP)旨在整合视觉和层次化的文本偏好优化。
🔸层次文本偏好优化:在响应、段落和词汇级别进行偏好优化,以捕捉细粒度的文本偏好信息。
🔸视觉偏好优化:通过构建视觉偏好对,使模型能够从文本和视觉模态中学习偏好,从而更紧密地对齐文本和图像表示。
🔸实验验证:在LLaVA-1.6和Muffin框架下,使用包含多模态幻觉偏好对的公开训练数据集RLHF-V-Dataset进行训练,多个数据集上评估进行了评估,验证了CHiP的有效性。
🔎分析总结
🔸CHiP在减少幻觉方面的有效性:CHiP在多个基准测试中显著优于GPT-4V,并在Object HalBench数据集上相对于DPO在幻觉减少方面分别提高了52.7%和55.5%的相对分数。
🔸跨模态语义对齐的增强:CHiP通过多层次文本和视觉偏好优化,显著增强了图像和文本表示之间的语义对齐。
🔸细粒度偏好优化的效果:层次文本偏好优化和视觉偏好优化的结合使模型能够基于细粒度的文本和视觉模态进行偏好选择,从而更有效地减少幻觉。
🔸噪声对性能的影响:实验表明,噪声步骤T=500时,CHiP在ObjHal数据集上表现最佳,过多或过少的噪声步骤都会降低视觉偏好优化模块的效果。
💡个人观点
论文的核心在于不同模态上进行偏好优化,实现了跨模态偏好捕捉和更细粒度的区分,从而降低幻觉。
🧩附录


火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)