NUS：多模态大模型的跨模态偏好对齐

多模态大语言模型（MLLM）存在幻觉问题，即模型生成的输出与视觉输入不符。论文提出了跨模态层次直接偏好优化（CHiP）方法，通过多层次文本和视觉偏好优化，显著减少了多模态大语言模型中的幻觉，并增强了跨模态语义对齐。

大模型任我行

1201人浏览 · 2025-02-04 08:00:00

大模型任我行 · 2025-02-04 08:00:00 发布

在这里插入图片描述

📖标题：CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs
🌐来源：arXiv, 2501.16629

🌟摘要

🔸尽管多模态大型语言模型（MLLM）具有令人印象深刻的能力，但它们仍然在与幻觉作斗争。最近的研究试图通过将直接偏好优化（DPO）应用于多模式场景，使用基于文本的响应中的偏好对来缓解这一问题。然而，我们对表征分布的分析表明，多模态DPO在对齐图像和文本表征以及区分幻觉和非幻觉描述方面存在困难。
🔸为了应对这些挑战，在这项工作中，我们提出了一种跨模型分层直接偏好优化（CHiP）来解决这些局限性。我们在DPO框架中引入了一个视觉偏好优化模块，使MLLM能够同时从文本和视觉偏好中学习。此外，我们提出了一个分层的文本偏好优化模块，该模块允许模型在多个粒度级别捕获偏好，包括响应、分段和令牌级别。
🔸我们通过定量和定性分析来评估CHiP，多个基准的结果证明了它在减少幻觉方面的有效性。在Object HalBench数据集上，CHiP在减少幻觉方面优于DPO，基于基础模型Muffin和LLaVA模型分别实现了52.7%和55.5%的相对点改善。我们公开所有数据集和代码。

🛎️文章简介

🔸研究问题：多模态大语言模型（MLLM）存在幻觉问题，即模型生成的输出与视觉输入不符。
🔸主要贡献：论文提出了跨模态层次直接偏好优化（CHiP）方法，通过多层次文本和视觉偏好优化，显著减少了多模态大语言模型中的幻觉，并增强了跨模态语义对齐。

📝重点思路

🔸主要思想：跨模态层次直接偏好优化（CHiP）旨在整合视觉和层次化的文本偏好优化。
🔸层次文本偏好优化：在响应、段落和词汇级别进行偏好优化，以捕捉细粒度的文本偏好信息。
🔸视觉偏好优化：通过构建视觉偏好对，使模型能够从文本和视觉模态中学习偏好，从而更紧密地对齐文本和图像表示。
🔸实验验证：在LLaVA-1.6和Muffin框架下，使用包含多模态幻觉偏好对的公开训练数据集RLHF-V-Dataset进行训练，多个数据集上评估进行了评估，验证了CHiP的有效性。

🔎分析总结

🔸CHiP在减少幻觉方面的有效性：CHiP在多个基准测试中显著优于GPT-4V，并在Object HalBench数据集上相对于DPO在幻觉减少方面分别提高了52.7%和55.5%的相对分数。
🔸跨模态语义对齐的增强：CHiP通过多层次文本和视觉偏好优化，显著增强了图像和文本表示之间的语义对齐。
🔸细粒度偏好优化的效果：层次文本偏好优化和视觉偏好优化的结合使模型能够基于细粒度的文本和视觉模态进行偏好选择，从而更有效地减少幻觉。
🔸噪声对性能的影响：实验表明，噪声步骤T=500时，CHiP在ObjHal数据集上表现最佳，过多或过少的噪声步骤都会降低视觉偏好优化模块的效果。

💡个人观点

论文的核心在于不同模态上进行偏好优化，实现了跨模态偏好捕捉和更细粒度的区分，从而降低幻觉。

🧩附录

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla