让AI既会“看”又会“想”——「推理透明化+知识驱动」解码VQA推理新范式

视觉问答（Visual Question Answering, VQA）和多模态学习是实现跨模态智能理解的关键技术。针对复杂多跳推理、知识驱动解释性及多语言数据稀缺性等难题，本博文聚焦于构建高效、可解释的多模态语言模型，提出了问题引导的多跳推理图网络、多模态知识推理思维链、和基于机器翻译的多语言多模态学习三种创新框架。

顾进广

1226人浏览 · 2025-04-04 22:38:10

顾进广 · 2025-04-04 22:38:10 发布

作者：邱晨武汉科技大学WEB与工业智能研究团队

主页：ONTOWEB | GITHUB

引言

在人工智能领域，视觉问答（Visual Question Answering, VQA）和多模态学习是实现跨模态智能理解的关键技术。针对复杂多跳推理、知识驱动解释性及多语言数据稀缺性等难题，武汉科技大学的ONTOWEB研究团队聚焦于构建高效、可解释的多模态语言模型，提出了问题引导的多跳推理图网络（Question-Guided Multi-hop Reasoning Graph Network, QMRGT）、多模态知识推理思维链（Multimodal Knowledge Reasoning via Chain-of-Thought, MuKCoT）和基于机器翻译的多语言多模态学习（Translated Data for Multilingual Multimodal Learning , TD-MML）三种创新框架。这些成果分别发表于《Information Processing and Management》（IPM）2023年第60卷、2024年第61卷及EMNLP 2022会议，助力VQA和多模态学习领域的深入探索与发展。

VQA的推理困境与多跳突破：QMRGT

传统VQA模型依赖注意力机制直接预测答案，难以建模长程实体关系以应对多跳推理问题（如“伞右边的女士穿的外套是什么颜色？”），且缺乏可解释性。为此，我们提出了QMRGT（IPM 2023），一种问题引导的多跳推理图网络，通过动态视觉实体交互实现透明化的推理过程。该框架利用跨模态隐式交互模块（CIM）对齐视觉与文本特征，并通过多跳推理图网络（MRGT）实现跨模态隐式交互的多跳推理。其中历史视觉特征监督更新多跳推理问题指令，以增强模型的显式推理及可解释性；问题指令指导视觉实体的动态信息传递和表征更新，确保多跳推理的连贯性。实验表明，QMRGT在GQA数据集上显著提升多跳问题准确率（如5跳问题提高16.67%），并通过可视化推理路径增强模型透明性，为复杂VQA任务提供了可靠解决方案。

题目：A question-guided multi-hop reasoning graph network for visual question answering

作者：徐朝阳，顾进广，刘茂福，周光有，符海东，邱晨*

论文链接：https://www.sciencedirect.com/science/article/abs/pii/S0306457322003089

代码地址：https://github.com/chenQ1114/QMRGT

知识驱动的可解释推理：MuKCoT

知识型视觉问答（KBVQA）需结合外部知识实现跨模态推理，如何激活语言模型的推理能力并生成一致性解释成为一大挑战。传统方法受限于知识覆盖不全、视觉信息丢失及推理黑箱化问题。我们提出了MuKCoT（IPM 2024），通过引入多模态知识推理思维链（Chain-of-Thought, CoT）激活大语言模型（LLMs）的推理能力，生成一致性解释。MuKCoT利用LLMs自动生成推理链（如“图像识别→知识检索→场景推理→结论”），并训练小型视觉-语言模型执行CoT推理，同时开放相关资源。实验表明，MuKCoT在OK-VQA数据集上性能提升6.6%，在A-OKBQA直接回答任务上提升1.9%，为知识驱动的可解释AI建立新标杆。

题目：Explainable Knowledge reasoning via thought chains for knowledge-based visual question answering

作者：邱晨，谢志强，刘茂福，胡慧君*

论文链接：https://www.sciencedirect.com/science/article/abs/pii/S0306457324000864

代码地址：https://github.com/momoiu2/OKVQA

多语言多模态学习的突破：TD-MML

视觉-语言任务若局限于英语，将难以满足多语言场景需求。针对多语言多模态训练数据稀缺问题，我们提出了TD-MML（EMNLP 2022），通过机器翻译英语多模态数据（如Conceptual Captions），生成覆盖20种语言的5200万图像-文本对。该框架引入数据质量过滤（基于词型重复率和BLEU分数）和视觉翻译语言建模（VTLM）任务优化模型的跨语言对齐。实验显示，TD-MML在IGLUE基准上表现优异，如零样本xGQA提升6.6个百分点，多语言微调MaRVL达61.60%准确率，打破了语言壁垒。

题目：Multilingual Multimodal Learning with Machine Translated Text

作者：Chen Qiu, Dan Oneată, Emanuele Bugliarello, Stella Frank, Desmond Elliott

论文链接：Multilingual Multimodal Learning with Machine Translated Text - ACL Anthology

代码地址：https://github.com/danoneata/td-mml

综合成果与展望

上述研究从多跳推理（QMRGT）、知识增强（MuKCoT）和多语言扩展（TD-MML）三个维度突破了视觉问答和多模态学习的瓶颈，在VQA 2.0、GQA、OK-VQA及IGLUE等多项基准中取得显著提升。QMRGT解决了复杂多跳推理与透明性问题，MuKCoT实现了知识驱动的可解释推理，TD-MML为低资源多语言场景提供可扩展的数据生成框架。未来，我们计划融合知识图谱增强推理鲁棒性、优化大语言模型的计算效率，并探索其在教育、医疗等领域的应用，进一步提升AI在“看”、“说”和“推理”上的智能化与普适性。

[1] Zhaoyang Xu, Jinguang Gu, Maofu Liu, Guangyou Zhou, Haidong Fu, Chen Qiu*. A Question-Guided Multi-hop Reasoning Graph Network for Visual Question Answering. Information Processing and Management. 60(2):103207, (2023).

[2] Chen Qiu, Dan Oneată, Emanuele Bugliarello, Stella Frank, Desmond Elliott. Multilingual Multimodal Learning with Machine Translated Text. In Findings of the Association for Computational Linguistics: EMNLP 2022. pp: 4207-4222, (2022).

[3] Chen Qiu，Zhiqiang Xie, Maofu Liu, Huijun Hu. Explainable Knowledge reasoning via thought chains for knowledge-based visual question answering.Information Processing and Management. 60(2):103726, (2024).

关于ONTOWEB

武汉科技大学计算机科学与技术学院WEB与工业智能研究团队成立于2012年，主要从事WEB与工业领域相关研究，包括但不限于语义网与知识图谱、自然语言处理与多模态大模型、移动计算、社会计算等。近几年，在复杂流程工业、工业互联网、金融、医疗与健康、社会治理及技术公益领域做出有益探索与实践。

欢迎关注团队微信公众号 (ONTOWEB-WUST)！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla