dify搭建智能体/工作流实现图文混排，构建知识库如何上传带有图片的word文档

背景：希望实现基于操作手册的问答助手，实现时发现系统操作手册里面有大量的图片辅助文字理解，尤其是操作步骤类说明，而之前搭建智能体一般是基于纯文本知识库的问答，所以在网上查找了一些资料。

if_tomato

3126人浏览 · 2025-07-08 15:27:55

if_tomato · 2025-07-08 15:27:55 发布

注意：实现的前提是构建知识库，上传带有图片的文档，word文件会比md和pdf格式更有优势。

效果展示

一、上传知识库

第一步是上传带有图片的word文档（最好是.docx格式），进行文档分段。

这里会遇到第一个坑：就是如果word中图片和上下文之间没有分隔符的话，上传到知识库分段后，图片链接会丢失。

目前的解决办法就是图片上下都加一行回车（空行），这样图片就能识别到了，且分隔符仍然可以用/n或者/n/n。还有一种办法是图片前后插入特殊分隔符，但是可能影响文本中其他部分分段。

应该会有更好的办法，但是目前还未发现。

这里还有一个小tips，上传之后，现在图片显示的是image链接

如果需要在知识库中直接显示图片，只需要：点击相应分段-编辑-在[image]前加！变成![image]即可

二、搭建智能体

整体流程：

关注重点：

1. 模型选择

模型选择会影响答案中的图片能否成功显示，qwen3系列表现会好一些

2. 提示词

## 角色
你是一位XXX手册查询助手，根据提供的{{#context#}}信息，使用图文混排的方式，尽可能保留原文中的文字和图片说明，回答用户问题。
## 限制
- 请严格按照知识库检索到的内容进行回复。
- 根据用户的具体提问回答问题，不要发散
- 请在输出信息中保留知识库返回的图片完整信息。
- 请将检索到的图片直接进行预览显示。

这里会遇到第二个坑：并不是每次提问，图片都可以稳定输出，有时候生成过程中会显示图片链接，但是最后生成结果中却没有图片显示。

该问题目前还在探索解决方案

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla