dify搭建智能体/工作流实现图文混排,构建知识库如何上传带有图片的word文档
背景:希望实现基于操作手册的问答助手,实现时发现系统操作手册里面有大量的图片辅助文字理解,尤其是操作步骤类说明,而之前搭建智能体一般是基于纯文本知识库的问答,所以在网上查找了一些资料。
背景:希望实现基于操作手册的问答助手,实现时发现系统操作手册里面有大量的图片辅助文字理解,尤其是操作步骤类说明,而之前搭建智能体一般是基于纯文本知识库的问答,所以在网上查找了一些资料。
注意:实现的前提是构建知识库,上传带有图片的文档,word文件会比md和pdf格式更有优势。
效果展示

一、上传知识库
第一步是上传带有图片的word文档(最好是.docx格式),进行文档分段。
这里会遇到第一个坑:就是如果word中图片和上下文之间没有分隔符的话,上传到知识库分段后,图片链接会丢失。
目前的解决办法就是图片上下都加一行回车(空行),这样图片就能识别到了,且分隔符仍然可以用/n或者/n/n。还有一种办法是图片前后插入特殊分隔符,但是可能影响文本中其他部分分段。
应该会有更好的办法,但是目前还未发现。
这里还有一个小tips,上传之后,现在图片显示的是image链接
如果需要在知识库中直接显示图片,只需要:点击相应分段-编辑-在[image]前加!变成![image]即可

二、搭建智能体
整体流程:

关注重点:
1. 模型选择
模型选择会影响答案中的图片能否成功显示,qwen3系列表现会好一些
2. 提示词
## 角色
你是一位XXX手册查询助手,根据提供的{{#context#}}信息,使用图文混排的方式,尽可能保留原文中的文字和图片说明,回答用户问题。
## 限制
- 请严格按照知识库检索到的内容进行回复。
- 根据用户的具体提问回答问题,不要发散
- 请在输出信息中保留知识库返回的图片完整信息。
- 请将检索到的图片直接进行预览显示。
这里会遇到第二个坑:并不是每次提问,图片都可以稳定输出,有时候生成过程中会显示图片链接,但是最后生成结果中却没有图片显示。
该问题目前还在探索解决方案
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)