Dify知识流水线入门到精通：简单问答模板搭建指南

本文介绍了Dify 1.9.0版本中"简单问答"模板的使用方法，该模板通过数据源、Q&A处理器和知识库三个节点构建问答知识库。文章详细说明了如何配置CSV文件格式、设置问答列位置、选择高质量索引模式等关键步骤，并提供了测试运行和召回测试的完整流程。作为Dify知识流水线7个模板中的第一个，该模板适用于结构化表格数据，能够将问答对快速转化为可检索的知识库内容，为开发者提供

编程小饴

2586人浏览 · 2025-09-25 18:31:57

编程小饴 · 2025-09-25 18:31:57 发布

本文详细介绍了Dify1.9.0版本中"简单问答"模板的使用方法，通过三个节点（数据源、Q&A处理器、知识库）构建问答知识库的完整流程。文章指导用户如何配置CSV文件格式、指定问题与答案列、选择高质量索引模式，并进行测试和调用。这是Dify知识流水线7个模板中的第一个，为后续其他模板的学习奠定了基础，适合想要快速上手大模型知识库构建的开发者。

简单问答：将表格数据转化为一问一答的形式，通过问题匹配来快速找到对应的答案信息。适用于结构化表格数据。
父子模式：采用了高级分块策略，将文档文本分成较大的”父块”和较小的”子块”。其中，“父块”包含了”子块”。这样既保证了检索的精确性，又维持了上下文的完整性。
LLM 上下文增强：将文档内的图片和表格提取出来，使用大型语言模型自动生成描述性注释，实现上下文的智能增强。
Markdown 转换：专为 DOCX、XLSX 和 PPTX 等 Office 原生文件格式设计，将其转换为 Markdown 格式以便更好地进行信息处理。⚠️ 注意：不推荐使用 PDF 文件。
LLM 生成问答：使用大型语言模型自动生成结构化的问答对，通过问题匹配机制找到相关的答案信息。
通用模式：将文档内容分割成较小的段落块（通用块），直接用于匹配用户查询和检索。
复杂 PDF （含图片和表格）：提取 PDF 文件内的图像和表格内容。

本文先从简单问答模版开始吧，纯属看名字选的，听着最简单。

1 整体流程

这个模版编排的核心是通过三个节点的顺序连接，实现从一个结构化的 CSV 文件，构建成一个专门的问答知识库。

流程总览：文件上传 -> 问答处理 -> 存入知识库

Q&A PROCESSR需要下载好插件。

模版中设置了两个全局变量，这两个变量是用户指定csv文件问题和答案位于第几列中。

点击全局共享输入后面加号按钮，添加共享输入。

问题列：

在显示所有设置中可以设置默认值，可以根据csv文件实际情况进行更改。

答案列：

2 节点配置

可以从模版直接复制，当然也可以从空白流程创建。

如果是从空白知识流水线创建，如下图，会默认有两个节点，一个是数据源，一个是知识库。

这个时候可以在数据源中选择File，然后添加Q&A处理器插件即可。

2.1 数据源节点（FILE）

作为知识管道编排的第一个节点，自然就是数据源的选择了。

本模版使用的是本地文件。

在Dify V2.0.0 beta版本的时候有13个数据源，现在正式发布v1.9.0版本的时候，我发现已经有17个数据源了。

已覆盖的主流数据源：

本地文件：支持 30+ 种格式，包括 PDF、Word、Excel、PPT、Markdown 等
云存储：Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox 等
在线文档：Notion、Confluence、SharePoint、GitLab、GitHub 等
网页爬取：Firecrawl、Jina、Bright Data、Tavily 等服务

节点作用：这是数据输入的唯一入口。

具体配置：

添加一个数据源节点，选择File，可以看到右侧支持的文件格式种类非常多，包含txt、pdf、html、xlsx、eml、csv、ppt等等。

此模板要求用户必须提供一个预先准备好的、包含问答对的表格。

因此，它仅支持文件上传 (File Upload)这一种数据源类型，并且只接受csv 格式的文件。

用户上传的 CSV 文件会作为这个节点的输出，传递给下一个处理节点。

所以把其他格式都删除掉，只保留csv格式即可。

2.2 问答节点（Q&A PROCESSOR）

简单问答模板需要一个预先准备好的、包含问答对的表格。

因此，该模板仅支持文件上传这一数据源，并只接受 csv 文件格式。

节点作用：这是流程的核心处理环节，负责将文件内容结构化。

具体配置：

它接收上一个节点传入的文件，并从表格中提取指定的列来生成问答对。

问答处理器(Q&A Processor) 会从表格中提取指定的列，以生成结构化的问答对。用户可以自行指定哪些列用于问题，哪些列用于答案。

这些问答对会根据问题字段建立索引，因此用户的查询会直接与问题进行匹配，从而检索到对应的答案。这种 Q-to-Q（问题到问题）的匹配策略提升了清晰度和精确度，尤其是在处理高频或内容高度相似的用户问题时效果显著。

2.3 知识库节点（KNOWLEDGE BASE）

知识库提供两种索引方法：高质量 (High-Quality) 和经济 (Economical)，两者各有不同的检索策略。

高质量模式：使用 embeddings 进行向量化，支持向量检索、全文检索和混合检索。这种方式能提供更准确的结果，但资源消耗也更高。
经济模式：采用基于关键词的反向索引，不消耗 token，但准确度较低。此模式可以升级到高质量模式，但无法降级（如需降级，必须重新创建一个新的知识库）。

请注意：父子模式 (Parent-Child Mode) 和问答模式 (Q&A Mode) 仅支持高质量索引方法。

节点作用：这是处理完毕的数据最终存储和索引的地方。

具体配置：

它接收问答处理器生成的结构化问答对。

分块结构被设定为 Q&A，专门用于问答场景。

索引方法被设定为高质量 (High-Quality)模式。

这是一个强制要求，因为问答模式 (Q&A Mode)仅支持高质量索引方法。

高质量模式会使用嵌入模型（此配置中为 BAAI/bge-m3）进行向量化，并启用重排序模型（BAAI/bge-reranker-v2-m3）以提供更精确的检索结果。

从一个结构化的问答文件（如 CSV）中提取问答对，并将其构建成一个专门用于问答检索的知识库。

3 测试

3.1 测试运行

测试运行，点击选择文件。

上传本地文件，选择下一步。

测试文件如下：

设置问题和答案的列，我就用之前的默认值。点击处理按钮。

可以看到已经生成好知识库了。

3.2 添加文件

发布知识流水线后，我们可以点击左侧文档，添加文件。

选择数据源，还是上传本地文件。

设置CSV文件中问题和回答的列数。

点击保存并处理，等待出现对钩的时候就完成了。

点击前往文档看到状态为可用就ok了。

3.3 召回测试

点击召回测试。可以对检索进行设置，比如开启Score阈值。

随便测个问题，试用期最长是多久？

可以看到选取的分段和回答的详情。

4 在工作流中调用知识库

可以新建一个工作流，在知识库检索里选择我们之前创建的这个简单问答知识库。

还是问同样的问题，试用期最长是多久？

在不设置Score的情况下返回了三个分段，第二个已经到0.001分了，结果是排序过的。

如果设置Score的值，就和召回测试的结果一样，只返回高于这个阈值的结果，减少干扰项。

5 总结

看来这次Dify在知识库这块改动确实比较大，模版一下子给了7个，还是值得都深入研究一下的。

如果你想从模版中直接创建，就在创建知识流水线的时候，选择通过知识流水线创建知识库。

可以添加空白知识流水线，或者选择相应的模版。

通过知识流水线创建创建知识库的5个步骤：

1、创建知识流水线。从0开始或从模版创建。

2、知识流水线编排。从0创建的小伙伴也可以根据我的节点配置来。

3、发布知识流水线。完成知识流水线的编排和调试后，点击发布并在弹窗中点击确认，即成功发布知识流水线。

4、上传文件。添加数据源后，填写文件处理相关参数和变量。

5、管理和使用知识库。创建知识库后，你可以继续对其进行管理和优化，以确保它能为你的应用程序提供准确的的上下文信息。

读者福利大放送：如果你对大模型感兴趣，想更加深入的学习大模型**，那么这份精心整理的大模型学习资料，绝对能帮你少走弯路、快速入门**

如果你是零基础小白，别担心——大模型入门真的没那么难，你完全可以学得会！

👉 不用你懂任何算法和数学知识，公式推导、复杂原理这些都不用操心；
👉 也不挑电脑配置，普通家用电脑完全能 hold 住，不用额外花钱升级设备；
👉 更不用你提前学 Python 之类的编程语言，零基础照样能上手。

你要做的特别简单：跟着我的讲解走，照着教程里的步骤一步步操作就行。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

现在这份资料免费分享给大家，有需要的小伙伴，直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型？

数据显示，2023 年我国大模型相关人才缺口已突破百万，这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代，产业对专业人才的需求将呈爆发式增长，据预测，到 2025 年这一缺口将急剧扩大至 400 万！!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战，跟着学习路线一步步打卡，小白也能轻松学会！
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够，这套学习资料还包含了丰富的实战案例，让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版)，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题，我都给大家汇总好了，能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述
👉获取方式：

😝有需要的小伙伴，可以保存图片到VX扫描下方二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最适合零基础的！！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla