本文详细介绍了Dify1.9.0版本中"简单问答"模板的使用方法,通过三个节点(数据源、Q&A处理器、知识库)构建问答知识库的完整流程。文章指导用户如何配置CSV文件格式、指定问题与答案列、选择高质量索引模式,并进行测试和调用。这是Dify知识流水线7个模板中的第一个,为后续其他模板的学习奠定了基础,适合想要快速上手大模型知识库构建的开发者。

  • 简单问答:将表格数据转化为一问一答的形式,通过问题匹配来快速找到对应的答案信息。适用于结构化表格数据。
  • 父子模式:采用了高级分块策略,将文档文本分成较大的”父块”和较小的”子块”。其中,“父块”包含了”子块”。这样既保证了检索的精确性,又维持了上下文的完整性。
  • LLM 上下文增强:将文档内的图片和表格提取出来,使用大型语言模型自动生成描述性注释,实现上下文的智能增强。
  • Markdown 转换:专为 DOCX、XLSX 和 PPTX 等 Office 原生文件格式设计,将其转换为 Markdown 格式以便更好地进行信息处理。⚠️ 注意:不推荐使用 PDF 文件。
  • LLM 生成问答:使用大型语言模型自动生成结构化的问答对,通过问题匹配机制找到相关的答案信息。
  • 通用模式:将文档内容分割成较小的段落块(通用块),直接用于匹配用户查询和检索。
  • 复杂 PDF (含图片和表格):提取 PDF 文件内的图像和表格内容。

本文先从简单问答模版开始吧,纯属看名字选的,听着最简单。

1 整体流程

这个模版编排的核心是通过三个节点的顺序连接,实现从一个结构化的 CSV 文件,构建成一个专门的问答知识库。

流程总览: 文件上传 -> 问答处理 -> 存入知识库

Q&A PROCESSR需要下载好插件。

模版中设置了两个全局变量,这两个变量是用户指定csv文件问题和答案位于第几列中。

点击全局共享输入后面加号按钮,添加共享输入。

问题列:

在显示所有设置中可以设置默认值,可以根据csv文件实际情况进行更改。

答案列:

2 节点配置

可以从模版直接复制,当然也可以从空白流程创建。

如果是从空白知识流水线创建,如下图,会默认有两个节点,一个是数据源,一个是知识库。

这个时候可以在数据源中选择File,然后添加Q&A处理器插件即可。

2.1 数据源节点(FILE)

作为知识管道编排的第一个节点,自然就是数据源的选择了。

本模版使用的是本地文件。

在Dify V2.0.0 beta版本的时候有13个数据源,现在正式发布v1.9.0版本的时候,我发现已经有17个数据源了。

已覆盖的主流数据源:

  • 本地文件:支持 30+ 种格式,包括 PDF、Word、Excel、PPT、Markdown 等
  • 云存储:Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox 等
  • 在线文档:Notion、Confluence、SharePoint、GitLab、GitHub 等
  • 网页爬取:Firecrawl、Jina、Bright Data、Tavily 等服务

节点作用:这是数据输入的唯一入口。

具体配置:

添加一个数据源节点,选择File,可以看到右侧支持的文件格式种类非常多,包含txt、pdf、html、xlsx、eml、csv、ppt等等。

此模板要求用户必须提供一个预先准备好的、包含问答对的表格。

因此,它仅支持文件上传 (File Upload)这一种数据源类型,并且只接受csv 格式的文件。

用户上传的 CSV 文件会作为这个节点的输出,传递给下一个处理节点。

所以把其他格式都删除掉,只保留csv格式即可。

2.2 问答节点(Q&A PROCESSOR)

简单问答模板需要一个预先准备好的、包含问答对的表格。

因此,该模板仅支持文件上传这一数据源,并只接受 csv 文件格式。

节点作用:这是流程的核心处理环节,负责将文件内容结构化。

具体配置:

它接收上一个节点传入的文件,并从表格中提取指定的列来生成问答对。

问答处理器(Q&A Processor) 会从表格中提取指定的列,以生成结构化的问答对。用户可以自行指定哪些列用于问题,哪些列用于答案。

这些问答对会根据问题字段建立索引,因此用户的查询会直接与问题进行匹配,从而检索到对应的答案。这种 Q-to-Q(问题到问题)的匹配策略提升了清晰度和精确度,尤其是在处理高频或内容高度相似的用户问题时效果显著。

2.3 知识库节点(KNOWLEDGE BASE)

知识库提供两种索引方法:高质量 (High-Quality) 和 经济 (Economical),两者各有不同的检索策略。

  • 高质量模式:使用 embeddings 进行向量化,支持向量检索、全文检索和混合检索。这种方式能提供更准确的结果,但资源消耗也更高。
  • 经济模式:采用基于关键词的反向索引,不消耗 token,但准确度较低。此模式可以升级到高质量模式,但无法降级(如需降级,必须重新创建一个新的知识库)。

请注意:父子模式 (Parent-Child Mode) 和 问答模式 (Q&A Mode) 仅支持高质量索引方法。

节点作用:这是处理完毕的数据最终存储和索引的地方。

具体配置:

它接收问答处理器生成的结构化问答对。

分块结构被设定为 Q&A,专门用于问答场景。

索引方法被设定为高质量 (High-Quality)模式。

这是一个强制要求,因为问答模式 (Q&A Mode)仅支持高质量索引方法。

高质量模式会使用嵌入模型(此配置中为 BAAI/bge-m3)进行向量化,并启用重排序模型(BAAI/bge-reranker-v2-m3)以提供更精确的检索结果。

从一个结构化的问答文件(如 CSV)中提取问答对,并将其构建成一个专门用于问答检索的知识库。

3 测试

3.1 测试运行

测试运行,点击选择文件。

上传本地文件,选择下一步。

测试文件如下:

设置问题和答案的列,我就用之前的默认值。点击处理按钮。

可以看到已经生成好知识库了。

3.2 添加文件

发布知识流水线后,我们可以点击左侧文档,添加文件。

选择数据源,还是上传本地文件。

设置CSV文件中问题和回答的列数。

点击保存并处理,等待出现对钩的时候就完成了。

点击前往文档看到状态为可用就ok了。

3.3 召回测试

点击召回测试。可以对检索进行设置,比如开启Score阈值。

随便测个问题,试用期最长是多久?

可以看到选取的分段和回答的详情。

4 在工作流中调用知识库

可以新建一个工作流,在知识库检索里选择我们之前创建的这个简单问答知识库。

还是问同样的问题,试用期最长是多久?

在不设置Score的情况下返回了三个分段,第二个已经到0.001分了,结果是排序过的。

如果设置Score的值,就和召回测试的结果一样,只返回高于这个阈值的结果,减少干扰项。

5 总结

看来这次Dify在知识库这块改动确实比较大,模版一下子给了7个,还是值得都深入研究一下的。

如果你想从模版中直接创建,就在创建知识流水线的时候,选择通过知识流水线创建知识库。

可以添加空白知识流水线,或者选择相应的模版。

通过知识流水线创建创建知识库的5个步骤:

1、创建知识流水线。从0开始或从模版创建。

2、知识流水线编排。从0创建的小伙伴也可以根据我的节点配置来。

3、发布知识流水线。完成知识流水线的编排和调试后,点击发布并在弹窗中点击确认,即成功发布知识流水线。

4、上传文件。添加数据源后,填写文件处理相关参数和变量。

5、管理和使用知识库。创建知识库后,你可以继续对其进行管理和优化,以确保它能为你的应用程序提供准确的的上下文信息。

读者福利大放送:如果你对大模型感兴趣,想更加深入的学习大模型**,那么这份精心整理的大模型学习资料,绝对能帮你少走弯路、快速入门**

如果你是零基础小白,别担心——大模型入门真的没那么难,你完全可以学得会

👉 不用你懂任何算法和数学知识,公式推导、复杂原理这些都不用操心;
👉 也不挑电脑配置,普通家用电脑完全能 hold 住,不用额外花钱升级设备;
👉 更不用你提前学 Python 之类的编程语言,零基础照样能上手。

你要做的特别简单:跟着我的讲解走,照着教程里的步骤一步步操作就行。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

现在这份资料免费分享给大家,有需要的小伙伴,直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型?

数据显示,2023 年我国大模型相关人才缺口已突破百万,这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代,产业对专业人才的需求将呈爆发式增长,据预测,到 2025 年这一缺口将急剧扩大至 400 万!!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战,跟着学习路线一步步打卡,小白也能轻松学会!
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够,这套学习资料还包含了丰富的实战案例,让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题,我都给大家汇总好了,能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
👉获取方式

😝有需要的小伙伴,可以保存图片到VX扫描下方二维码免费领取【保证100%免费】
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最适合零基础的!!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐