RAG开源框架调研笔记
RAG开源框架调研笔记
·
RAG 项目对比:RAGFlow、WeKnora、Pandaswiki、Dify、LangChain、Haystack、FastGPT、R2R、Cognita
文章目录
1 总览结论
- 中文适配:国产项目(RAGFlow、WeKnora、FastGPT、Dify)中文体验更优;国际框架(LangChain、Haystack、R2R、Cognita)依赖所选模型与向量库,中文需额外配置(如 BGE/GTE、BM25 + 中文分词)。
- RAG能力:上述全部具备或支持构建 RAG;其中 RAGFlow、Haystack、R2R、FastGPT 在“生产级编排”与“混合检索/重排”方面更完整。
- 即时通信接入:平台型(Dify、FastGPT)接入最便捷;WeKnora天然面向微信生态;其余可通过 API + 社区 Bot 框架(LangBot、AilingBot、ChatGPT-on-WeChat 等)桥接到微信/飞书。
- API唤出:全部支持或可通过配套组件(如 LangServe、Hayhooks)暴露为 API;平台/引擎的 API 设计更完备(Dify、FastGPT、R2R、WeKnora、RAGFlow)。
2 维度对比表(截至 2025-11-26)
| 项目 | 是否适合中文 | 是否有 RAG | 特色功能 | 社区活跃 & Star | IM接入(微信/飞书) | API唤出 |
|---|---|---|---|---|---|---|
| RAGFlow | 强 | 是 | 深度文档理解、可视化分片、Agent+MCP、模板化切片 | ≈68k(Releases页)[1] | 需通过第三方桥接或自建 | REST API、MCP(v0.22+)[1] |
| WeKnora(Tencent) | 强 | 是 | 企业级文档理解、混合检索/GraphRAG、MCP 服务端/客户端 | ≈7.6k(组织仓库列表)[10] | 原生面向微信生态(API示例含“business: wechat”)[6] | 完整 REST API 文档[6] |
| Pandaswiki(社区/示例) | 一般 | 是 | 面向 Pandas 文档的演示型 RAG(LangGraph/Self-RAG/Corrective RAG) | 小型 Demo(示例仓库)[11] | 无官方直连,需自建 | 以示例代码/脚本为主[11] |
| Dify | 强 | 是 | Agentic Workflow、插件市场、知识库、可视化编排 | ≈120k(Releases页)[15] | 官方用例与生态工具(LangBot、Dify on WeChat)快速对接[19][17] | 完整 REST API(应用/工作流)[17] |
| LangChain | 中 | 是 | 组件与抽象丰富、LangServe 暴露 API、LangGraph 搭建复杂控制流 | ≈120k(主仓)[21][25] | 通过社区框架(AilingBot/LangBot)桥接[20][23] | LangServe/自建服务端[25] |
| Haystack | 中 | 是 | 生产级管线/Agent、重排、评估、Hayhooks 暴露 REST | ≈23k(主仓)[12] | 通过 API + Bot 框架桥接(无官方直连) | Hayhooks/REST、OpenAI Responses API 集成[13] |
| FastGPT | 强 | 是 | 知识库 + 可视化 Flow、向量模型混用、多数据源 | ≈26k(主仓)[2][3] | 社区实践显示支持企业微信/飞书接入[8] | OpenAPI(聊天/知识库 CRUD)[2] |
| R2R(SciPhi-AI) | 中 | 是 | 混合检索、知识图谱、Agentic RAG、观测与仪表盘 | ≈7.2k(生态元数据)[16] | 通过 REST API + 社区 Bot 框架桥接 | Python/JS SDK + RESTful API[14] |
| Cognita(TrueFoundry) | 中 | 是 | 模块化 RAG、UI 可视化配置、可扩展数据源 | ≈4.2k(活动页)[18] | 通过 REST API + 社区 Bot 框架桥接 | API 驱动模块,支持生产部署[18][26] |
注:
- Star 为近似值,随时间波动;选择权威页面作为引用来源(Releases/Activity/Org 列表)。
3 项目要点与适配建议
| 框架 | 最低硬件 | 一键离线包 | 中文体验 | 亮点 | 注意点 |
|---|---|---|---|---|---|
| FastGPT | 8C/16G/50G | docker-compose.yml 官方给好 | 原生中文后台+提示词库 | 5 min 启动,自带微信/飞书机器人插件 | 功能简单,缺多路召回,适合先做 PoC |
| RAGFlow | 4C/16G/50G | 提供离线镜像 tar 脚本 | 简繁分词+版式还原 | 扫描件 OCR、答案溯源快照、支持昇腾/寒武纪 | 初次构建需科学上网拉镜像,建议提前导出 tar |
| AnythingLLM | 4C/8G/20G | Docker 镜像 + 桌面绿色版 | 界面全中文 | 30+ 模型一键切,自带权限体系,NAS 友好 | 重排能力弱,适合部门级知识库 |
| Dify | 8C/32G/100G | 官方 offline-helm 包 | 中文模板市场 | 可视化工作流+审批节点,内置 RBAC+审计 | 组件多,第一次部署需 6 个镜像,资源规划要留足 |
| ** Haystack ** | 8C/32G/200G | 提供离线 Helm 模板 | 需手动加中文 analyser | 工业级 PDF-OCR、36 种评估指标,适配西门子/ASML 案例 | 需要写 YAML 拼装管道,对运维能力有要求 |
| Cognita | 16C/64G/300G | 官方 air-gap Helm 包 | 仅模型层支持中文 | 分布式增量索引、灰度发布、GPU 池化,已落地 BP 石油 | 偏重索引与网关,生成需外挂本地 LLM,学习曲线最陡 |
3.1 RAGFlow
- 核心能力:深度文档理解、模板化分片、可视化切片编辑、引用与追溯、Agent/MCP 集成。
- 中文适配:强(中文文档/分词/模板完善)。
- 接入 IM:可通过 Dify LangBot/ChatGPT-on-WeChat 等桥接;未见官方“微信/飞书”直连文档。
- 参考:Releases 页显示 Star ≈68k;MCP 功能完善(v0.22.1)[1][4].
3.2 WeKnora(Tencent)
- 核心能力:多模态解析(PDF/Word/图片OCR)、BM25/向量/GraphRAG 混合检索、MCP Server/Client。
- 中文适配:强(官方中文文档与微信生态场景)。
- 接入 IM:API 示例含 “business: wechat”,面向微信生态落地[6]。
- 参考:Repo 与 Docs(REST API 完备;MCP 配置指南)[5][6].
3.3 Pandaswiki(社区/示例)
- 核心能力:面向 Pandas 文档的 RAG 演示(LangGraph + Self/Corrective-RAG),非平台型[11][13].
- 中文适配:一般(示例为英文场景)。
- 接入 IM:需自建(无官方渠道)。
- 适用:学习 RAG 流程与 LangGraph 控制流;不建议直接用于生产。
3.4 Dify
- 核心能力:Agentic 编排、插件生态、知识库、工作流 API、企业级部署(VPC/私有化)。
- 中文适配:强(中文社区与文档完备)。
- 接入 IM:官方文档提供经 LangBot 快速对接微信/飞书/钉钉/Slack/Discord/Telegram[19][20];另有 “Dify on WeChat”教程[17].
- 参考:主仓 Star ≈120k;Releases/Docs 已覆盖 Responses API、Workflow 等[15][19].
3.5 LangChain
- 核心能力:RAG 组件丰富、集成广泛;结合 LangServe 快速暴露 API;复杂 Agent 建议用 LangGraph[25].
- 中文适配:中(依赖中文嵌入与分词/检索策略)。
- 接入 IM:通过社区(AilingBot/LangBot)桥接企业微信/飞书/钉钉[20][23].
- 参考:主仓与生态(LangGraph、多集成包)[21][25].
3.6 Haystack
- 核心能力:生产级编排/Agent/重排/评估;Hayhooks 快速把 Pipeline 暴露为 REST;教程与 Cookbook 完备。
- 中文适配:中(推荐 BGE/GTE + BM25/混合检索)。
- 接入 IM:借助 REST API 与第三方 Bot 框架(无官方直连)。
- 参考:主仓 README/Features/Release Notes(Responses API、PipelineTool 等)[12][13].
3.7 FastGPT
- 核心能力:知识库 + 可视化 Flow、数据分片追踪、混用向量模型、多数据库(pgvector/Milvus)。
- 中文适配:强(中文社区与实践活跃)。
- 接入 IM:社区文章/教程显示企业微信/飞书可接入[8].
- 参考:主仓 README、活动/贡献图,Star ≈26k[2][3].
3.8 R2R(SciPhi-AI)
- 核心能力:混合检索(RRF)、知识图谱、Agentic RAG、Dashboard(Next.js)、Python/JS SDK。
- 中文适配:中(依赖选型与检索策略)。
- 接入 IM:通过 REST API 与社区 Bot 框架桥接。
- 参考:Repo/Quickstart/应用与仪表盘仓库,Star ≈7.2k[14][16].
3.9 Cognita(TrueFoundry)
- 核心能力:模块化 RAG、统一组织 parsers/loaders/embedders、UI 可视化实验与部署。
- 中文适配:中(依赖所选中文向量/检索方案)。
- 接入 IM:通过 REST API 与社区 Bot 框架桥接。
- 参考:Repo/Blog/Frontend 文档,Star ≈4.2k[18][26][22].
3.10
txtai 和 RAGFlow 都是优秀的 RAG(检索增强生成)框架,但它们在设计哲学、核心优势和适用场景上有着明显的不同。下面这个表格能帮你快速把握两者的核心区别。

💡 如何选择?
综合来看,你的选择完全取决于你的具体需求和技术背景:
选择 txtai,如果:
- 你是一位开发者或技术团队,希望构建一个高度定制化的AI应用,而不仅仅是知识库问答。
- 你的应用场景涉及多模态数据(如同时处理文本、图片、音频),或者需要将RAG与其他AI任务(如翻译、摘要)通过复杂工作流串联起来。
你需要在资源受限的环境(如边缘设备)中部署应用。
选择 RAGFlow,如果:
- 你的核心目标是快速构建一个企业级知识库问答系统,且文档多为格式复杂的PDF、Word、PPT等。
- 你对答案的准确性和可追溯性有高要求,需要清晰的引用来源。
- 你的团队技术背景相对薄弱,或者希望通过图形化界面快速配置和上线应用,追求开箱即用的体验。
希望这份对比能帮助你做出清晰的选择。如果你能分享一下你计划处理的数据类型或者团队的技术栈背景,或许我可以给出更具体的建议。
4 选型建议(按你的要求)
- 中文与企业 IM 优先:Dify(LangBot/WeChat 教程齐全)[19][17]、WeKnora(微信生态)[6]、FastGPT(国内生态)
- 生产编排与评估:Haystack(Pipeline/Agent/评估 + Hayhooks)[12][13]、R2R(知识图谱+观测)
- 复杂主题/关系推理:GraphRAG(可与 Haystack/R2R/Kotaemon 结合);若在腾讯生态,WeKnora 已内置 GraphRAG 支持矩阵[5].
- 快速 Demo/学习:LangChain + LangGraph(控制流/RAG 教程丰富);Pandaswiki 场景demo用于学习[11][13].
5 引用与来源
- RAGFlow Releases(Star/特性/MCP): https://github.com/infiniflow/ragflow/releases
- FastGPT Repo(特性/Star): https://github.com/labring/FastGPT
- FastGPT README(平台特性/部署): https://github.com/labring/FastGPT/blob/main/README_en.md
- RAGFlow README(MCP/Agent 能力): https://github.com/infiniflow/ragflow
- WeKnora Repo(综述/架构/特性矩阵/MCP): https://github.com/Tencent/WeKnora
- WeKnora REST API 文档: https://github.com/Tencent/WeKnora/blob/main/docs/API.md
- RAG 框架汇总(国内接入经验): https://www.cnblogs.com/deeplearningmachine/p/18185555
- Tencent 组织仓库列表(WeKnora条目与星数): https://github.com/orgs/Tencent/repositories
- Pandas RAG 示例(LangGraph): https://github.com/vbarda/pandas-rag-langgraph
- Haystack Repo(框架介绍): https://github.com/deepset-ai/haystack
- Haystack Releases(Responses API、PipelineTool 等): https://github.com/deepset-ai/haystack/releases
- R2R Repo(REST API/SDK/特性): https://github.com/SciPhi-AI/R2R
- Dify Releases(Star/版本): https://github.com/langgenius/dify/releases
- Dify on WeChat 教程: https://www.aisharenet.com/en/dify-yilaichatgpt-o/
- Dify Docs(LangBot 连接微信/飞书/QQ/Slack/Discord/Telegram): https://docs.dify.ai/en/learn-more/use-cases/connect-dify-to-various-im-platforms-by-using-langbot
- Awesome LangChain(AilingBot 等 IM 桥接): https://www.trackawesomelist.com/kyrolabs/awesome-langchain/readme/
- LangChain 组织页: https://github.com/langchain-ai
- GitHub 话题页(Dify 与 IM Bot 生态): https://github.com/topics/dify
- LangChain 主仓(API/生态): https://github.com/langchain-ai/langchain
- Cognita Repo(模块化 RAG/UI/数据源): https://github.com/truefoundry/cognita
6 其他文章借鉴
AI应用开发终极指南:Dify、Coze、n8n…八大平台谁是你的"天选之子"?

7 其他开源项目
https://github.com/gusye1234/nano-graphrag
https://github.com/Cinnamon/kotaemon
https://github.com/weaviate/Verba
https://github.com/neuml/txtai
https://github.com/truefoundry/cognita
https://github.com/SciPhi-AI/R2R
更多推荐





所有评论(0)