腾讯WeKnora开源RAG项目v0.2.0迎来重大更新,新增知识库管理、ReACT Agent模式、Neo4j知识图谱支持及DuckDuckGo搜索引擎。文档解析功能优化,支持CSV、Excel等格式,并引入MarkItDown与MinerU专业解析器。尽管与主流RAG系统仍有差距,但已补齐多数现代RAG功能,展现出良好的发展潜力。

一、WeKnora简介

WeKnora是腾讯的一个RAG开源项目,在项目的官网的介绍中,主推的是与微信生态对接的RAG项目,我本地部署过在0.1版本WeKnora,还曾写过一个WeKnora对接Mineru解析pdf的开源项目,算是对WeKnora有比较深了解!

当时的WeKnora给我的实际体验很一般!知识库管理功能没有,模型参数也无法调节,也没有完善的检索测试功能等等,我就不一一说了,总的来水功能是相当简陋!

但是v0.2.0版本也是更新不少的现代的RAG功能的,下面我来介绍一下!

二、基本功能完善

版本增加了知识库管理、模型参数配置、提示词编写等功能,这功能也算终于来了!还支持检索+生成过程可视化与指标评估(该功能目前只有api,没有前端支持,相信未来会补齐的),可以说RAG比较通用的功能都补齐了

ReACT Agent

WeKnora v0.2.0版本项目架构有了大变化,支持支持ReACT Agent模式,可调用内置工具检索知识库、MCP工具和网络搜索,通过多次迭代和反思给出全面总结报告

这也是目前的RAG的趋势所向,将检索知识库作为工具,让大模型自行使用,这确实能大大增强回答质量和检索成功率,而MCP的支持能为大模型增加更多功能

工具功能支持

WeKnora v0.2.0增加一个可选镜像Neo4j,支持知识图谱的可视化与增删改查管理。针对 AI 多轮生成易出现的中英混杂、孤立节点多、描述失真等问题,该模块便于人工校正,提升图谱质量与可用性,在目前的开源RAG竞品就只有WeKnora原生支持Neo4j

不仅如此,新版本还内置了内置DuckDuckGo搜索引擎,这是RAG的常用网络搜索工具,我之前使用过,实际效果还是bing、百度付费检索api更好用,但是DuckDuckGo搜索引擎免费,还要啥自行车!!!

文档解析功能

WeKnora v0.2.0对文档的解析功能也是有大的优化,新增了表格文件如csv、xlsx的文档解析

def parse_into_text(self, content: bytes) -> Document:
chunks: List[Chunk] = []
text: List[str] = []
start, end = 0, 0
excel_file = pd.ExcelFile(BytesIO(content))
for excel_sheet_name in excel_file.sheet_names:
df = excel_file.parse(sheet_name=excel_sheet_name)
df.dropna(how="all", inplace=True)
for _, row in df.iterrows():
page_content = []
for k, v in row.items():
if pd.notna(v):  # Skip NaN/null values
page_content.append(f"{k}: {v}")
ifnot page_content:
continue
content_row = ",".join(page_content) + "\n"
end += len(content_row)
text.append(content_row)
chunks.append(
Chunk(content=content_row, seq=len(chunks), start=start, end=end)
)
start = end
return Document(content="".join(text), chunks=chunks)

WeKnora v0.2.0 引入两款广受开源社区认可的文档解析器:MarkItDown 与 MinerU。其中,MarkItDown 擅长将多种格式文档统一转换为高质量 Markdown;MinerU 则专精于高精度 PDF 解析,尤其在保留结构与语义方面表现突出。二者均为当前开源领域中易用性与准确性俱佳的文档解析工具。

同时,还在代码中加入了链式解析,这使得文档解析更加的稳定!且从代码逻辑思路上看,Markdown文档会是文档解析的一等公民,所有文档能转成Markdown,都是使用Markdown,我个人是认同这个思路!在多模态RAG没有成熟之前,Markdown确实比较理想的RAG文档

总结

WeKnora v0.2.0版本算的上是划时代的版本,补齐了许多现代RAG的功能,官方还发出了WeKnora发展路线图

目前但是对于目前主流如Dify、ragflow、FastGPT还有一定差距,都是官方还是有决心想做出一个好的RAG系统的!我们也期待WeKnora能越做做好!

那么,如何系统的去学习大模型LLM?

作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐