RAG 文档解析工具选型指南

本文探讨了RAG系统处理不同类型知识的方法，包括结构化、半结构化、非结构化和多模态知识。结构化知识如知识图谱和表格，虽易查询但集成困难；半结构化数据如HTML和JSON，需要专门工具解析；非结构化知识如PDF和纯文本，需借助OCR等技术处理；多模态知识则需对齐不同模态到共享嵌入空间。文章还推荐了相关工具，并展望了能理解多种知识格式的RAG系统前景。最后提供了一套AI大模型学习资源，涵盖视频教程、技

码农Q！

473人浏览 · 2025-08-26 17:11:01

码农Q！ · 2025-08-26 17:11:01 发布

对于 RAG 系统而言，从文档中提取信息是一个不可避免的情况。最终系统输出的质量很大程度上取决于从源内容中提取信息的效果。

过去，我曾从不同角度探讨过文档解析问题[1]。本文结合近期一篇 RAG 调查报告[2]的发现与我之前的部分研究，对 RAG 系统如何解析和整合结构化、半结构化、非结构化和多模态知识进行了简明概括。

image.png

Figure 1: RAG 系统整合的多种知识类型，涵盖结构化、半结构化、非结构化和多模态知识。[Source[2]]

1.结构化知识：数据按规则组织的范式

1.1 知识图谱：易于查询，便于使用，难以集成

知识图谱以一种清晰、互联的方式描述实体及其关系，使其成为机器系统的图谱遍历与查询的理想选择。

RAG 系统非常喜欢这样的结构化数据源 —— 它们精确且语义丰富。但真正的挑战不在于查找数据，而在于如何有效地利用它。

如何从海量知识图谱中提取有意义的子图？
如何将结构化的图谱数据与自然语言对齐？
随着图谱规模的增长，系统是否仍能保持高效？

一些有前景的解决方案正逐步解决这些问题：

GRAG 从多个文档中检索子图，来生成更聚焦的输入。
KG-RAG 采用探索链算法（Chain of Explorations，CoE）来优化基于知识图谱的问答性能。
GNN-RAG 采用图神经网络（GNN）检索和处理来自知识图谱（KG）的信息，在数据输入大语言模型（LLM）之前先进行一轮推理。
SURGE 框架利用知识图谱生成更具相关性和知识感知（knowledge-aware）的对话，从而提升交互质量。
在特定领域，诸如 SMART-SLIC、KARE、ToG2.0 和 KAG[3] 等工具已充分证明，知识图谱作为外部知识源可以发挥多么强大的作用，可帮助 RAG 系统同时提升准确性和效率。

1.2 表格：结构紧凑、数据密集且解析困难

表格也是一种结构化数据 —— 但它们与知识图谱截然不同。几行几列就可能蕴含着大量信息。但如何让机器理解这些信息？那完全是另一回事了。

表格中未明示的逻辑关系、格式不一致、专业领域内特有的知识...表格数据常游走于秩序与混沌之间。幸运的是，已有专门处理此类复杂情况的工具：

TableRAG[4] 结合查询扩展（query expansion）、表结构与单元格检索（schema and cell retrieval），在将信息传递给语言模型前精准识别关键内容。
TAG 和 Extreme-RAG 则更进一步整合了 Text-to-SQL 能力，使语言模型能够直接“操作数据库”。

核心结论？若能有效解析表格，它们就是价值极高的信息源。

2.半结构化数据：HTML、JSON 以及网络数据的杂乱中间态

半结构化数据就像数据世界的“家中老二（middle child）” —— 既非完全结构化，也不完全是非结构化的。它比知识图谱更灵活，却比原始 PDF 文档更有条理。典型代表如 HTML 页面、JSON 文件、XML、电子邮件等格式，它们虽具备一定的结构特性，却常表现出结构规范不一致或结构要素不完备的特征。

尤其是 HTML，它无处不在，而每个网站都有其独特性。虽然存在 tags、attributes、elements（译者注：DOM 核心构件）等结构化成分，但仍混杂着大量非结构化文本与图像。

为了有效解析 HTML，业界已开发出一系列工具和开源库，可将 HTML 内容转化为文档对象模型（DOM）树等结构化格式。值得关注的流行库包括：BeautifulSoup、htmlparser2、html5ever、MyHTML 以及 Fast HTML Parser。

此外，HtmlRAG[5] 等 RAG 框架在 RAG 系统中利用 HTML 格式替代纯文本，从而保留了语义与结构信息。

若希望 RAG 系统真正理解网页数据而非依靠胡编乱造 —— HTML 解析便是这一切的起点。

3.非结构化知识：PDF、纯文本（既杂乱又有内在逻辑）

接下来叙述的内容才是真正的挑战。非结构化数据（自由格式的文本、PDF 文档、扫描报告）无处不在。

尤其是 PDF 文档，简直就是噩梦：不一致的布局、嵌入内部的图像、复杂的格式。但在学术、法律和金融等领域它们不可或缺。那么，我们该如何让它们符合 RAG 系统的要求呢？

我们可以使用更智能的 OCR 技术、版面分析技术和视觉内容 - 语言融合技术：

Levenshtein OCR 和 GTR 结合视觉和语言线索来提高识别准确率。
OmniParser 和 Doc-GCN 专注于保留文档的结构。
ABINet 采用双向处理机制提升 OCR 系统的表现。

与此同时，一大波开源工具的出现使得将 PDF 转换为 Markdown（一种对 LLM 更友好的格式）的过程变得更加容易。有哪些工具？我基本都已经介绍过了！

GPTPDF[6] 利用视觉模型解析表格、公式等复杂版面结构，并快速转换为 Markdown 格式 —— 该工具运行高效且成本低廉，适合大规模部署。
Marker[7] 专注于清除噪声元素，同时还保留原始格式，因而成为处理研究论文和实验报告的首选工具。
PDF-Extract-Kit（MinerU 采用的 PDF-Extract-Kit 模型库[8]）支持高质量内容提取，包括公式识别与版面检测。
Zerox OCR[9] 对每页文档进行快照处理，通过 GPT 模型生成 Markdown，从而高效管理复杂文档结构。
MinerU[10] 是一种综合解决方案，可保留标题/表格等原始文档结构，并支持受损 PDF 的 OCR 处理。
MarkItDown[11] 是一种多功能转换工具，支持将 PDF、媒体文件、网页数据和归档文件转为 Markdown。

4.多模态知识：图像、音频与视频数据一同入场

传统 RAG 系统专为文本数据而设计，因此在处理图像、音频或视频等多模态信息时往往力不从心。这就导致其回应常显得肤浅或不完整 —— 尤其当核心信息蕴含于非文本内容中时。

为应对这些挑战，多模态 RAG 系统引入了整合和检索不同模态的基本方法。其核心思想是将文本、图像、音频、视频等模态对齐到共享嵌入空间（shared embedding space），实现统一处理和检索。例如：

CLIP 在共享嵌入空间中对齐视觉与语言模态。
Wav2Vec 2.0 和 CLAP 专注于建立音频与文本的关联。
在视频领域，ViViT 等模型专为捕捉时空特征而设计。

这些技术都是基础模块。随着系统的不断演进迭代，我们将看到能够一次性从文档、幻灯片及语音内容中提取洞见的 RAG 应用。

5.结语

在实践中，我发现 MinerU 是解析 PDF 的最佳开源工具。

当然，若你想自建文档解析器，自然需处理诸多复杂细节。但这样做的回报是值得的：更自主的源代码控制、更强的文档安全性，以及更可靠的结果。

后续若有契机，我将分享更多工程实践洞见。

我们正在超越纯文本语言模型的时代。倘若能教会机器理解人类传递知识的各种格式，或许它们也能协助我们更透彻地理解这个世界。

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1.学习路线图

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

5.免费获取(扫下方二v码即可100%领取)

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla