彻底搞定RAG优化！4种核心分块策略深度解析，收藏这篇就够了！

检索增强生成（Retrieval-Augmented Generation, RAG）可能是现阶段大型语言模型在实际应用中落地最有效的方式。RAG技术通过结合检索和生成两种能力，为大模型LLM提供了外部知识源的支持，使其能够更准确、高效地生成符合上下文的答案，同时保持了模型的可扩展性、可控性和可解释性。

程序猿李巡天

963人浏览 · 2025-12-06 10:26:43

程序猿李巡天 · 2025-12-06 10:26:43 发布

在RAG技术中，文档分块（Chunk）的策略对于提高检索和生成的效果至关重要。本文将探讨几种常见的分块策略，并介绍如何在实际应用中实现这些策略。

一、固定大小分块

固定大小分块是最常见的方法，通过设定块的大小和是否有重叠来决定分块。这种方法简单直接，不需要使用任何NLP库，因此计算成本低且易于使用。在实际实现中，可以使用特定的工具或库，如LangChain中的CharacterTextSplitter工具，将文本划分为包含固定数量token的块。

示例代码：

from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(    encoding="cl100k_base",     chunk_size=100,     chunk_overlap=0 )texts = text_splitter.split_text(state_of_the_union)

二、基于结构的分块

基于结构的分块方法利用文档的结构信息进行分块，例如HTML或Markdown格式的文档。这种方法可以充分利用文档中的结构信息，如标题、段落等，保持文本的逻辑和语义完整性。LangChain提供了MarkdownHeaderTextSplitter和HTMLHeaderTextSplitter工具，可以用于解析和转换Markdown或HTML文本。

示例代码：

from langchain.text_splitter import HTMLHeaderTextSplitter
html_string = """<!DOCTYPE html><html><body>    <div>        <h1>Foo</h1>        <p>Some intro text about Foo.</p>        <div>            <h2>Bar main section</h2>            <p>Some intro text about Bar.</p>            <h3>Bar subsection 1</h3>            <p>Some text about the first subtopic of Bar.</p>            <h3>Bar subsection 2</h3>            <p>Some text about the second subtopic of Bar.</p>        </div>        <div>            <h2>Baz</h2>            <p>Some text about Baz</p>        </div>        <br>        <p>Some concluding text about Foo</p>    </div></body></html>"""
headers_to_split_on = [    ("h1", "Header 1"),    ("h2", "Header 2"),    ("h3", "Header 3"),]
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)html_header_splits = html_splitter.split_text(html_string)

三、基于语义的分块

基于语义的分块策略旨在确保每个分块包含尽可能多的语义独立信息。这可以通过标点符号、自然段落或者使用工具包如NLTK、Spacy等实现。此外，还可以使用Embedding-based方法，通过预训练的词嵌入模型（如Word2Vec或BERT）将文本转换为嵌入向量，并根据语义信息进行分块。

示例代码：


from langchain_experimental.text_splitter import SemanticChunkerfrom langchain.embeddings import OpenAIEmbeddings
text_splitter = SemanticChunker(OpenAIEmbeddings())docs = text_splitter.create_documents([state_of_the_union], breakpoint_threshold_type="percentile")
print(docs[0].page_content)

四、递归分块

递归分块使用一组分隔符，以分层和迭代的方式将输入文本划分为更小的块。这种方法可以根据文本的内容和结构动态调整分块的大小和形状，从而更好地适应不同类型的文本数据。LangChain的RecursiveCharacterTextSplitter可以用于实现递归分块。


from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(    chunk_size=100,    chunk_overlap=20,    length_function=len,    is_separator_regex=False,)texts = text_splitter.create_documents([state_of_the_union])print(texts[0])print(texts[1])

总结

RAG技术中的文档分块策略是提升检索和生成效果的关键。不同的分块策略各有优势和适用场景，选择合适的分块策略取决于具体的应用需求和数据特性。固定大小分块、基于结构的分块、基于语义的分块和递归分块都是常见且有效的方法。在实际应用中，可以根据具体情况选择一种或多种策略进行组合使用，以达到最佳效果。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大