RAGFlow分块策略：通用、问答、简历、论文等模板化处理

你是否还在为不同类型文档的分块效果不佳而烦恼？RAGFlow的模板化分块策略让你告别繁琐的手动调整，一键适配通用文本、问答、简历、论文等多种场景。本文将详细介绍RAGFlow的分块机制、模板类型及实操方法，帮助你提升检索精度与问答效果。## 分块策略核心架构RAGFlow的分块系统通过可配置的模板化策略，实现不同文档类型的智能处理。核心代码位于[rag/flow/chunker/chunk...

孔祯拓Belinda

559人浏览 · 2025-10-01 04:31:21

孔祯拓Belinda · 2025-10-01 04:31:21 发布

RAGFlow分块策略：通用、问答、简历、论文等模板化处理

【免费下载链接】ragflow RAGFlow是一个基于深度文档理解的开源RAG（检索增强生成）引擎。项目地址: https://gitcode.com/GitHub_Trending/ra/ragflow

你是否还在为不同类型文档的分块效果不佳而烦恼？RAGFlow的模板化分块策略让你告别繁琐的手动调整，一键适配通用文本、问答、简历、论文等多种场景。本文将详细介绍RAGFlow的分块机制、模板类型及实操方法，帮助你提升检索精度与问答效果。

分块策略核心架构

RAGFlow的分块系统通过可配置的模板化策略，实现不同文档类型的智能处理。核心代码位于rag/flow/chunker/chunker.py，采用插件化设计支持多种分块方法扩展。

分块参数配置

ChunkerParam类定义了分块的核心参数，包括方法选择、块大小、重叠率等关键配置：

class ChunkerParam(ProcessParamBase):
    def __init__(self):
        super().__init__()
        self.method_options = [
            # General
            "general", "onetable",
            # Customer Service
            "q&a", "manual",
            # Recruitment
            "resume",
            # Education & Research
            "book", "paper", "laws", "presentation"
        ]
        self.method = "general"
        self.chunk_token_size = 512
        self.overlapped_percent = 0

分块流程示意图

分块处理主要包含三个阶段：文档解析、策略匹配和智能分块。系统根据文档类型自动选择最优分块模板，或根据用户配置强制执行指定策略。

模板化分块策略详解

1. 通用文档分块（General）

通用分块策略适用于大多数非结构化文本，采用基于语义边界的自适应拆分算法。核心实现位于rag/flow/chunker/chunker.py的_general方法：

def _general(self, from_upstream: ChunkerFromUpstream):
    if from_upstream.output_format in ["markdown", "text", "html"]:
        payload = self._get_payload(from_upstream)
        cks = naive_merge(
            payload,
            self._param.chunk_token_size,
            self._param.delimiter,
            self._param.overlapped_percent,
        )
        return [{"text": c} for c in cks]

该方法通过naive_merge函数实现文本的智能合并，确保语义完整性的同时控制块大小。

2. 问答型文档分块（Q&A）

针对FAQ、帮助文档等问答类内容，系统采用问答对提取算法，将问题与对应的回答绑定为独立块。配置示例：

{
  "method": "q&a",
  "chunk_token_size": 1024,
  "auto_questions": 3
}

启用auto_questions参数可自动为每个分块生成相关问题，提升检索召回率。

3. 简历分块（Resume）

简历分块采用结构化提取策略，通过deepdoc/parser/resume/模块提取关键信息：

# 简历实体提取示例（deepdoc/parser/resume/step_one.py）
FIELDS = [
    "name STRING", "phone STRING", "email STRING",
    "degree STRING", "school_name STRING",
    "work_experience int", "position_name STRING"
]

分块时优先保留个人信息、工作经历、教育背景等关键模块的完整性，便于招聘场景下的精准匹配。

4. 论文分块（Paper）

论文分块针对学术文献特点，按章节结构（摘要、引言、方法、结果、结论）进行拆分，并保留图表引用关系。核心实现位于rag/flow/chunker/chunker.py的_paper方法：

def _paper(self, from_upstream: ChunkerFromUpstream):
    # 论文结构识别与分块逻辑
    sections = self._extract_sections(from_upstream.json_result)
    return self._merge_sections(sections)

分块策略配置指南

分块参数配置表

参数	含义	默认值	推荐范围
chunk_token_size	块大小（ tokens）	512	256-2048
overlapped_percent	重叠率	0	0-0.3
auto_keywords	自动关键词数量	0	0-5
auto_questions	自动问题数量	0	0-3

配置方式

通过API配置：

# SDK配置示例（sdk/python/hello_ragflow.py）
dataset.set_chunker_config({
    "method": "resume",
    "chunk_token_size": 768,
    "tag_sets": ["recruitment", "tech"]
})

Web界面配置：在数据集设置页面，选择"分块策略"标签页进行配置。

性能优化建议

根据docs/guides/dataset/best_practices/accelerate_doc_indexing.mdx文档建议，优化分块性能可采取以下措施：

纯文本PDF选择"Naive"解析器替代"DeepDoc"
禁用非必要的auto_keywords和auto_questions
大文件优先采用"onetable"方法进行表格提取

实际应用案例

案例1：学术论文处理流程

使用paper分块方法解析PDF
启用tag_sets添加学科标签
配置page_rank提升重要章节权重

{
  "method": "paper",
  "chunk_token_size": 1536,
  "tag_sets": ["computer_science", "machine_learning"],
  "page_rank": 5
}

案例2：简历筛选系统

通过deepdoc/parser/resume/step_two.py实现简历的结构化分块后，可快速构建人才检索系统：

# 简历实体提取结果示例
{
  "name": "张三",
  "degree": "硕士",
  "work_experience": 5,
  "position_name": "软件工程师",
  "skill_obj": ["Python", "机器学习", "自然语言处理"]
}

总结与展望

RAGFlow的模板化分块策略通过场景化设计，解决了不同类型文档的分块难题。核心优势包括：

多场景适配：覆盖通用、问答、简历、论文等10+场景
可配置性：丰富的参数调节分块效果
性能优化：支持GPU加速和增量分块

未来版本将引入更智能的自适应分块算法，结合文档内容动态调整分块策略。如需了解更多分块配置细节，请参考官方文档docs/guides/dataset/。

点赞收藏本文，关注RAGFlow项目获取最新分块策略更新！

【免费下载链接】ragflow RAGFlow是一个基于深度文档理解的开源RAG（检索增强生成）引擎。项目地址: https://gitcode.com/GitHub_Trending/ra/ragflow

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla