2025年RAG技术爆发!华为/阿里都在用的文档处理方案,不学就落后(附专利解析)
在刚开始做RAG的时候,认为RAG很简单;虽然说文档处理是一个难点,但那也是没办法的事,毕竟这玩意在业界就是一个难点;但随着这段时间做RAG的数据处理和优化才发现事情远远没有自己想的那么简单。
“ 在RAG系统中,业务比技术更重要;好的业务和设计能大大减少你的工作量,并提升召回率。”
在刚开始做RAG的时候,认为RAG很简单;虽然说文档处理是一个难点,但那也是没办法的事,毕竟这玩意在业界就是一个难点;但随着这段时间做RAG的数据处理和优化才发现事情远远没有自己想的那么简单。
虽然说复杂文档处理是一个难点,但那并不是你做不好RAG的理由;原因就在于你根本没有弄明白,怎么才能做好一个RAG系统;你所认为的RAG就是简单的把文档处理拆分一下,然后向量化入库就算完成了一个RAG系统。

但RAG真的有那么简单吗?
怎么做好一个RAG系统?
再次强调一句话——做RAG需要弄明白两件事,一是RAG到底是什么,二怎么才能做好一个RAG系统?
先问自己一个问题,你真的了解RAG吗?
只要在网上看过几篇关于RAG的文章,很多人对RAG都会有一个基本的认识;但是,你真的让他做一个RAG系统出来,你会发现到处都是问题,表面上看着系统是做出来了,但是召回率一塌糊涂,做是做出来了,但是不能用。
原因就在于你没有真正理解什么是RAG,以及应该怎么做一个可以用的RAG系统。
首先,理解RAG有两个层面,一个是技术面,一个是业务面;网上关于RAG技术的介绍已经有很多了,这里就不再详细赘述,总之就是RAG的核心就在于文档处理和数据召回两个方面,以及最后丢给大模型的文档质量。
下面我们从两个角度深入讨论一下,怎么做好一个RAG系统;可能很多人都会认为,RAG的核心在于技术,事实上RAG的核心不在技术面,而在业务面,因为业务决定了你RAG的应用场景,而技术只是具体实现的一种方式。
为什么说RAG的核心在于业务?
因为不同的业务系统对RAG的要求是不一样的,这里的不一样包括很多方法;比如说文档的类型,格式,处理规范会不一样;其次,宽泛的文章写作和严格的医疗,法律对RAG的要求也不一样。
以作者现在做的日常咨询类场景为例,我们对RAG的召回率要求在百分之90以上;文档的主要形式是word,pdf,excel和数据库数据。
由于系统要求的是以自然语言对话的方式,来提升部门的办事效率;因此,对所有文档都需要进行向量化处理,这样才能更好的进行自然语言对话,毕竟对用户来说,他们并不是专业人员,很多术语和名词,他们也不知道是啥意思;所以,基于自然语言对话,让大模型去理解用户的意图,然后用相似度匹配的方式召回相关内容是一个很好的选择。

所以,面对这样的业务场景和多种不同的文档格式,我们需要一个统一的载体对文档进行处理;毕竟,word和excel是完全不同的两种数据格式;而我们表格和图片类数据又不多。
因此,我们选择的是markdown格式作为我们的主要载体,原因就在于word,excel,包括数据库数据都可以处理成markdown格式;而且markdown和xml,html这种结构化的数据格式相对比较干净和简单;完全非结构化的数据格式,如txt由于没有标题,段落等,不利于理解和处理。
而且,其也不像json等支持的数据有限,如图片在json中表示只能使用图片地址或base64,但这对模型来说根本没有任何意义。当然,如果说你的文档充满大量复杂布局的内容,如图片位置,多栏布局等,那么markdown就不是一个好的选择了。
总之,之所以选择markdown的原因就在于其对人类比较友好,对模型也比较友好;最重要的是其适合我们的业务场景。
其次,从技术层面来说,把不同格式的数据转换成markdown形式,也比较好处理;word,pdf等可以直接转换成markdown格式;而excel,也可以通过解析的方式拼接成markdown。

再有,对文档数据的处理,很多人在做RAG时,文档处理就是把文档一股脑的丢到向量库中;但事实上,很多文档充斥着大量的噪音和无用数据,这些数据完全可以给删掉,而不会对我们的业务产生任何影响,或者说唯一的影响就是好的影响。
在文档处理中,我们首先要删除掉噪音数据,其次还要对完整的数据做出选择;比如说,某些场景下时间是很重要的数据,但某些场景下时间是无用数据;总之,在不同的业务和场景中,选择合适的数据,比你累死累活的优化文档处理流程更重要;毕竟如果从源头上就错了,那么后续做的再多再好又有什么用。
再有,之所以选择markdown做载体,原因就是因为其简单的结构化格式;不同的数据和场景要求,使用不同的结构化形式,能够大大提升召回率,;比如说使用标签对数据进行分级等,而不是你累死累活的想办法去优化召回策略。
化形式,能够大大提升召回率,;比如说使用标签对数据进行分级等,而不是你累死累活的想办法去优化召回策略。
总之,想做好一个RAG系统你技术是一方面,更重要的是你的业务和要求;千万不要搞反了。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。

课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐






所有评论(0)