揭秘AI智能体的长期记忆系统:架构设计到实际落地,开启智能体记忆存储新纪元!
随着大模型性能提升,上下文窗口限制导致AI智能体缺乏长期记忆,影响用户体验。ZepAI公司推出的记忆层系统通过动态知识图谱和三层架构(Episode、SemanticEntity、Community子图)解决传统RAG的痛点,具备双时间轴建模、智能边失效机制等关键技术。实验显示Zep在精度和响应时间上显著优于基线方法。文章还介绍了基于Zep构建AI智能体的技术实现方案,包括LLM设置、Zep客户端
无论是 DeepSeek 还是 GPT,随着大模型性能的提升,其能够处理的上下文长度也不断增加。然而,一旦超出上下文窗口的限制,大模型就需要重新开启一个对话,就像“失忆”一样,忘记之前交流的内容。
但从用户的角度来看,AI 智能体应该能够记住之前的全部对话。因此,如何高效地管理和利用对话历史,成为了提升 AI 智能体用户体验的关键所在。拥有长期记忆后,Ai 智能体能够回忆过去的对话,从而减少幻觉、延迟和成本。
将聊天记录作为文本导入,然后使用 RAG 来“恢复长期记忆”,是让大模型具备长期记忆的一种常见方法。但这种方法通常需要额外的工程支持,而且构建 RAG 也存在不容忽视的时间差。

传统 RAG 系统本质上是一个"文档图书馆",它假设知识是固定不变的,这在处理动态业务场景时就显得力不从心了。
其次,当新信息与旧信息发生冲突时,RAG 系统无法智能地判断哪个更可信,往往会把矛盾的信息一股脑儿返回给用户。
最后,RAG 缺乏时间维度的理解让系统无法区分"用户去年的偏好"和"用户现在的需求",导致推荐结果偏离实际情况。
在企业级应用中,RAG 作为长期记忆的这种局限性会被无限放大。
比如:在开发一个客户服务 AI 智能体,客户 A 在过去一年中经历了从创业公司到中型企业的转变,其需求从成本控制转向了效率提升,但传统 RAG 系统仍然会基于历史文档推荐成本优化方案。
这种脱节不仅影响用户体验,更可能造成企业业务损失。
为了解决 AI 智能体长期记忆的这些痛点,最近,一家名为 Zep AI 的初创公司推出了为 AI 智能体打造的记忆层,通过回忆聊天历史,可以自动生成摘要和其他相关信息,使 AI 智能体能够在不影响用户聊天体验的情况下,异步地从过去的对话中提取相关上下文。

下文详细剖析之:Zep 长期记忆系统的架构设计、Zep 长期记忆系统的关键技术设计、基于 Zep 构建 AI 智能体的代码级落地实现。
1.Zep 长期记忆系统的架构设计
Zep 能自动从 AI 智能体的用户互动以及不断变化的业务数据中构建一个时间知识图谱。这个图谱包含了与用户和业务背景相关的实体、关系以及事实。Zep 借鉴了 GraphRAG,但与 GraphRAG 不同的是,Zep 能够很好地理解信息随时间的变化。当事实发生改变或者被新的事实取代时,图谱就会更新,以反映新的状态(如下动图展示)。

Graphiti 是 Zep 记忆层背后的技术。它是一个开源的库,能够构建动态的、具有时间意识的知识图谱,用以表示实体之间复杂且不断变化的关系。它可以处理非结构化和结构化的数据,生成的图谱可以通过时间、全文、语义以及图算法等多种方式进行查询。
Zep 架构设计系统的核心是 Graphiti 引擎,它采用了一个巧妙的三层知识图谱架构来解决传统 RAG 的痛点,如下图所示:

第一层:Episode 子图
-
功能:完整地存储原始对话、文本或 JSON 数据,不丢失任何信息。
-
特点:类似于人类的情景记忆,能够保留完整的上下文信息。
第二层:Semantic Entity 子图
-
功能:从原始数据中提取实体和关系。
-
特点:利用实体解析技术,将新旧信息有机地整合在一起。
第三层:Community 子图
-
功能:通过标签传播算法对相关实体进行聚类。
-
特点:形成高层次的概念理解。
这种架构设计使得 Zep 系统既能保留细节信息,又能进行抽象推理。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

2.Zep 长期记忆系统的关键技术设计
1、关键技术一:双时间轴建模:从根本上解决信息更新问题
Zep 最具创新性的技术设计在于其独特的双时间轴建模机制,具体如下:

这种设计使 Zep 系统能够精准处理诸如“用户两周前提到的那个项目其实是三个月前开始的”这类复杂的时间关系。
2、关键技术二:智能的边失效机制
传统系统在面对信息冲突时常常无计可施,而 Zep 凭借 LLM 驱动的边失效机制,以一种优雅的方式解决了这一难题,具体流程如下:
-
冲突检测:当 Zep 系统发现新事实与现有知识图谱中的信息存在语义冲突时。
-
自动标记:将存在冲突的旧信息自动标记为失效状态。
-
时间记录:精准记录下信息失效的具体时间点。
凭借这一机制,AI 智能体能够精准回答诸如“用户什么时候改变了偏好”这类涉及时间推理的复杂问题。
3、关键技术三:三步走的内存检索
第一步:混合搜索策略
Zep 的检索系统融合了三种互补的搜索方法,以实现最大化的召回率:
-
余弦相似度搜索:精准捕捉语义相关性,理解用户问题的深层含义。
-
BM25 全文搜索:高效处理关键词匹配,快速定位关键信息。
-
广度优先搜索:深入发现图结构中的隐含关联,挖掘潜在联系。 这种设计尤其适用于处理用户询问“那个项目的进展如何”时的指代消解问题,能够准确理解并回应用户的意图。
第二步:智能重排序
在检索到候选结果后,Zep 运用多种重排序策略来提升精确度:
-
RRF 和 MMR 算法:传统的重排序方法,经过验证的有效手段。
-
基于图距离的重排序:考虑实体间的关联程度,优化信息的相关性。
-
频次权重调整:让经常被用户提及的信息获得更高优先级,确保重要信息不被遗漏。 通过这些策略,Zep 能够更精准地呈现用户所需的信息,提高检索结果的质量。
第三步:上下文 Prompt 构造
最后一步是将检索和重排序后的节点和边转换为 LLM 友好的文本格式:

-
为每个事实标注有效时间范围:明确信息的时效性,确保 AI 智能体能够准确理解信息的时效性。
-
为每个实体提供简洁的摘要描述:让 AI 智能体快速把握关键信息,提高生成回复的效率。
-
确保 AI 智能体在生成回复时能够准确理解信息的重要程度:让 AI 智能体能够根据信息的重要性进行合理的回应。 通过这种上下文构造模板,Zep 能够清晰标注事实的时间范围和实体信息,为 AI 智能体生成准确、及时的回复提供有力支持。
4、关键技术四:AI 智能体长期记忆领域新标杆
在更具挑战性的 LongMemEval 测试中,加入了更长、更连贯的对话内容以及更多样化的评估问题,从而更好地反映真实场景的需求,Zep 的优势得到了充分体现,实验结果如下表所示:


可以看到,相比基线方法,Zep 不仅提升了结果的精度,而且将响应时间减少了约 90%,相比其他 LLM 供应商也有约 80% 的提升。
3.基于 Zep 构建 AI 智能体的代码级落地实现
接下来,让我们来构建一个具有类似人类记忆的 AI 智能体。
第一、使用的技术栈
-
开源的 Zep 作为我们 AI 智能体的记忆层。
-
AutoGen 用于 AI 智能体编排。
-
Ollama 用于本地提供 Qwen 3服务。
第二、基于 Zep 的 AI 智能体系统架构设计

-
用户提交查询。
-
AI 智能体保存对话并将事实提取到记忆中。
-
AI 智能体检索事实并进行总结。
-
使用事实和历史记录做出准确的回应。
第三、基于 Zep 的 AI 智能体代码级落地实现
1、设置 LLM(大语言模型)

我们通过 Ollama 使用本地提供的 Qwen 3。
2、初始化 Zep 客户端

利用 Zep 的基础记忆层,为我们的 Autogen AI 智能体赋予真正的任务完成能力。
3、创建用户会话

为用户创建一个 Zep 客户端会话,AI 智能体将使用该会话来管理记忆。一个用户可以有多个会话!
4、定义 Zep 对话 AI 智能体

我们的 Zep 记忆 AI 智能体基于 Autogen 的对话 AI 智能体,每次用户查询时,从 Zep Cloud 获取实时记忆上下文。它通过利用我们刚刚建立的会话来保持高效。
5、设置 AI 智能体

初始化对话 AI 智能体和一个代理人类 AI 智能体,以管理聊天互动。
6、处理 AI 智能体聊天

Zep 对话 AI 智能体介入,创建一个连贯、个性化的回应。它无缝整合了记忆和对话。
7、Streamlit 用户界面

创建了一个简化的 Streamlit 用户界面,以确保与 AI 智能体的互动顺畅且简单。
8、可视化知识图谱

通过 Zep Cloud 的用户界面,交互式地映射用户在多个会话中的对话。这个强大的工具使我们能够通过图谱可视化知识的演变。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)