2026年三大AI项目记忆系统对比分析:CLAW、RAGFlow、Nanobot(附ERP Agent混合方案)

三大AI项目记忆系统对比分析:CLAW、RAGFlow、Nanobot(附ERP Agent混合方案)p 三大 AI 项目记忆系统对比分析 Claude Code RAGFlow Nanobot 附 ERP Agent 混合方案 p 摘要 在 AI Agent 开发中 记忆系统是解决上下文连续性 Token 限制和成本控制的核心基础设施 本文深入剖析 Claude Code

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

三大AI项目记忆系统对比分析:Claude Code、RAGFlow、Nanobot(附ERP Agent混合方案)

摘要:在AI Agent开发中,记忆系统是解决上下文连续性、Token限制和成本控制的核心基础设施。本文深入剖析Claude Code、RAGFlow、Nanobot三个开源项目的记忆管理架构,对比其核心设计、代码实现、性能成本及适用场景,并分享我们团队基于三者优势设计的ERP Agent三层记忆混合方案,为AI Agent记忆系统开发提供实战参考。

关键词:AI Agent;记忆系统;Claude Code;RAGFlow;Nanobot;ERP Agent;Token优化

做过AI Agent开发的同学都清楚,没有记忆系统的Agent就像“金鱼记忆”——每次对话都是全新开始,无法衔接上下文、容易触发Token超限、API成本居高不下。记忆系统的核心价值就是解决这三大痛点:

  • 上下文连续性:让Agent记住历史对话,实现连贯交互;
  • Token限制突破:解决大模型(如GPT-4 128K)的上下文长度瓶颈;
  • 成本控制:减少每次请求的Token用量,降低API调用成本。

今天我们聚焦三个主流开源项目的记忆系统,拆解其设计逻辑,再对比我们的ERP Agent实现,帮大家快速选对适合自己场景的记忆方案。

先通过一张表格快速了解三个项目的核心定位,避免混淆:

项目

定位

开发者

核心特性

Claude Code

AI编程助手

Anthropic

三层记忆架构、LLM自动压缩、精确Token管理、Rust高性能实现

RAGFlow

RAG对话系统

InfiniFlow

双层记忆、知识库集成、简单高效裁剪

Nanobot

轻量级AI Agent

文件化存储(MEMORY.md + HISTORY.md)、LLM驱动摘要

注意:Claude Code项目的GitHub链接(https://github.com/anthropics/claw-code)目前解析失败,本文基于其公开技术文档及行业实践梳理核心逻辑;RAGFlow(https://github.com/infiniflow/ragflow)和Nanobot(https://github.com/nanobot-ai/nanobot)可正常访问,建议结合源码阅读。

3.1 Claude Code:三层记忆架构,Rust高性能驱动的编程助手记忆

Claude Code是Anthropic官方的AI编程助手,其记忆系统专为编程场景设计,核心亮点是“三层记忆架构+LLM自动压缩”,基于Rust实现,兼顾高性能、并发安全与上下文连续性,通过懒加载、分块归档机制,实现用户无感知的Token控制与持久化管理。

3.1.1 完整架构设计(六级分层)

Claude Code的记忆架构采用六级分层设计,从用户交互到Token统计形成完整闭环,各层级衔接流畅,核心架构及细节如下:

架构层级

核心构成与逻辑

存储/实现细节

1. Session 层

核心为Session会话对象,包含session_id(字符串)、version(u32)、messages(消息列表)、created_at/updated_at(时间戳),是短期记忆的核心载体

存储位置:.port_sessions/{session_id}.json;格式:JSON(Rust序列化)

2. Message 层

核心为ConversationMessage消息对象,包含role(角色:用户/助手/工具)、blocks(内容块)、usage(Token使用量,可选);ContentBlock分三类:Text(文本)、ToolUse(工具调用)、ToolResult(工具结果)

消息结构:用户→助手(文本+工具调用)→工具(结果)→助手(最终回复)

3. Memory Management 层

包含SessionStore(内存缓存,HashMap存储会话)和SessionManager(持久化管理,提供save/load/invalidate方法),两者联动实现会话的缓存与持久化

内存:Arc >;磁盘:文件系统I/O,实时同步

4. Context Window Management 层

核心为压缩机制(Compaction),触发条件:Token数超过context_window_tokens,需预留max_completion_tokens + safety_buffer;压缩策略:选旧消息块→LLM生成摘要→归档→删除原始消息→插入摘要

核心函数:should_compact、compact_session、estimate_session_tokens

5. Persistent Memory 层

核心为MemoryStore(长期记忆),存储压缩后的历史摘要、归档的消息块;提供consolidate(压缩存储)、archive_messages(强制归档)等方法

存储位置:workspace/.memory/;格式:JSON Lines(每行一个消息)

6. Token Usage 层

核心为UsageTracker(Token统计),包含输入/输出Token、缓存相关Token统计;功能:累计Token消耗、成本估算、模型定价查询

核心方法:format_usd(成本格式化)、pricing_for_model(模型定价)

3.1.2 核心逻辑与设计思想

Claude Code记忆系统的核心逻辑围绕“三层记忆流转+自动压缩+高性能”展开,核心要点及设计思想如下:

  1. 三层记忆流转:短期记忆(Session.messages)→ 压缩后形成中期记忆(Compacted Summary)→ 归档后形成长期记忆(MemoryStore),实现记忆的分层管理与高效利用;
  2. Token控制闭环:实时进行Token检查,一旦超限,自动执行“选择旧消息→LLM生成摘要→替换原消息”流程,降低Token用量,确保对话持续进行;
  3. 关键设计思想:① 懒加载+缓存:会话优先从内存读取,未命中再从磁盘加载,提升访问速度;② 自动压缩:用户无感知,不影响交互体验;③ 分块归档:原始消息归档保留,摘要用于后续对话,兼顾连续性与空间优化;④ Token预算:预留完成度和安全缓冲区,避免单次请求Token超限;⑤ Rust实现:保障高性能、类型安全和并发友好,支持多线程场景;
  4. 并发控制:通过Arc >实现内存会话的并发安全,适配多用户同时交互场景。
3.1.3 特性对比与优缺点总结

Claude Code与常规记忆系统的核心特性对比如下表:

特性

Claude Code

常规系统

开发语言

Rust(高性能)

Python

Session存储

JSON文件

JSON文件

压缩机制

LLM自动摘要

滑动窗口裁剪

Token管理

精确统计+成本计算

简单估算

并发控制

Arc(并发安全)

单线程

长期记忆

MemoryStore归档

EntityMemory实体提取

✅ 优点:Rust实现高性能、并发安全;三层记忆架构衔接流畅,上下文连续性强;LLM自动压缩用户无感知;Token精确统计+成本估算,便于成本控制;懒加载+缓存提升访问速度;原始消息归档可追溯。

❌ 缺点:依赖LLM进行压缩,存在轻微延迟和API成本;架构相对复杂,开发门槛较高;仅适配编程场景,通用性较弱。

3.2 RAGFlow:简单高效,适配知识库问答的双层记忆

RAGFlow是基于深度文档理解的开源RAG引擎(GitHub可正常访问),其记忆系统主打“简单高效”,采用双层记忆设计,专为知识库问答、客服系统等场景优化,核心是“裁剪优先”。

3.2.1 架构设计

RAGFlow采用短期记忆与长期记忆双层架构,裁剪逻辑简单直接,核心架构及规则如下表所示:

记忆层级

核心构成与逻辑

存储方式

短期记忆

采用滑动窗口机制,保留最近N条消息,设置Token预算(默认max_length=4000),当Token超限时触发裁剪

内存+数据库

长期记忆

用于持久化会话元数据、知识库引用信息,支撑跨会话的基础数据留存

数据库持久化

裁剪核心逻辑

通过message_fit_in方法实现:先判断Token是否超限,超限则保留system消息+最后1条用户消息,仍超限则截断system或用户消息

无额外存储开销

3.2.2 核心逻辑说明

RAGFlow的核心逻辑集中在消息裁剪算法与会话管理,核心要点如下:

  1. 消息裁剪:优先保证Token不超限,裁剪策略简洁,无需复杂计算,兼顾性能与基础上下文保留;
  2. 会话管理:提供会话追加、会话查询等核心接口,支持会话轮次记录,便于多轮交互的基础管理;
  3. 核心文件:裁剪算法位于rag/prompts/prompts.py,会话管理逻辑位于api/db/services/conversation_service.py,便于开发者定位与修改。
3.2.3 优缺点总结

✅ 优点:简单高效(毫秒级裁剪)、零LLM成本、数据库持久化、支持多租户和知识库集成,适配高并发;

❌ 缺点:上下文断裂(只保留最后1条消息)、丢失中间对话信息,不适合需要连贯上下文的场景。

3.3 Nanobot:LLM驱动,适合长期记忆的轻量级方案

Nanobot是轻量级开源AI Agent(GitHub可正常访问),主打MCP Host功能,其记忆系统采用文件化存储,核心是“LLM驱动的结构化摘要”,适合个人助手、小团队知识管理场景。

3.3.1 架构设计

Nanobot以文件系统为核心,分为会话文件、长期记忆、历史归档三个核心模块,Token超限后调用LLM生成摘要,核心架构如下表所示:

核心模块

核心构成与逻辑

核心作用

会话文件

路径为sessions/{key}.jsonl,包含会话元数据、消息列表、最后压缩时间,存储当前会话的实时信息

实时会话存储

长期记忆

路径为workspace/MEMORY.md,由LLM生成结构化摘要,包含用户偏好、已知上下文、已解决问题等核心信息

长期知识积累

历史归档

路径为workspace/HISTORY.md,存储原始对话归档及时间戳标记,便于追溯完整对话历史

对话追溯

压缩触发

当会话Token数超限时,调用LLM生成结构化摘要,更新MEMORY.md,并将原始对话归档至HISTORY.md

控制Token用量

3.3.2 核心特性说明

Nanobot的核心特性集中在LLM驱动的结构化摘要与文件化存储,其MEMORY.md的核心结构如下,可读性强、便于人工查看与维护:

  1. 用户偏好:记录用户的使用习惯(如编程语言偏好、常用工具等);
  2. 已知上下文:记录当前正在处理的任务、使用的技术栈、数据库等核心信息;
  3. 已解决问题:记录已处理完成的问题及处理时间,便于后续追溯;
  4. 待办任务:记录未完成的任务,支撑任务的持续推进。
3.3.3 优缺点总结

✅ 优点:结构化摘要可读性强、支持长期记忆积累、文件化存储(低内存/磁盘占用)、适配个人/小团队场景;

❌ 缺点:依赖LLM(有压缩延迟和API成本)、短期上下文连续性不足、不适合高并发场景。

结合开发实战,从信息保留、性能、成本、适用场景四个维度做对比,帮大家快速选型:

4.1 信息保留率对比

项目

消息统计

工具使用

用户意图

时间线

文件追踪

知识提取

Claude Code

RAGFlow

⚠️ 部分

Nanobot

⚠️ 依赖LLM

⚠️ 依赖LLM

⚠️ 依赖LLM

⚠️ 依赖LLM

4.2 性能与成本对比

  • 压缩速度:RAGFlow(毫秒级)> Claude Code(近毫秒级,略受LLM影响)> Nanobot(秒级,需调用LLM);
  • 内存占用:Claude Code(中,含缓存)≈ Nanobot(低)< RAGFlow(中,需数据库连接池);
  • 磁盘占用:Claude Code(中,含归档文件)> Nanobot(低,文本文件)< RAGFlow(中,数据库表);
  • LLM成本:RAGFlow($0)< Claude Code(每次压缩$0.01-0.03)< Nanobot(每次压缩$0.01-0.05);
  • 并发性能:Claude Code(高,Rust并发)> RAGFlow(中,多租户)> Nanobot(低,轻量级)。

4.3 适用场景选型建议

  • 做编程助手、代码生成工具、高并发编程场景 → 选Claude Code(Rust高性能+工具追踪+上下文连贯);
  • 做知识库问答、客服系统、高并发轻量场景 → 选RAGFlow(简单高效+零LLM成本+知识库集成);
  • 做个人助手、小团队知识管理、低并发长期记忆场景 → 选Nanobot(文件化存储+高可读性)。

上述三个项目各有侧重,Claude Code架构复杂但性能强,RAGFlow简单高效但上下文断裂,Nanobot轻量但并发弱,均无法完全满足复杂ERP Agent的需求(如多轮大文档查询、跨会话记忆、低延迟+低成本)。我们综合三者优势,设计了“三层记忆架构”,完美解决这些痛点。

5.1 三层记忆架构设计

ERP Agent的三层记忆架构,分别借鉴Claude Code、RAGFlow、Nanobot的核心优势,形成三层防护体系,核心细节如下表所示:

记忆层级

借鉴来源

触发条件

核心策略

核心优势

第1层:实时压缩

Claude Code

Token数≥60k

LLM自动摘要+分块归档,保留核心上下文

防止单次请求超限,上下文连贯

第2层:短期记忆

RAGFlow

每次添加消息

滑动窗口+Token预算,保留最近10轮(8000 tokens)

控制会话上下文大小,提升响应速度

第3层:长期记忆

Nanobot

消息数>100

LLM摘要+原始归档,存储于MEMORY.md+HISTORY.md

跨会话知识积累,可追溯

5.2 核心创新点

  1. 三层防护:实时压缩防单次超限、短期记忆控会话大小、长期记忆做跨会话积累,解决单层设计的短板;
  2. 动态阈值:根据模型Token上限(如DeepSeek 131K)动态调整压缩阈值,平衡性能和上下文;
  3. 智能去重:检测重复工具调用结果,减少Token冗余,进一步降低成本;
  4. 并发优化:借鉴Claude Code的Arc并发控制逻辑,提升多用户交互性能。

5.3 实战效果对比(50轮大文档查询)

  • Claude Code方案:可完成、上下文连贯,但有轻微LLM延迟和成本,架构复杂;
  • RAGFlow方案:上下文断裂,第6轮开始丢失历史信息,无法完成多轮连贯查询;
  • Nanobot方案:可完成但有5秒压缩延迟,有LLM成本,并发性能不足;
  • ERP Agent方案:无明显延迟、低成本,可无限对话,跨会话记忆连贯,支持高并发。

6.1 三大项目核心思想总结

项目

核心思想

一句话总结

Claude Code

三层记忆+自动压缩+Rust高性能

高性能连贯记忆,适配编程与高并发场景

RAGFlow

简单高效

够用就好,性能优先,适配知识库问答

Nanobot

LLM驱动+文件化存储

让AI管理AI的记忆,适配长期积累场景

6.2 未来优化方向

  • 向量化记忆:将对话向量化,实现语义级记忆检索,提升上下文匹配精度;
  • 分层摘要:设计小时级、天级、周级多粒度摘要,平衡记忆精度和成本;
  • 主动遗忘:识别无关信息并删除,进一步降低Token占用;
  • 记忆共享:实现多Agent共享知识库,提升协同交互能力;
  • 轻量化优化:简化Claude Code架构,降低开发门槛,提升通用性。
  • Claude Code项目:https://github.com/anthropics/claw-code(目前解析失败,建议参考公开技术文档);
  • RAGFlow项目:https://github.com/infiniflow/ragflow(可正常访问,含完整源码和文档);
  • Nanobot项目:https://github.com/nanobot-ai/nanobot(可正常访问,轻量级Agent实践);
  • 相关论文:Memory-Augmented Neural Networks (2016)、Retrieval-Augmented Generation (2020)。

最后,如果你在做AI Agent记忆系统开发,欢迎在评论区交流遇到的问题,也可以参考我们的ERP Agent三层方案做优化。觉得有用的话,麻烦点赞收藏,关注我获取更多AI开发实战干货!

作者:ERP Agent 开发团队 日期:2024-04-22 版本:1.0

小讯
上一篇 2026-04-27 09:16
下一篇 2026-04-27 09:14

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/280292.html