Hermes Agent vs OpenClaw：两种 AI Agent 架构的深度对比

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

2026 年初，Personal AI Agent 赛道迎来了两个在开源社区引发广泛讨论的框架：OpenClaw（原 OpenClaw，Peter Steinberger 创作，后被 OenAI 收购其创始团队）和 Hermes Agent（由 Nous Research 构建）。两者都试图解决同一个问题：如何让 AI Agent 真正成为你的个人助手，而不仅仅是一个高级聊天窗口。

但它们解决这个问题的思路截然不同。

本文将从架构底层出发，系统对比两个框架的设计哲学、技术实现、应用场景。

理解两个框架最重要的一步，是理解它们各自押注的"难题"。

OpenClaw 的赌注：路由与控制

"LLM 是可换的插件，Gateway 是永久核心。"

OpenClaw 把 AI Agent 视为一个基础设施问题。它的核心观点是：单纯让模型变聪明不够，真正的难点在于——谁可以访问你的 Agent？从哪些渠道？有哪些权限？工具执行有没有沙箱隔离？

OpenClaw 的答案是构建一个持久的 Gateway 控制平面，把所有这些问题标准化地解决。模型可以随时换（Claude、GPT、Kimi 都行），但 Gateway 的路由规则、Session 管理、权限策略保持不变。

Andrej Karpathy 称其为"the most incredible sci-fi takeoff-adjacent thing I've seen"——这种评价恰恰来自 OpenClaw 把个人 AI 助手从概念变成可以真正部署的基础设施这件事。

Hermes Agent 的赌注：记忆与自我进化

"执行 Backend 是可换的插件，AIAgent 学习循环是永久核心。"

Hermes 由 Nous Research 构建（该机构正是 Hermes 模型系列的研究方），它押注的问题是：大多数 Agent 框架是无状态的。每次开新会话，Agent 从零开始，不记得上次你说什么，不知道你的偏好，做过的任务没有任何积累。

Hermes 的解法是内置一个闭环学习循环：任务完成后提取 Skill、Skill 随使用精炼、跨会话建立用户画像。Agent 越用越懂你，越用越强。

3.1 技术栈

维度 OpenClaw Hermes Agent 语言 TypeScript → Node.js 22 编译 Python 3.11 Agent 运行库 @mariozechner/pi-agent-core（第三方）自研 run_agent.py（ 9200 行） 持久核心 Gateway（WebSocket Server，src/gateway/server.ts） AIAgent（对话循环，run_agent.py） 配置文件 /.openclaw/openclaw.json（JSON5 格式） /.hermes/config.yaml（YAML 格式） 会话存储 JSON 文件（append-only 事件日志）+ SQLite SQLite FTS5（所有会话共享 /.hermes/state.db） 本地模型 Ollama（原生 API 集成，自动发现）任意 OpenAI 兼容端点（Ollama/vLLM/llama.cpp）

语言选择的下游影响不可忽视：

Node.js 给 OpenClaw 带来了天然的 I/O 并发优势——同时接入 22 个消息平台、WebSocket 事件驱动、webhook 处理，全部高效。
Python 给 Hermes 带来了整个 ML 生态——Atropos RL 训练环境、轨迹导出（batch_runner.py）、llama.cpp Python 绑定都能无缝集成。

3.2 系统架构

OpenClaw 架构（Hub-and-Spoke，Gateway 中心）：

OpenClaw 的核心是一个持久运行的 Gateway 控制平面（Node.js 22 WebSocket Server）。22 个消息平台的所有入站消息统一汇入 Gateway，由其负责 Session 管理与权限路由、Hook 生命周期事件、多 Agent 命名路由、命令执行审批、OGP 跨框架联邦，以及 Canvas / A2UI 可视化界面——这些全部在 Gateway 层处理，与具体模型无关。

Gateway 将消息分发给 Agent Runtime（基于 pi-agent-core 的 PiEmbeddedRunner），Runtime 按固定流水线执行：解析 Session → 组装上下文（系统提示 + 历史 + 记忆检索）→ 调用 LLM → 拦截工具调用并执行 → 持久化状态。

整个设计的关键在于LLM 是最底层的可替换组件——换掉 Claude 换成 GPT 或本地模型，Gateway 的路由策略、Session 数据、权限配置、Skill 全部不受影响。

Hermes Agent 架构（AIAgent 中心）：

Hermes 的核心是 run_agent.py 中的 AIAgent 对话循环。所有入口（CLI 终端、消息 Gateway、IDE ACP 适配器）统一汇入这一核心，由 Prompt Builder 将 SOUL.md、MEMORY.md、USER.md 和当前 Skill 组装为系统提示，Provider Resolution 模块选择具体的模型提供商（支持 18+ providers），Tool Dispatch 负责工具调用与执行。

AIAgent 内嵌一个闭环学习循环：每次执行完成后经过评估，提取可复用的 Skill，对已有 Skill 精炼后写回存储，下次同类任务时直接检索复用——Agent 越用越强的能力来源于此循环（每 15 轮由 prompt 触发一次 Skill 创建检查）。

状态通过 Session Storage 持久化，包括全文检索数据库与有界记忆文件；实际命令执行分发到六种可插拔的 Tool Backend（本地、Docker、SSH、Modal、Daytona、Singularity），其中 Modal 和 Daytona 为无服务器云执行，Agent 本体不受影响。

3.3 数据流对比

OpenClaw 消息流（以 WhatsApp 为例）：

消息从 WhatsApp 到达后，由 Baileys 库的 WebSocket 监听捕获，适配器完成文本/媒体/元数据的解析和标准化。第一道关卡是访问控制：若发送方不在白名单或 DM 未配对，直接拒绝并返回配对码；通过后根据来源（直连 / DM / 群组）解析 Session 类型，不同类型携带不同的权限和沙箱策略。

Agent Runtime 加载对应 Session，组装上下文（AGENTS.md + SOUL.md + 相关 Skill + 语义记忆检索），然后流式调用 LLM。如果模型产生工具调用，Runtime 拦截执行（可选 Docker 沙箱隔离），将结果注入上下文后继续生成；直到模型输出最终文本，再由适配器格式化（处理 Markdown 方言、消息长度限制等）发回 WhatsApp，最后将完整会话状态持久化到磁盘。

整个流程的关键设计是工具执行与 LLM 生成的循环嵌套，以及安全边界在 Session 解析阶段就已确定，而非在工具执行时才判断。

Hermes CLI 会话流：

用户输入经 HermesCLI.process_input() 捕获后，进入 AIAgent.run_conversation() 主循环。首先由 prompt_builder 组装系统提示——将 SOUL.md、MEMORY.md、USER.md、已加载 Skill、AGENTS.md 和 .hermes.md 合并为完整上下文；随后 runtime_provider 根据配置选择 API 模式（OpenAI 兼容的 chat completions、Codex responses 或 Anthropic 原生 messages），发起模型调用。

若模型返回工具调用，model_tools.handle_function_call() 执行对应工具并将结果注入上下文，循环继续；直到模型输出最终文本，响应展示给用户，会话记录写入 SQLite。

每隔 15 轮，流程会额外触发一次 Skill 检查——提示 Agent 评估是否有值得提炼的新 Skill 或需更新已有 Skill，这是 Hermes 学习循环在 CLI 层面的唯一触发点。之后等待用户的下一次输入，进入新一轮循环。

这是两个框架差异最显著的地方，也是选型时最关键的考量。

4.1 内存模型哲学

OpenClaw — 无界、可审计、人工管理：

特性说明主要文件 MEMORY.md（长期稳定事实）+ memory/YYYY-MM-DD.md（每日日志）大小限制 无硬性上限，由人工或 Agent 自行管理检索方式 FTS5 关键词匹配 + 可选 Vector Embedding Embedding 自动检测：OpenAI / Gemini / Voyage / Mistral / 本地 GGUF 内存后端 Builtin（SQLite，默认）/ QMD（本地重排序）/ Honcho（插件）可审计性 ✅ 全人工可读、可直接编辑 Markdown

Hermes — 有界、强制精简、自动管理：

特性说明主要文件 MEMORY.md（Agent 记忆）+ USER.md（用户画像）大小限制 硬性上限：MEMORY.md 2200 字符（~800 tokens），USER.md 1375 字符检索方式 FTS5 全文检索 + Gemini Flash 摘要（默认不用 Embedding） Embedding 需额外安装插件：Honcho / Mem0 / OpenViking 内存后端插件化可扩展，默认不启用可审计性 ✅ 可读，但 Agent 会自行修改；硬上限防止膨胀

关键理解：Hermes 的有界设计不是缺陷，而是刻意的工程选择。

内存满了必须替换 → 强制信息优先级排序 → System Prompt 保持聚焦 → 模型不被稀释的上下文淹没

OpenClaw 的无界设计给了更多灵活性，但也要求用户主动维护，否则可能积累大量低质量记忆。

4.2 会话存储

维度 OpenClaw Hermes 存储格式 JSON append-only 事件日志（~/.openclaw/sessions/） SQLite FTS5（~/.hermes/state.db，所有会话共享）搜索语义搜索（向量 + BM25 混合） FTS5 关键词 + LLM 摘要压缩策略自动压缩旧对话 + memory flush 前置保护超阈值时总结中间轮，保留首 3 尾 4 跨平台隔离每个 Agent 独立 SQLite（~/.openclaw/memory/{agentId}.sqlite）所有平台共享一个 db，按 session key 隔离恢复方式事件日志回放，支持 branch hermes --resume ，基于 SQLite 快照

5.1 工具系统

OpenClaw：

内置工具有限（bash / browser / file / Canvas 等核心工具）
依赖 Skill 扩展：通过 ClawHub 安装社区 Skill 来获得更多能力
所有工具通过 pi-tools.ts 和 openclaw-tools.ts 注册
插件工具通过 api.registerTool() 接入

Hermes：

开箱即用 48 个工具 / 40 个 toolset，覆盖：
- 终端、文件读写、代码执行、Web 搜索/抓取
- 11 个浏览器自动化工具
- 子 Agent 委托（delegate_tool.py）
- MCP 客户端（mcp_tool.py，~2200 行）
工具在 import 时自注册（tools/registry.py），模块化程度高

对新用户：Hermes 开箱即用体验更好，不需要先去 Hub 安装 Skill。

对老用户：OpenClaw 的精细 Skill 管理更适合构建高度定制化的工作流。

5.2 执行后端

后端 OpenClaw Hermes 本地 ✅ ✅ SSH ❌（通过 exec 间接） ✅ 原生 backend Docker ❌（通过 exec 间接） ✅ 原生 backend Serverless ❌ ✅ Daytona + Modal（按需唤醒，空闲近零成本） Singularity ❌ ✅（HPC 环境）

Hermes Serverless 的正确理解：

Agent 本体仍运行在你的本地或 VPS 上，"Serverless"指的是终端命令和重计算任务的执行环境。当 Hermes 需要运行脚本、启动容器或批处理时，可以路由到 Daytona/Modal 云环境，按需唤醒，空闲时几乎不产生费用。对轻量任务无影响；对重型长时间任务是显著优势。

5.3 安全模型

OpenClaw — 分层精细控制：

Docker 沙箱按 Session 类型自动应用：
- main session：全宿主机权限
- dm/group session：默认 Docker 沙箱
Approval 系统：每条命令可配置允许/确认/拒绝
DM Pairing：陌生用户必须先配对才能访问

Hermes — 危险命令检测 + 回调确认：

危险命令模式匹配（tools/approval.py）
回调函数（clarify, sudo, approval）可阻断执行
无 Docker 原生沙箱（依赖 Docker backend 间接实现隔离）

6.1 Skill 格式（两者统一）

两个框架都采用了 agentskills.io 标准的 SKILL.md 格式：

— name: skill-name description: 何时使用此 Skill

version: 1.0.0

Skill 名称

使用场景

…

执行步骤

…

注意事项

…

这是两个框架最重要的互通性基础：一个为 OpenClaw 写的 Skill，基本可以直接用于 Hermes，反之亦然。

6.2 OpenClaw Skill — 人工编写，精确可控

完全由人工撰写和维护
通过 ClawHub（clawplugins.com）发现和安装
只有明确安装的 Skill 才会被注入 prompt（按需注入，不是全量注入）
修改 Skill = 修改 SKILL.md 文件，简单直接
可审计性极高：你知道 Agent 学了什么

6.3 Hermes Skill — 半自动创建，自进化

重要澄清：Hermes 的 Skill 自进化不是完全自主的，而是 prompt 级引导：
- 每 15 轮对话，AIAgent 被 prompt 提示”考虑是否需要创建 Skill”
- Agent 自行判断是否创建，以及 Skill 内容
- 这是半自动，不是代码级自我修改
Skill 存储在 /.hermes/skills/，可直接编辑
通过 agentskills.io Hub 发现社区 Skill
每个 Skill 自动成为 /skill-name slash 命令

信任成本：Hermes 能修改自己的 Skill → 如果你重视可审计性，需要定期检查 /.hermes/skills/ 目录。

6.4 Skill 互通

两个框架都支持 OGP（Open Gateway Protocol），这意味着：

一个 OpenClaw Agent 可以向 Hermes Agent 发送消息、委托任务
反之亦然
消息经过密码学签名验证，跨框架身份可信

这开创了一种新可能：不必二选一，可以用 OpenClaw 负责路由控制，用 Hermes 负责需要积累经验的特定任务类型，两者通过 OGP 协作。

7.1 消息平台覆盖

平台 OpenClaw Hermes Telegram ✅ ✅ Discord ✅ ✅ Slack ✅ ✅ WhatsApp ✅ ✅ Signal ✅ ✅ iMessage ✅ macOS 原生 ❌ Matrix ✅ ✅ Mattermost ✅ ✅ Microsoft Teams ✅（插件） ❌ IRC / LINE / Twitch / Nostr ✅ ❌ 钉钉 ❌ ✅ 飞书 ✅ ✅ 企业微信（WeCom） ❌ ✅ Email / SMS ❌ ✅ Home Assistant ❌ ✅ 总计 22个 13个

OpenClaw 在西方主流平台上更全面，特别是 iMessage 是独家优势（需要真实 Mac 硬件）。

Hermes 在国内企业场景更强，钉钉/企微/飞书原生支持，且有 Home Assistant 智能家居集成。

7.2 界面对比

界面类型 OpenClaw Hermes 终端 TUI ✅ 有 ✅ 丰富，是主界面 Web Dashboard ✅ 内置（127.0.0.1:18789） ❌ 无官方 Web UI 桌面 App ✅ macOS Swift Menu Bar App ❌ 无 移动端 ✅ iOS/Android 原生节点通过 Telegram/Discord 间接 Canvas/可视化 ✅ Canvas + A2UI（Agent 驱动 HTML 界面） ❌ 无 IDE 集成 ✅ ACP（VS Code/Zed/JetBrains） ✅ ACP adapter

OpenClaw — Named Agents，单 Gateway 路由

{ “agents”: {

"mapping": { "group:discord:": { "workspace": "~/.openclaw/workspaces/discord-bot", "model": "anthropic/claude-sonnet-4-5", "systemPromptOverrides": { "SOUL.md": "You are a helpful Discord moderator..." } }, "dm:telegram:*": { "workspace": "~/.openclaw/workspaces/support-agent", "model": "openai/gpt-4o", "sandbox": { "mode": "always" } } }

} }

多个命名 Agent 共享同一个 Gateway 进程，按 Channel/Session 路由。每个 Agent 有独立的 workspace、模型、工具权限和沙箱策略。

Session Tools（Agent 间通信）：

sessions_list：发现活跃 Session
sessions_send：向另一个 Session 发消息
sessions_history：读取其他 Session 的对话历史
sessions_spawn：动态创建子 Session

Hermes — Profile 隔离，独立进程

每个 Profile 完全隔离：

hermes -p research # Profile: research hermes -p coding # Profile: coding

每个 Profile 有独立的 HERMES_HOME、config、memory、sessions、skills、gateway PID
多个 Profile 可以并行运行
隔离更彻底，但协调需要通过 OGP 或 MCP

选择建议：

需要共享状态、跨 Agent 通信：OpenClaw 的 Session Tools 更便捷
需要强隔离、各自独立演化记忆：Hermes 的 Profile 更合适

两个框架的共同点经常被忽略，但这些共同点才是整个生态收敛的信号：

9.1 Skill 格式统一（agentskills.io）

两者都采用相同的 SKILL.md 格式，Skill 可跨框架移植。这不是协商的结果，而是生态自发收敛——说明 Markdown 描述式 Skill 是对当前 LLM 能力的正确抽象。

9.2 OGP 联邦协议

两者都支持 Open Gateway Protocol，允许跨框架的加密消息传递和任务委托。

9.3 ACP IDE 集成

两者都支持 ACP（Agent Communication Protocol）接入 VS Code、Zed、JetBrains，作为编辑器原生 Agent 运行。

9.4 基础持久化架构

两者底层都用 SQLite + FTS5 存储会话历史，只是组织方式不同。

9.5 本地优先

两者都强调自托管、本地运行，模型 API 调用走外部服务，但所有编排逻辑、会话状态、工具执行都在你自己的基础设施上。

9.6 MCP 支持

两者都支持 MCP（Model Context Protocol），可以接入任意 MCP Server 扩展工具能力。

维度 OpenClaw Hermes Agent 语言 TypeScript / Node.js Python 3.11 核心赌注 路由与控制记忆与自我进化 持久核心 Gateway 控制平面 AIAgent 对话循环 Agent 运行库 pi-agent-core（第三方）自研 run_agent.py 内存上限 无界（人工管理）有界（2200字符硬上限） Embedding 自动检测，开箱即用需安装插件，默认无 Skill 创建 完全人工每 15 轮 prompt 提示（半自动） SSH 执行 通过 exec 间接原生 backend Docker 执行 通过 exec 间接原生 backend Serverless ❌ ✅ Daytona + Modal macOS 集成 ✅ iMessage/Swift App/Menu Bar ❌ 国内企业消息 飞书（部分）钉钉/飞书/企微/WeCom Web UI ✅ 内置 Dashboard ❌ 无官方 Canvas/可视化 ✅ A2UI 框架 ❌ 多 Agent Named Agents + Session Tools Profile 隔离 + OGP 安全沙箱 Docker 按 Session 自动应用危险命令检测 + 回调 可审计性 高（人工控制 MEMORY.md）中（Agent 自修改 Skill） 消息平台数 22个 13个 RL/训练支持 ❌ ✅ Atropos 环境 + 轨迹导出 互通性 ✅ OGP + agentskills.io ✅ OGP + agentskills.io

11.1 选 OpenClaw 的场景

✅ 企业多 Agent 编排

需要多个专业化 Agent（写作、研究、运维）从单一 Gateway 协同工作，各有独立的渠道路由和权限策略。

✅ 严格执行审计

需要追踪每个 Agent 做了什么决策、记住了什么内容，所有状态人工可读、可编辑、可版本控制。

✅ macOS 深度集成

需要 iMessage 机器人、Apple Notes 集成、语音唤醒（”Hey OpenClaw”）、Menu Bar 常驻。

✅ TypeScript 生态

你的工具链是 Node.js，插件和扩展都是 TypeScript，OpenClaw 的插件系统无缝融合。

✅ 已有 OpenClaw 基础

已部署运行，迁移成本远大于收益——继续深化集成是最优选。

✅ 安全要求高的场景

多层安全控制（网络/认证/访问控制/Docker 沙箱），适合面向多用户的场景。

11.2 选 Hermes 的场景

✅ 重复性结构化任务

同类型任务（文档处理、代码审查、数据清洗）反复执行，Agent 积累 Skill 后越来越快越来越准。

✅ 长期个人 Agent

同一个用户每天使用，需要 Agent 逐渐理解你的偏好、决策风格、常用模式，不想每次重新交代背景。

✅ Python ML 研究工作流

需要批处理轨迹生成、RL 训练集导出（ShareGPT 格式）、与 Atropos 环境集成。

✅ 重型计算任务的云端执行

脚本/容器/批处理需要在云端按需执行，不想占用本地资源，Daytona/Modal 集成开箱即用。

✅ 国内企业消息生态

需要对接钉钉/企业微信/飞书，或者集成 Home Assistant 智能家居。

✅ 全 Python 技术栈

后端是 Python，ML 工具链是 Python，Hermes 的插件/扩展无缝融合。

11.3 两者并用（OGP 联邦）

这是一个被低估的选项：不必二选一。

具体场景：

OpenClaw 接收用户需求并路由
代码生成/文档处理等重复性任务委托给 Hermes Specialist
Hermes 积累该类任务的经验，每次质量更高
OpenClaw 保持对整体流程的控制和审计

OpenClaw 和 Hermes 不是竞争关系，而是对同一问题的两种有效押注。

OpenClaw 押注控制：它相信 AI Agent 的核心问题是基础设施问题——路由、权限、沙箱、审计。它把 Gateway 做成持久的操作系统，LLM 是可热插拔的计算单元。

Hermes 押注进化：它相信 AI Agent 的核心问题是记忆问题——Agent 应该越用越懂你，越用越强。它把 AIAgent 对话循环做成永久核心，执行环境是可替换的基础设施。

两者的共同基础（agentskills.io Skill 格式 + OGP 联邦）正在把整个生态推向互通而非割裂。

选型的本质不是哪个更好，而是你的核心问题是什么：

如果你的核心问题是”谁能访问我的 Agent、执行什么操作、有没有审计” → OpenClaw
如果你的核心问题是”我的 Agent 做了 1000 次同类任务后，有没有变得更好” → Hermes
如果两个问题都重要 → OGP 联邦，各司其职