2026年openclaw 思考

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

GUI or CLI
- 内部对龙虾的引入和使用，主要是 GUI的方式：绑定美信，安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。
- 外部公司已经趋向CLI：钉钉已经彻底 CLI 化了、 一键接入OpenClaw，谷歌开源CLI狂揽15k Stars，智能体接管Workspace
- CLI相对于GUI：以编程思维解决任务；通过大模型推理来做任务规划，并自主调用指令和API来解决任务。
数字化的基础设施完全是面向开发者和人来构建，无法很好地适配到智能体和大模型上去，龙虾这类智能体能发挥的空间有限
- API开放、数据库、信息安全、认证、知识库接口等，都是较大的开发成本
- 改造内部基础设施，使其适合通用AI能力的发挥；不用强制通用AI能力纳入人工体系，限制其发挥应有能力。
领域或垂直大模型。这个思路未必正确，所有的AI能力都是通用能力，不会有跛脚的领域AI
- 对实时性有要求的场景是例外，但这种实时性效果需要付出较大的人力和时间成本，且场景无法直接从通用模型进展中获益；

https://yun123.io/blog/cli-coding-agents-comparison/

从技术本质来看：

都是"能写代码并调用工具的模型 + 执行环境"。
区别不在"是不是智能体"，而在于：
1. Claude Code 把"领域知识 + 办公工具"封装成可插拔技能 → 在具体办公/金融场景形成巨大生产力飞跃。
2. OpenClaw 把"编程智能体内核 + 操作系统级控制"封成一个可部署基础设施 → 变成所有行业都能套的 Agent Runtime。

OpenClaw 是建在 Pi coding agent 之上的本地自托管 AI Agent 运行时 ：它不是"又一个聊天机器人"，而是一个真正控制电脑 / 服务器执行任务的编程智能体平台[4][5]。

Pi 本身的特征（从 Pi 文档和集成说明）[4]：

提供 createAgentSession() 创建一个完整的 Agent 会话：
- 负责 prompt、上下文管理、工具调用、思维链、历史压缩等
通过事件流（message_start / tool_execution_start / turn_end 等）暴露整个 Agent 运行过程[4]
内置 coding 工具（读写文件、bash、编辑器指令），非常适合做编程类智能体内核。

Pi 的定位：一个最小可用的"AI 编程内核"，你可以在上面自己搭一整套 agent 系统。OpenClaw 就是这样做的。

OpenClaw 没有把 Pi 当作"外部进程 RPC 调用"，而是：

直接在 TypeScript/Node 里嵌入 Pi 的 AgentSession（runEmbeddedPiAgent）[4]
在其外面再包一整套"工程级外壳"：

（1）Agent Loop & Gateway：把"对话"变成「全流程执行」

架构上，OpenClaw实现了一个标准化的 agent loop[4][6][8]：

输入统一化（Channel Adapter）
- 来自 WhatsApp / Telegram / Slack / Web 的消息都转成统一结构[6][8]。
Gateway & Lane Queue
- Gateway 把会话放进「Lane」（队列），每个会话一个 lane，默认串行执行，防止状态冲突[8]。
- 避免多轮并行调用导致文件状态或进程状态被写乱，这一点在"能执行 shell / 文件操作"的 agent 中极其关键。
Agent Runner
- 调用 Pi 的会话、构造系统提示、挂载工具、控制思考模式、处理模型切换与 Failover 等[8]。
Agentic Loop
- 模型输出 → 工具调用 → 执行结果写回上下文 → 下一个决策，直到任务完成为止[6][8]。
输出与审计
- 所有交互写入 JSONL transcript，可重放、可审计[8][9]。

这套 loop 实际上是"一个能真正跑生产的 Agent 操作系统"，而不是"一个好玩的编程助手"。

（2）工具体系：从「会写代码」到「会操作系统 / 浏览器 / 消息通道」

OpenClaw 在 Pi 的基础工具（read/write/bash/edit）之上，自行构建了完整的工具层[4][8][9]：

重写/包装原有工具：
- bash → 受控的 exec/process（可选择在宿主机或 Docker 沙箱中执行）[4][8]
- 文件读写 → 根据是否启用 sandbox，限制访问路径
新增一大堆工具：
- 消息类：Telegram、Slack、Discord、WhatsApp 操作
- 浏览器类：基于可访问性树（ARIA）的页面语义快照和点击/输入能力，降低 token 成本、提高解析精度[9]
- 调度类：定时任务（cron）、会话跨设备、网关控制等
工具策略层：
- 每个工具都通过策略过滤（按 profile、provider、agent、group、sandbox 等）[4]，防止误用高风险指令。

这就让 Pi 从一个"编程助手"，变成了一个能真正操控电脑 / 服务器 / 浏览器 / 消息平台的操作层智能体。

（3）记忆与可观测性：工程级的"可追溯智能体"

OpenClaw在记忆和观测上做了两件关键事[8][9]：

双层记忆结构
- JSONL transcript：事实级审计日志------所有请求、工具调用、模型输出都在这里，适合审计/重放[8][9]。
- Markdown Memory（MEMORY.md）：更抽象的经验总结、偏好、项目进度等[9]。
- 上面再叠加混合检索：向量搜索 + SQLite FTS5 关键词索引[9]。
Context Guard & 自动压缩
- 监控 token 用量，触发自动压缩历史、合并对话、保留关键信息[4][8]。
- 提供"compaction-safeguard"和"context-pruning"等 Pi 扩展，按任务重要性/TTL 过滤保留内容[4]。

直接效果：

长期运行的 agent 不再靠"不断堆叠聊天记录"，而是有结构化记忆。
企业可以把 OpenClaw 当成"一个持续在线、可审计的数字员工"，符合金融、政企对合规和可追责的要求。

（4）安全与多模型治理

Shell 安全：
- 白名单命令模式：只允许特定形态（如 git / npm / ls 等）[9]
- 阻断带 >, $(), &&, || 等高风险结构的命令[9]
多模型、多 Key 管理：
- Auth Profile Store：管理多个 API Key，自动轮换、遇到错误自动 failover[4]
- Model Resolver：根据 provider（Anthropic / OpenAI / Gemini 等）和任务类型选择合适模型[4][8]

这一套东西本质是：把 LLM 当作一个不可靠组件，套上工程级治理与防护。

这就是为什么安全圈和大厂架构师在分析 OpenClaw 架构时，会认为它是「真正适合进生产的 Agent 框架」，而不是单点工具[8][9]。

从公开数据看：

OpenClaw 从 2025 年 11 月开源，到 2026 年 3 月已经超过 25 万 Star，成为 GitHub 上 Star 数最高的非"列表类"软件项目[10]。
React 用了 13 年才达到了 24万+ Star，而 OpenClaw 约 100 天就达到了类似量级[10]。

这不是纯粹"炒作"，而是技术形态决定了它的传播路径：

定位是"能真正替你干活"的本地 Agent：
- 自托管、本地-first，极大缓解企业和开发者对隐私、合规的担忧[4][8]。
- 可以运行在家用 Mac mini / 树莓派 / VPS 上，门槛极低[4]。
开发者直接感知价值：
- 开箱可以：清理邮箱、管日程、登录网站、下载文件、运行脚本、跑 CI 等[4][6][8]。
- 对很多个人开发者/小团队，等于突然免费多了一个全栈 DevOps + 助理。
社区易于扩展：
- 工具有统一适配层（toToolDefinitions + splitSdkTools），写一个工具基本就是写一个普通 TypeScript 函数[4]。
- 结合 Pi 的扩展体系，可以很快做出新类型 agent（开发团队、客服团队、运营团队等）。

一句话：OpenClaw 做的是"把 Pi 编程智能体做成一个完整的、可落地的系统"，刚好踩在"大家都在问：我能不能让 AI 真正替我干活？"这个需求点上。

OpenClaw的架构由三个模块组成：Agent Loop、Tools、Gateway。

Agent Loop是龙虾的大脑，它负责决策和思考，它会根据当前任务判断下一步要做什么，并在需要的时候调用各种工具来完成行动。

Tools是龙虾的手脚，为Agent Loop提供各种能力，比如浏览网页、执行命令、调用 API、处理文件等，让龙虾真正具备干活的能力。

Gateway是龙虾的身体，它让整个系统能够持续在线，接收来自不同渠道的消息（比如 Telegram、飞书等），并把任务交给Agent Loop处理，再把结果返回给用户。

Agent Loop，是AI接到一个任务之后，自己一步一步把事情做完的机制。

OpenClaw的Agent Loop是基于Pi SDK的，这是一个独立的开源项目：https://github.com/badlogic/pi-mono

Agent Loop不是OpenClaw的独家优势，Claude Code和Codex都有Agent Loop的逻辑，光从脑子的设计来看，OpenClaw跟Claude Code、Codex没什么本质区别。

第一层是基础工具。

这是最底层的一些能力，比如：读写文件、执行命令、浏览网页、搜索和抓取信息，这些工具让 AI 能够真正操作电脑，而不是只停留在聊天里。

第二层是 Skills。

Skills本质上是在教AI怎么像人一样干活。

它会告诉AI在任务场景下应该怎么做、应该调用哪些工具、步骤是什么。

比如：写代码前先扫描项目结构、修改文件前先做备份、写完代码之后自动运行测试，这些经验都可以写成 Skills，让AI在类似任务里自动复用。

第三层是外部工具。

这一层主要是接各种第三方服务，比如：调用外部 API、接入 SaaS 服务、扩展新的工具能力。

所以从底层来看，OpenClaw 的手脚并不是简单的一堆工具，而是一整套：基础工具 + Skills + 外部扩展组成的能力体系。

但工具体系本身并不是OpenClaw的独家优势，像Claude Code和Codex，都有同样的工具体系。

第一，不关机。

龙虾是常驻在线的，就算系统崩了也会自动恢复，重启之后还能记住之前的对话。

比如凌晨3点服务器突然挂了，Gateway会自动把龙虾重新拉起来，并恢复之前的对话上下文，继续处理那些还没做完的任务。

等你第二天早上再来看，它就像从来没有断过一样，一直在工作。

第二，接所有平台。

Telegram、飞书、钉钉等20多个平台的消息，都可以统一接收和处理。

这意味着什么？你不需要为飞书单独写一个 bot，也不需要再为钉钉写个 bot。

Gateway在中间做了一层消息适配，不管消息来自哪个平台到AI 这里都会被转换成同一种格式。

你在飞书上给它发消息，它就在飞书上回复；在钉钉上发，它也会在钉钉上回你。

第三，会话隔离。

每个聊天窗口都是独立的，你和它的对话不会被别人的任务干扰。

比如你让它帮你查一份数据，同时又在另一个群里让它写一段文案。这两个任务在Gateway里是完全隔离的，各自有各自的上下文，不会串。

就像两个独立的员工在分别处理两件事，各干各的。

第四，排队控制。

同一时间只处理一个任务，不会因为消息太多而搞混。

比如说在一个飞书群里，我和同事同时发消息给龙虾，Gateway的处理策略很简单：谁先来做谁的，后面的任务排队。

这个设计看起来有点笨，但其实很聪明。

因为 LLM 的推理本来就不太适合并发，同时处理多个任务反而更容易出错，最后可能两个任务都做不好。

第五，心跳巡查。

心跳巡查是龙虾可以主动做任务的核心。

OpenClaw的主动执行能力主要靠两套机制：Heartbeat负责周期性巡检，Cron负责精确定时调度。

Gateway会定时主动检查有没有待办任务，如果有它就自己去执行，不需要你催它。

举个例子，你让它每天早上8点整理一份AI资讯摘要推送给你。

到了时间，Gateway的心跳机制就会自动触发这个任务，AI会自己去搜集信息、整理内容，然后发到你的飞书上。

你什么都不用做，打开飞书就能看到结果。

不过这里也有一个需要注意的地方：有时候 AI 会口头答应你已经配置好任务了，但实际上压根没写到待办里，这也就是很多时候龙虾不主动执行任务的原因。

第六，记忆刷盘。

当对话太长需要压缩时，它会先把重要内容存到记忆文件里，再进行压缩，避免关键信息丢失。

这点做的蛮好的，当我们和AI聊了很长一段时间，讨论了项目方案，也确认了不少关键决策。

如果直接压缩旧对话，这些结论就可能丢掉，下次它又得重新问我们。

Gateway的做法是：在压缩之前先把重要的结论和决策存到记忆文件里，这样即使上下文被压缩，关键信息也能随时找回来。

（1）Agent Loop & Gateway：把"对话"变成「全流程执行」

（2）工具体系：从「会写代码」到「会操作系统 / 浏览器 / 消息通道」

（3）记忆与可观测性：工程级的"可追溯智能体"

（4）安全与多模型治理

相关推荐