2026年openclaw 思考

openclaw 思考GUI or CLI 内部对龙虾的引入和使用 主要是 GUI 的方式 绑定美信 安全可控 这种对话的使用方式限制了龙虾的应用场景 这是典型的员工提效思维 外部公司已经趋向 CLI 钉钉已经彻底 CLI 化了 一键接入 OpenClaw 谷歌开源 CLI 狂揽 15k Stars 智能体接管 Workspace CLI 相对于 GUI 以编程思维解决任务 通过大模型推理来做任务规划

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



  • GUI or CLI
    • 内部对龙虾的引入和使用,主要是 GUI的方式:绑定美信,安全可控。这种对话的使用方式限制了龙虾的应用场景。这是典型的员工提效思维。
    • 外部公司已经趋向CLI:钉钉已经彻底 CLI 化了 一键接入OpenClaw,谷歌开源CLI狂揽15k Stars,智能体接管Workspace
    • CLI相对于GUI:以编程思维解决任务;通过大模型推理来做任务规划,并自主调用指令和API来解决任务。
  • 数字化的基础设施完全是面向开发者和人来构建,无法很好地适配到智能体和大模型上去,龙虾这类智能体能发挥的空间有限
    • API开放、数据库、信息安全、认证、知识库接口等,都是较大的开发成本
    • 改造内部基础设施,使其适合通用AI能力的发挥;不用强制通用AI能力纳入人工体系,限制其发挥应有能力。
  • 领域或垂直大模型。这个思路未必正确,所有的AI能力都是通用能力,不会有跛脚的领域AI
    • 对实时性有要求的场景是例外,但这种实时性效果需要付出较大的人力和时间成本,且场景无法直接从通用模型进展中获益;

https://yun123.io/blog/cli-coding-agents-comparison/

从技术本质来看:

  • 都是"能写代码并调用工具的模型 + 执行环境"。
  • 区别不在"是不是智能体",而在于:
    1. Claude Code 把"领域知识 + 办公工具"封装成可插拔技能 → 在具体办公/金融场景形成巨大生产力飞跃。
    2. OpenClaw 把"编程智能体内核 + 操作系统级控制"封成一个可部署基础设施 → 变成所有行业都能套的 Agent Runtime。

OpenClaw 是建在 Pi coding agent 之上的本地自托管 AI Agent 运行时 :它不是"又一个聊天机器人",而是一个真正控制电脑 / 服务器执行任务的编程智能体平台[4][5]。

Pi 本身的特征(从 Pi 文档和集成说明)[4]:

  • 提供 createAgentSession() 创建一个完整的 Agent 会话:
    • 负责 prompt、上下文管理、工具调用、思维链、历史压缩等
  • 通过事件流(message_start / tool_execution_start / turn_end 等)暴露整个 Agent 运行过程[4]
  • 内置 coding 工具(读写文件、bash、编辑器指令),非常适合做编程类智能体内核

Pi 的定位:一个最小可用的"AI 编程内核",你可以在上面自己搭一整套 agent 系统。OpenClaw 就是这样做的。

OpenClaw 没有把 Pi 当作"外部进程 RPC 调用",而是:

  • 直接在 TypeScript/Node 里 嵌入 Pi 的 AgentSession(runEmbeddedPiAgent)[4]
  • 在其外面再包一整套"工程级外壳":

(1)Agent Loop & Gateway:把"对话"变成「全流程执行」

架构上,OpenClaw实现了一个标准化的 agent loop[4][6][8]:

  1. 输入统一化(Channel Adapter)
    • 来自 WhatsApp / Telegram / Slack / Web 的消息都转成统一结构[6][8]。
  2. Gateway & Lane Queue
    • Gateway 把会话放进「Lane」(队列),每个会话一个 lane,默认串行执行,防止状态冲突[8]。
    • 避免多轮并行调用导致文件状态或进程状态被写乱,这一点在"能执行 shell / 文件操作"的 agent 中极其关键。
  3. Agent Runner
    • 调用 Pi 的会话、构造系统提示、挂载工具、控制思考模式、处理模型切换与 Failover 等[8]。
  4. Agentic Loop
    • 模型输出 → 工具调用 → 执行结果写回上下文 → 下一个决策,直到任务完成为止[6][8]。
  5. 输出与审计
    • 所有交互写入 JSONL transcript,可重放、可审计[8][9]。

这套 loop 实际上是"一个能真正跑生产的 Agent 操作系统",而不是"一个好玩的编程助手"。

(2)工具体系:从「会写代码」到「会操作系统 / 浏览器 / 消息通道」

OpenClaw 在 Pi 的基础工具(read/write/bash/edit)之上,自行构建了完整的工具层[4][8][9]:

  • 重写/包装原有工具:
    • bash → 受控的 exec/process(可选择在宿主机或 Docker 沙箱中执行)[4][8]
    • 文件读写 → 根据是否启用 sandbox,限制访问路径
  • 新增一大堆工具:
    • 消息类:Telegram、Slack、Discord、WhatsApp 操作
    • 浏览器类:基于可访问性树(ARIA)的页面语义快照和点击/输入能力,降低 token 成本、提高解析精度[9]
    • 调度类:定时任务(cron)、会话跨设备、网关控制等
  • 工具策略层:
    • 每个工具都通过策略过滤(按 profile、provider、agent、group、sandbox 等)[4],防止误用高风险指令。

这就让 Pi 从一个"编程助手",变成了一个能真正操控电脑 / 服务器 / 浏览器 / 消息平台的操作层智能体

(3)记忆与可观测性:工程级的"可追溯智能体"

OpenClaw在记忆和观测上做了两件关键事[8][9]:

  1. 双层记忆结构
    • JSONL transcript:事实级审计日志------所有请求、工具调用、模型输出都在这里,适合审计/重放[8][9]。
    • Markdown Memory(MEMORY.md):更抽象的经验总结、偏好、项目进度等[9]。
    • 上面再叠加混合检索:向量搜索 + SQLite FTS5 关键词索引[9]。
  2. Context Guard & 自动压缩
    • 监控 token 用量,触发自动压缩历史、合并对话、保留关键信息[4][8]。
    • 提供"compaction-safeguard"和"context-pruning"等 Pi 扩展,按任务重要性/TTL 过滤保留内容[4]。

直接效果

  • 长期运行的 agent 不再靠"不断堆叠聊天记录",而是有结构化记忆。
  • 企业可以把 OpenClaw 当成"一个持续在线、可审计的数字员工",符合金融、政企对合规和可追责的要求。

(4)安全与多模型治理

  • Shell 安全:
    • 白名单命令模式:只允许特定形态(如 git / npm / ls 等)[9]
    • 阻断带 >, $(), &&, || 等高风险结构的命令[9]
  • 多模型、多 Key 管理:
    • Auth Profile Store:管理多个 API Key,自动轮换、遇到错误自动 failover[4]
    • Model Resolver:根据 provider(Anthropic / OpenAI / Gemini 等)和任务类型选择合适模型[4][8]

这一套东西本质是:把 LLM 当作一个不可靠组件,套上工程级治理与防护

这就是为什么安全圈和大厂架构师在分析 OpenClaw 架构时,会认为它是「真正适合进生产的 Agent 框架」,而不是单点工具[8][9]。

从公开数据看:

  • OpenClaw 从 2025 年 11 月开源,到 2026 年 3 月已经超过 25 万 Star,成为 GitHub 上 Star 数最高的非"列表类"软件项目[10]。
  • React 用了 13 年才达到了 24万+ Star,而 OpenClaw 约 100 天就达到了类似量级[10]。

这不是纯粹"炒作",而是技术形态决定了它的传播路径:

  1. 定位是"能真正替你干活"的本地 Agent
    • 自托管、本地-first,极大缓解企业和开发者对隐私、合规的担忧[4][8]。
    • 可以运行在家用 Mac mini / 树莓派 / VPS 上,门槛极低[4]。
  2. 开发者直接感知价值
    • 开箱可以:清理邮箱、管日程、登录网站、下载文件、运行脚本、跑 CI 等[4][6][8]。
    • 对很多个人开发者/小团队,等于突然免费多了一个全栈 DevOps + 助理。
  3. 社区易于扩展
    • 工具有统一适配层(toToolDefinitions + splitSdkTools),写一个工具基本就是写一个普通 TypeScript 函数[4]。
    • 结合 Pi 的扩展体系,可以很快做出新类型 agent(开发团队、客服团队、运营团队等)。

一句话:OpenClaw 做的是"把 Pi 编程智能体做成一个完整的、可落地的系统",刚好踩在"大家都在问:我能不能让 AI 真正替我干活?"这个需求点上。


OpenClaw的架构由三个模块组成:Agent Loop、Tools、Gateway。

Agent Loop是龙虾的大脑,它负责决策和思考,它会根据当前任务判断下一步要做什么,并在需要的时候调用各种工具来完成行动。

Tools是龙虾的手脚,为Agent Loop提供各种能力,比如浏览网页、执行命令、调用 API、处理文件等,让龙虾真正具备干活的能力。

Gateway是龙虾的身体,它让整个系统能够持续在线,接收来自不同渠道的消息(比如 Telegram、飞书等),并把任务交给Agent Loop处理,再把结果返回给用户。

Agent Loop,是AI接到一个任务之后,自己一步一步把事情做完的机制。

OpenClaw的Agent Loop是基于Pi SDK的,这是一个独立的开源项目:https://github.com/badlogic/pi-mono

Agent Loop不是OpenClaw的独家优势,Claude Code和Codex都有Agent Loop的逻辑,光从脑子的设计来看,OpenClaw跟Claude Code、Codex没什么本质区别。

第一层是基础工具。

这是最底层的一些能力,比如:读写文件、执行命令、浏览网页、搜索和抓取信息,这些工具让 AI 能够真正操作电脑,而不是只停留在聊天里。

第二层是 Skills。

Skills本质上是在教AI怎么像人一样干活。

它会告诉AI在任务场景下应该怎么做、应该调用哪些工具、步骤是什么。

比如:写代码前先扫描项目结构、修改文件前先做备份、写完代码之后自动运行测试,这些经验都可以写成 Skills,让AI在类似任务里自动复用。

第三层是外部工具。

这一层主要是接各种第三方服务,比如:调用外部 API、接入 SaaS 服务、扩展新的工具能力。

所以从底层来看,OpenClaw 的手脚并不是简单的一堆工具,而是一整套:基础工具 + Skills + 外部扩展组成的能力体系。

但工具体系本身并不是OpenClaw的独家优势,像Claude Code和Codex,都有同样的工具体系。

第一,不关机。

龙虾是常驻在线的,就算系统崩了也会自动恢复,重启之后还能记住之前的对话。

比如凌晨3点服务器突然挂了,Gateway会自动把龙虾重新拉起来,并恢复之前的对话上下文,继续处理那些还没做完的任务。

等你第二天早上再来看,它就像从来没有断过一样,一直在工作。

第二,接所有平台。

Telegram、飞书、钉钉等20多个平台的消息,都可以统一接收和处理。

这意味着什么?你不需要为飞书单独写一个 bot,也不需要再为钉钉写个 bot。

Gateway在中间做了一层消息适配,不管消息来自哪个平台到AI 这里都会被转换成同一种格式。

你在飞书上给它发消息,它就在飞书上回复;在钉钉上发,它也会在钉钉上回你。

第三,会话隔离。

每个聊天窗口都是独立的,你和它的对话不会被别人的任务干扰。

比如你让它帮你查一份数据,同时又在另一个群里让它写一段文案。这两个任务在Gateway里是完全隔离的,各自有各自的上下文,不会串。

就像两个独立的员工在分别处理两件事,各干各的。

第四,排队控制。

同一时间只处理一个任务,不会因为消息太多而搞混。

比如说在一个飞书群里,我和同事同时发消息给龙虾,Gateway的处理策略很简单:谁先来做谁的,后面的任务排队。

这个设计看起来有点笨,但其实很聪明。

因为 LLM 的推理本来就不太适合并发,同时处理多个任务反而更容易出错,最后可能两个任务都做不好。

第五,心跳巡查。

心跳巡查是龙虾可以主动做任务的核心。

OpenClaw的主动执行能力主要靠两套机制:Heartbeat负责周期性巡检,Cron负责精确定时调度。

Gateway会定时主动检查有没有待办任务,如果有它就自己去执行,不需要你催它。

举个例子,你让它每天早上8点整理一份AI资讯摘要推送给你。

到了时间,Gateway的心跳机制就会自动触发这个任务,AI会自己去搜集信息、整理内容,然后发到你的飞书上。

你什么都不用做,打开飞书就能看到结果。

不过这里也有一个需要注意的地方:有时候 AI 会口头答应你已经配置好任务了,但实际上压根没写到待办里,这也就是很多时候龙虾不主动执行任务的原因。

第六,记忆刷盘。

当对话太长需要压缩时,它会先把重要内容存到记忆文件里,再进行压缩,避免关键信息丢失。

这点做的蛮好的,当我们和AI聊了很长一段时间,讨论了项目方案,也确认了不少关键决策。

如果直接压缩旧对话,这些结论就可能丢掉,下次它又得重新问我们。

Gateway的做法是:在压缩之前先把重要的结论和决策存到记忆文件里,这样即使上下文被压缩,关键信息也能随时找回来。

小讯
上一篇 2026-04-12 11:57
下一篇 2026-04-12 11:55

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/256062.html