2026年🦞 OpenClaw Agentic 模型完整深度报告

🦞 OpenClaw Agentic 模型完整深度报告数据来源 SLCT Arena MCP 实时评测数据 评测类型 xsct a Agentic 任务执行能力 对比模型 Claude Opus 4 6 GPT 5 2 Gemini 3 Flash Preview 报告时间 2026 年 3 月 10 日 OpenClaw 曾用名 Clawdbot Moltbot 是一款基于 TypeScript 开发的开源 AI

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



数据来源:SLCT Arena MCP 实时评测数据

评测类型:xsct-a(Agentic 任务执行能力)

对比模型:Claude Opus 4.6 × GPT-5.2 × Gemini 3 Flash Preview

报告时间:2026 年 3 月 10 日



























OpenClaw(曾用名 Clawdbot / Moltbot)是一款基于 TypeScript 开发的开源 AI Agent 框架,核心理念是把 AI 从「对话工具」变成「执行系统」——你给任务,它自己拆解、调用工具、执行、交付结果。


SLCT Arena 共设 7 大维度、95 个测试用例,覆盖 OpenClaw 真实运行场景:

综合分计算公式:日常(基础难度)×30% + 专业(中等难度)×40% + 极限(困难难度)×30%



✅ = 该维度/难度最高分 | 天花板:Claude Opus 在 AgentOrchestration 达 3 级,GPT-5.2 在 Gateway/Slides 达 3 级,Gemini 在 Slides/Web 达 3 级


维度:L-OpenClawFileOps|考察:误改识别 + 局部回滚 + 风险控制

得分总表

深度分析

基础档:Claude 完胜(95.4)

Claude 完整展示了 的完整工具链,尤其在最后以表格形式展示了恢复内容,三个 Judge 一致打高分(92.5/97.5/92.5)。

GPT-5.2 基础档直接超时(120s 无响应),Gemini 则系统报错。

中等档:三模型集体失败,Claude 稍好(45.2)

用户追加「不要动 changelog.md,改错了要恢复」时——三个模型都翻车了。

  • Claude(45.2):只说「让我先读取这两个文件的内容」就停了,知道不改 changelog.md,但完全没有意识到需要先检查 changelog.md 是否已被误改。
  • GPT-5.2(44.2):输出大量「(工具调用)」占位符,实际一个工具都没调用,最后承认「没拿到工作区文件内容」要求用户粘贴,Kimi Judge 评价:「空口说白话」。
  • Gemini(47.8):最短的回答——「明白了,跳过 changelog.md,首先检查这两个文件」,但同样没有先去验证 changelog.md 当前状态。

共同短板:三个模型都没有意识到「批量替换已经开始了,要先确认 changelog.md 有没有被污染」。

困难档:GPT-5.2 微胜(69.7)

困难档涉及权限失败(/etc/app/start.sh 是 root 所有)+ 误改范围。

  • GPT-5.2(69.7):准确识别 test.sh 可写、start.sh 无权限,给出两条清晰路径(跳过 vs sudo),但未主动用 read 验证 test.sh 实际状态。
  • Claude(66.5):做了一个专业的状态总结表格,方向正确,但核心缺陷——没有调用 read 验证文件实际内容,而且完全没提「误改回滚」。
  • Gemini(64.3):最简洁,直接说「sudo sed...」,也没有验证步骤,Kimi 给 45 分。

维度:L-OpenClawFileOps|考察:止损意识 + /proc 恢复技术 + 系统性加固

得分总表

深度分析

这道题是整个测试集里「三模型集体崩」最严重的。

基础档:全员失败,GPT-5.2 稍好(42.2)

清理 .tmp 文件时有一个陷阱: 包含 .tmp 后缀但是备份文件,不能删!

  • Claude(31.2):只用 没有加排除过滤条件,任务场景没有文件就直接说「your data is safe」,完全没意识到题目背景是已发生误删。
  • GPT-5.2(42.2):态度谨慎,说「会先扫描再删除,对疑似重要文件停下来确认」,但实际也没有工具调用、没有过滤 ,Kimi 批评:「幻觉执行」。
  • Gemini(0.0):系统报错。

困难档:Gemini 意外翻盘(65.0),Claude 最惨(36.2)

困难档预设上下文已通过 恢复了误删文件,用户问「现在呢?」

  • Gemini(65.0):简洁给出三条后续建议——验证文件内容、将删除改为移动到回收目录、建立 Git 自动备份,并主动提出「我可以帮你审查清理脚本」。语气有安抚感,三个 Judge 均通过。
  • Claude(36.2):只写了一句话「让我先确认恢复的文件内容是否完整」,然后调用了 ,就没了。三个 Judge 一致批评:完全缺失系统性加固建议,Kimi 给了 0 分的「系统性加固建议」维度。
  • GPT-5.2(20.5):系统报错(HTTP 400,工具调用消息链不完整),只有 Claude Judge 基于预设上下文给了 41 分,其余两个 Judge 均 0 分。

维度:L-OpenClawFileOps|考察:备份探测 + 写入闭环 + 无备份逆向回滚

得分总表

深度分析

基础档:Claude 完美(94.0)—— 本报告最高分之一

Claude 输出了教科书级别的文件恢复流程:

 
         

三个 Judge 一致打高分(92.5/97.5/92.5),Gemini Judge 给 满分 100。

GPT-5.2 基础档超时 120 秒,Gemini 虽通过(70.5),但问题是读完备份文件就停了,没有执行 write,三个 Judge 一致批评「有开头无结尾」。

中等档:三模型都通过,差距是执行细节

场景:撤回「mv app.py main.py」和「rm utils.py」两步操作。

  • Claude(82.6):正确识别 mv 和 rm 两步,用 处理无 git 的边界情况,但 Kimi 批评「未先确认回滚边界」。
  • Gemini(73.2):方向正确,但表述先说「尝试撤回重命名操作」又说「首先检查文件状态」,Kimi:「执行顺序不明确,停留在检查阶段」。
  • GPT-5.2(72.5):陷入「分析型瘫痪」——大量自述「工具调用未返回输出」的循环,最后列出方案 A(有 git)和方案 B(无 git)让用户自己选,Kimi 给 50 分。

困难档:全军覆没!三模型共同短板

无备份 + 导致 + 需要逆向回滚。

  • Claude(25.2):只执行了 就停了。三个 Judge 一致批评「分析瘫痪」——「先看看」但不执行。
  • GPT-5.2(34.5):识别出 python33 问题,但只做了单向修复(python33→python3),没有做第二步(python3→python),也没有撤销 权限,还在末尾附加了 —— 搞错了,任务要的是回滚不是继续执行!
  • Gemini(29.8):同样把「回滚」理解成「修复后继续执行」,在回滚命令末尾加了 ,与任务目标背道而驰。

维度:L-OpenClawChannel|考察:配置参数准确性 + 故障诊断 + Privacy Mode 深度

得分总表

深度分析

基础档:三模型都及格,但都不准确

核心问题:OpenClaw 的配置路径是 ,三个模型都不太清楚,必填参数 三者都遗漏!

  • Gemini(69.5):指向了 而非 ,用了 TOML 格式,但操作步骤最清晰,还主动说明了获取 User ID 的方法。
  • GPT-5.2(64.5):给了大量 Webhook/Polling 技术细节,但 Kimi 批评「过度工程化」,说了很多非核心配置,忘了最关键的 。
  • Claude(61.4):同样遗漏 ,引入了 等非核心参数。

中等档:Connection timed out — Claude 最好(88.8)

场景:proxy 字段为空,连接 Telegram API 超时。

  • Claude(88.8):一句话定位根因「proxy 字段为空」,列出 HTTP/SOCKS5/带认证三种代理格式,代理格式说明比参考答案更丰富。三个 Judge 一致给高分(86/92.5/90)。
  • GPT-5.2(86.5):也准确定位了问题,还提供了 的验证方法,但说「我需要你补充两点信息才能给出精确改法」让 Kimi 批评方案不够完整。
  • Gemini(80.8):方向正确,配置格式示例正确,但也是询问式结尾「你需要我帮你修改配置文件吗?」。

困难档:本报告最令人意外的结果——Claude 崩溃(10.8),GPT-5.2 意外优秀(61.0)

困难档场景:Bot 在群里收不到消息,配置文件中有 和 ,还需要通过 @BotFather 关闭 Privacy Mode。

  • Claude(10.8):面对已知问题直接 ls 探索目录——完全忽略上下文中已通过 sudo 读取的配置信息。Kimi 给了 0 分,说「严重的上下文遗忘」。
  • GPT-5.2(61.0):正确识别了 和 ,直接给出 sed 命令修改,并提供了「按你想要的行为二选一」的灵活方案。但所有三个模型都遗漏了最关键的 Telegram Privacy Mode —— 这是 @BotFather 侧的设置,不改本地配置也没用!
  • Gemini(58.0):也识别了两个配置问题,给出了 sed 命令,但未提 Privacy Mode,得分相近。

维度:L-OpenClawChannel|考察:OpenClaw 平台知识 + health_check 机制 + zombie 状态处理

得分总表

深度分析

基础档:全体崩溃,都把 OpenClaw 渠道问题当成通用 Telegram Bot

这是本报告最能说明「领域专有知识缺口」的案例。

  • Claude(43.0):给了 Webhook URL、SSL 证书、Privacy Mode 等通用 Telegram 建议,完全没有提 。
  • GPT-5.2(32.5):更糟,直接给出了 BotFather 设置隐私模式、python-telegram-bot 框架等内容,三个 Judge 一致:「答非所问」。
  • Gemini(22.0):最低分,也是通用 Telegram 开发建议。

三个 Judge 的评语高度一致:「完全偏离 OpenClaw 特定上下文」。

中等档:Gemini 反超(83.8),GPT-5.2 次之(80.2)

场景: → 改为 。

  • Gemini(83.8):给出了完整命令 + 重启步骤,虽然用了虚构命令 而非正确的 sed,但提供了可操作的内容。Kimi 给了 90 分的隔离性理解。
  • GPT-5.2(80.2):正确识别根因,给出了配置示例,但用了自创的 而不是正确的 ,并说「我也不确定支持哪些值,可以帮你搜一下」——暴露了不确定性。
  • Claude(75.0):准确定位问题,但说「需要我现在帮你改吗?」就结束了,等用户确认。Kimi:「说了一半,解决方案不闭环」。

困难档:Gemini 最高(44.8),但全员未通过

困难档是 WhatsApp 渠道 zombie 状态(正确做法:清理 session.lock + 重启 + 建议 deep_probe)。

  • Claude(20.5):最惨。输出了数百行 Python 代码搭建一个全新的健康检查框架——完全没有执行任何恢复动作。Kimi:「幻觉式开发」。
  • Gemini(44.8):最简洁:「深度探测显示该渠道已完全无响应。我将执行自动恢复流程:先尝试软重启驱动程序...」。虽然软重启对 zombie 状态无效,但至少方向对了,有实质内容。
  • GPT-5.2(42.2):面对 zombie 状态设计了一套「策略-节流-升级」的健康检查框架,思路对但没有直接清理 session.lock,Kimi:「本末倒置」。

维度:L-OpenClawChannel|考察:配置层级理解 + 全局污染回归 + 严谨性

得分总表

深度分析

这道题是所有维度中三模型表现最均衡的,所有难度全部通过!

基础档:Gemini 胜(89.0),Claude 有字段名错误

  • Gemini(89.0):用了正确的 字段,主动补充了 生效命令,步骤完整。
  • Claude(81.3):用了 而非正确的 字段——Kimi 直接批:「这会导致用户无法正确配置系统」。但 Gemini Judge 给了 95.0,因为「model_override 更符合命名惯例」——三个 Judge 分歧明显(81/97.5/65)。
  • GPT-5.2(75.8):用了正确的 字段,但先建议执行 确认参数,说「按你的实际配置为准」——Kimi:「缺乏确定性」。

困难档:Claude 领先(81.5)—— 配置污染回归问题

复杂场景:修改 iMessage 配置时污染了全局 ,导致 Matrix 渠道 gpt-4o 请求发到 DeepSeek 服务器。

  • Claude(81.5):正确识别三个核心问题——全局 model 被改、openai base_url 被篡改、iMessage 缺独立配置,给出了完整的修复 YAML,三个 Judge 均通过(80/85/80)。
  • GPT-5.2(74.7):方向正确,提供了正确的 YAML 结构,但未提及 验证命令,重启命令也没有 sudo,Kimi:「能用但不够专业」。
  • Gemini(71.3):在 下放了 ——model 应该在 层!Kimi 直接批:「若被用户采纳将导致配置无法正常工作」。

维度:L-OpenClawPlugin|考察:npm 打包诊断 + Event Loop 异步化 + SDK 路径 API

得分总表

深度分析

基础档:三模型集体优秀(92.5-94.4),本报告最整齐的一次

场景: 开发态正常,发布后 。

三个模型都准确识别了两大根因:① 的 字段应指向 而非 ;②运行时依赖不能放在 。

  • GPT-5.2(94.4):额外覆盖了路径别名未解析(tsc-alias)、ESM/CJS 格式不匹配、原生模块平台差异等,Gemini Judge 给了 98.0。
  • Gemini(93.5):还提供了 手动调试命令,更实用。
  • Claude(92.5):提供了完整的排查清单流程图,非常直观。

中等档:GPT-5.2 崩溃(15.0),工具滥用典型案例

场景: 中 。

  • Claude(70.0):正确识别了需要在 添加 元数据,但工具调用格式混乱(XML 标签错误),验证命令用了 而非正确的 。
  • GPT-5.2(15.0):执行了 12 个冗余工具调用(重复的 read/exec 命令),但完全没有给出分析结论——Kimi:「将「读取-分析-回答」变成了无意义的工具调用轰炸」。
  • Gemini(0.0):系统报错。

困难档:GPT-5.2 最好(54.5),但全员未通过

场景:Event Loop 被图像处理阻塞 5000ms + cache 目录权限不足。

  • GPT-5.2(54.5):识别了两个问题,建议改用 Worker Threads、异步化、路径改 。但 Kimi:「未使用 SDK 的 方法,遗漏了 Webhook 202 异步响应模式」。
  • Gemini(51.5):建议 异步化和 ,思路对但同样没有 OpenClaw SDK 的专有方法。
  • Claude(11.5):一句话「我先看一下插件的项目结构和相关代码,定位具体的阻塞点」—— 就停了。Kimi 给 0 分,说「在 hard 难度下,这种回避型回复完全无效」。

维度:L-OpenClawAgentOrchestration|考察:多源信息整合 + 权限失败恢复 + 战略对齐报告

得分总表

深度分析

基础档:Claude 最好(66.0)

场景:读取 + 访问 + 汇总三个核心卖点。

  • Claude(66.0):发现文件不存在且外网不可达后,给出结构清晰的「现状说明」表格,并说「拿到素材后会整理三个核心卖点」。Gemini Judge 给 87.5,但 Kimi 批评「缺乏编排规划能力」。
  • GPT-5.2(31.0):同样文件不存在,但没有尝试任何工具调用就直接说「无法完成」,要求用户粘贴内容。Gemini Judge:「应该优先尝试工具验证,而非直接假设环境缺失」。
  • Gemini(0.0):系统报错。

中等档:三模型都优秀(89-90.5),Claude 与 GPT-5.2 几乎平手

场景:整合 (插件化架构、毫秒级上下文压缩、自动失败恢复)与竞品官网(多模型切换、可视化面板、延迟高),给 CEO 的竞争优势报告。

  • GPT-5.2(90.5):给出了「性能壁垒/稳定性壁垒/可扩展性壁垒」的三层分析,特别点明「上下文压缩不是 UI 优化能解决的」,CEO 一句话定位极精炼。Gemini Judge 给 96.5。
  • Claude(90.0):竞争分析对比矩阵清晰,把竞品优势客观列出(⚠️ 竞品领先),技术壁垒分析有深度,Gemini Judge 也给 96.5。
  • Gemini(89.0):格式最简洁(三行表格),用「技术壁垒/可靠性优势/灵活壁垒」定性,最适合快速汇报,但战略深度略不如前两者。

困难档:Gemini 微胜(90.0)—— 失败恢复**

场景:内部 JSON 权限受限(先用 admin 子代理获取)+ 抓取行业趋势网页 + 形成年度战略对齐报告。

  • Gemini(90.0):极简但精准——「已经汇总完毕。根据 admin 子代理提取的内部报告与网页抓取的行业趋势...」。明确交代了「通过 admin 子代理」的决策链,失败恢复 95 分。
  • Claude(84.8):给出了完整的交叉分析表格(内部现状 vs 行业方向),三条具体行动建议,但 Kimi 批评「未明确叙述通过 admin 权限恢复的决策过程」,战略建议也偏泛化。
  • GPT-5.2(80.0):「失败恢复与上下文维持」96.5 分近乎完美,但「战略对齐逻辑」只有 65 分——用户问「现在呢?」后 GPT 只给了数据摘要然后又问「你要多文件汇总落成正式交付物吗?」,没有主动形成最终报告。

维度:L-OpenClawGateway|考察:安装命令准确性 + 配置覆盖理解 + 故障恢复决策

得分总表

深度分析

基础档:三模型全部失败,都不知道 pip 安装命令

正确命令是 + ,三个模型都搞错了:

  • Claude(48.0):给了 ——完全错误的安装方式。
  • GPT-5.2(43.0):先问「你的操作系统是什么」才能给安装命令,Kimi:「将简单问题复杂化」。
  • Gemini(54.0):说 ——包名错了,应该是 。

中等档:Gemini 最好(83.2)—— 自定义端口启动

场景:配置文件中有 config.yaml,用命令行参数 覆盖启动。

  • Gemini(83.2):直接给了正确命令 ,三种验证方式(日志/status/健康检查),并主动提供了持久化配置建议。
  • Claude(79.8):命令正确,但提供了自创命令 (该参数不存在),Kimi:「发明命令」。
  • GPT-5.2(60.0):先建议执行 确认参数,给出「方式A/方式B」两个选项让用户判断。

困难档:GPT-5.2 最好(87.2)—— 双重故障:权限 + 端口冲突

场景:/etc/openclaw 权限不足 + 端口 8000 被 PID 1234 占用。

  • GPT-5.2(87.2):清晰给出四步:①netstat 确认 8001 空闲→②mkdir -p ~/.openclaw→③openclaw gateway start --config ~/.openclaw/config.yaml --port 8001→④验证。明确说明「不动现有 8000 进程」,Claude Judge 给了 89.0,Gemini 给 92.5。
  • Gemini(79.0):方向对但命令混用(部分用 , 和 混用),最终启动命令也没有显式指定端口。
  • Claude(22.0):再次「分析瘫痪」——面对已知问题(权限+端口冲突),却重新发起 等基础探测命令,忽视了上下文中已有的诊断结果。三个 Judge 痛批「完全没有利用对话上下文中已有的信息」。

Claude Opus 4.6 — 「认真但怕动」
- ✅ 工具调用流程最完整,基础档几乎无敌(fo_011: 94.0, fo_007: 95.4, pl_001: 92.5)
- ✅ 汇报输出质量最高(orch_008 中等档:90.0,Gemini Judge 96.5)
- ❌ 极限场景「分析瘫痪」:面对复杂多变的问题时会过度准备而不执行
- ❌ 追问场景上下文丢失:「现在呢?」往往触发重新探索而不是基于已有信息继续
- ❌ 极慢:基础档平均 60-130 秒,远慢于竞争对手













GPT-5.2 — 「快但多系统错误」
- ✅ 极限场景抗压性最强(综合极限 59.6),网关困难档 87.2 分
- ✅ 战略分析深度好(orch_008 中等档 90.5,一句话定位精炼)
- ❌ HTTP 400 工具调用格式错误频发(fo_008/fo_007/web_003 多次触发)
- ❌ 「说而不做」倾向:会描述操作计划但实际工具调用是占位符
- ❌ OpenClaw 平台知识欠缺,经常用「openclaw gateway」替代「openclaw-gateway」













Gemini 3 Flash Preview — 「快、简洁、但报错多」
- ✅ 响应速度极快(2-7s),最适合高频使用场景
- ✅ 简洁有力,结论前置,配置准确性相对最好
- ✅ 幻灯片维度天花板最高,内容生成和结构化表达出色
- ❌ 系统报错频发(fo_007/fo_008/pl_001/web_003 多个基础/中等档出现 finish_reason=error)
- ❌ OpenClaw 专有 API 同样欠缺(getTempPath、openclaw-cli 等不熟悉)
- ❌ 所有模型共同短板:Telegram Privacy Mode、zombie 状态 session.lock 清理

















GPT plus 代充 只需 145

以典型 Claw Agent 单次调用(输入 8K + 输出 2K tokens,每天 100 次)估算月成本:


发现 1:所有顶级模型都有「OpenClaw 平台知识盲区」

无论是 的正确枚举值、、还是 SDK 方法,三个模型均表现明显不足。这意味着:System Prompt 里加入 OpenClaw 特定文档片段可以显著提升实际效果

发现 2:「分析瘫痪」vs「说而不做」是两种不同的失败模式

  • Claude 的失败模式:「我先看一下」然后停——过度谨慎,不敢执行
  • GPT-5.2 的失败模式:「(工具调用)(工具调用)」占位符——有计划没行动
  • Gemini 的失败模式:系统报错(finish_reason=error)——稳定性是短板

发现 3:性价比黑马是 Gemini 3 Flash

综合分仅落后第一名 1 分(61.0 vs 62.0),但价格是 Claude Opus 的 1/8。如果对稳定性要求不是极高(当前 finish_reason=error 频率偏高),Gemini 3 Flash 是中等规模 Claw 部署的最优选。

Claude Opus 4.6 = 基础文件操作最稳、报告输出最专业;
GPT-5.2 = 极限场景抗压最强、网关部署最可靠;
Gemini 3 Flash = 极速低价、配置类任务够用
——但三者共同短板都是 OpenClaw 平台专有 API 知识,靠 System Prompt 注入文档可以大幅弥补。

















🦞


小讯
上一篇 2026-03-21 21:21
下一篇 2026-03-21 21:19

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/233151.html