想知道哪款大模型在 OpenClaw真实世界代理任务中真正最强?
MyToken基于测评网站整理了一套专注评估AI编码代理实际能力的透明基准,只看成功率这一个核心维度(速度和成本属于其他独立维度,后续再单独分析)。完全公开、可复现,只呈现严谨的测评标准 + 最新成功率Top 10排行。
具体标准:AI代理完整准确地完成给定任务的数量占比。每项任务都采用高度标准化的流程:
- 精准的用户提示词(Prompt))
发送给智能体完整来模拟真实的用户请求场景
- 预期行为(Expected Behavior )
均说明可接受的实现方式与关键决策要点
- 评分标准(checklist)
列出可逐条核验的原子化成功判定清单
此次测评主要采取3种评分方式
- 自动化检查:Python脚本直接验证文件内容、执行记录、工具调用等客观结果
- LLM大模型裁判:Claude Opus按照详细量表打分(内容质量、合适度、完整性等)
- 混合模式:自动化客观检查 + LLM裁判定性评估结合
所有任务定义、Prompt、评分逻辑全部公开,以便复测验证。
此次基准测试涵盖23 个不同类别的任务。覆盖基础交互、文件/代码操作、内容创作、研究分析、系统工具调用、记忆持久化等多个维度,高度贴近开发者日常使用OpenClaw的场景:
- Sanity Check(自动化)——处理简单指令并正确回复问候
- Calendar Event Creation(自动化)——自然语言生成标准ICS日历文件
- Stock Price Research(自动化)——实时查询股价并输出格式化报告
- Blog Post Writing(LLM裁判)——写一篇约500字结构化Markdown博客
- Weather Script Creation(自动化)——编写带错误处理的Python天气API脚本
- Document Summarization(LLM裁判)——3段式精炼总结核心主题
- Tech Conference Research(LLM裁判)——调研整理5场真实科技会议信息(名称、日期、地点、链接)
- Professional Email Drafting(LLM裁判)——礼貌拒绝会议并提出替代方案
- Memory Retrieval from Context(自动化)——从项目笔记中精准提取日期、成员、技术栈等
- File Structure Creation(自动化)——自动生成标准项目目录、README、.gitignore
- Multi-step API Workflow(混合)——读取配置 → 编写调用脚本 → 完整文档化
- Install ClawdHub Skill(自动化)——从技能仓库安装并验证可用性
- Search and Install Skill(自动化)——搜索天气类技能并正确安装
- AI Image Generation(混合)——按描述生成并保存图片
- Humanize AI-Generated Blog(LLM裁判)——把机器味内容改成自然口语
- Daily Research Summary(LLM裁判)——多份文档合成连贯每日摘要
- Email Inbox Triage(混合)——分析多封邮件并按紧急度整理报告
- Email Search and Summarization(混合)——搜索归档邮件并提炼关键信息
- Competitive Market Research(混合)——企业APM领域竞品分析
- CSV and Excel Summarization(混合)——分析表格文件并输出洞察
- ELI5 PDF Summarization(LLM裁判)——用5岁小孩能懂的语言解释技术PDF
- OpenClaw Report Comprehension(自动化)——从研究报告PDF中精准回答特定问题
- Second Brain Knowledge Persistence(混合)——跨会话存储并准确回忆信息
- 数据更新至2026年4月7日
- Best % 为单次最高成功率,Avg % 为多次平均成功率,更反映稳定性
以下是成功率最高的前十模型
- anthropic/claude-opus-4.6(Anthropic)——93.3% / 82.0%
- arcee-ai/trinity-large-thinking(Arcee AI)——91.9% / 91.9%
- openai/gpt-5.4(OpenAI)——90.5% / 81.7%
- qwen/qwen3.5-27b(Qwen)——90.0% / 78.5%
- minimax/minimax-m2.7(MiniMax)——89.8% / 83.2%
- anthropic/claude-haiku-4.5(Anthropic)——89.5% / 78.1%
- qwen/qwen3.5-397b-a17b(Qwen)——89.1% / 80.4%
- xiaomi/mimo-v2-flash(Xiaomi)——88.8% / 70.2%
- qwen/qwen3.6-plus-preview(Qwen)——88.6% / 84.0%
- nvidia/nemotron-3-super-120b-a12b(NVIDIA)——88.6% / 75.5%

Claude Opus 4.6目前以93.3%的最高成功率领跑,但Arcee的Trinity在平均稳定性上表现亮眼,千问系列也有多款进入前十,展现出很强的性价比潜力。成功率是基础门槛,后续速度和成本维度会进一步影响实际体验。
这套23任务基准完全透明,强烈建议大家结合自身场景实际测试。更多其他模型排名,敬请期待MyToken即将推出的智能体排行榜功能。
(数据来源于PinchBench公开的OpenClaw代理基准测试,持续更新中。)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/255789.html