<p class="f_center"> <img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0310%2Fc9294ee8j00tbnmlq002id200u000k0g00u000k0.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="4CLCKEBI"> <br/>日前,Pinchbench更新了一份评测报告。<br/></p><p id="4CLCKEBJ"> 该报告 通过标准化的 OpenClaw agent 测试任务,对不同大模型在真实任务中的成功率、成本和速度等,进行了横向对比。</p><p id="4CLCKEBK"> 成功率指标看,排名最高的是 Google Gemini 3 Flash 系列,平均成功率达到 95.1%。紧随其后的是 MiniMax M2.1(93.6%) 和月之暗面Kimi K2.5(93.4%)。</p><p id="4CLCKEBL"> 这三款模型都超过了 93%,说明在自动化任务执行能力上已经非常稳定。</p><p id="4CLCKEBM"> Anthropic Claude 系列表现也比较均衡。其中 Claude Sonnet 约 92.7%,Claude Haiku 90.8%,而 Claude Opus 4 在 88%—90% 左右。</p><p id="4CLCKEBN"> OpenAI 方面,GPT-5 Nano 成功率 85.8%,GPT-4o 为 85.2%,GPT-4o Mini 为 83.4%。虽然没有进入第一梯队,但稳定处于中上水平。</p><p id="4CLCKEBO"> 国产模型里,Qwen3-Coder-Next 85.4%、GLM-4.5-Air 85.4%,整体表现也比较接近。<br/></p><p class="f_center"> <img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0310%2Ff9323a5cj00tbnmlr005wd200mc02lig00mc02li.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="4CLCKEBQ"> 把成本因素一起看,情况就更有意思了。<br/></p><p id="4CLCKEBR"> 成本榜单显示,完成一次标准任务 最便宜的模型是 GPT-5 Nano,仅约 0.03 美元。第二是 Gemini 2.5 Flash,约 0.05 美元,第三是 Mistral Devstral,约 0.10 美元。<br/></p><p id="4CLCKEBS"> 而高性能模型往往更贵,比如 Claude Sonnet 约 3.07 美元,Claude Opus 超过 5 美元。</p><p class="f_center"> <img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0310%2Fac305ef3j00tbnmlr004bd200mc01z7g00mc01z7.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="4CLCKEBU"> 从“性能 vs 成本”的图来看, 最具性价比的区域集中在左上角 :成功率高,同时成本低。</p><p id="4CLCKEBV"> 这个区域主要包括Gemini 3 Flash、MiniMax M2.1、Kimi K2.5、GPT-5 Nano</p><p id="4CLCKEC0"> 其中 GPT-5 Nano虽然成功率不是最高,但因为价格极低,被认为是“最划算”的模型之一。<br/></p><p class="f_center"> <img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0310%2Fb47f831cj00tbnmls003pd200mc01peg00mc01pe.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="4CLCKEC2"> 速度方面则是另一套排名。</p><p id="4CLCKEC3"> 最快的是 MiniMax M2.5,完成一次任务 约 105.96 秒。<br/></p><p id="4CLCKEC4"> 随后是 Gemini 2.0 Flash(106.05 秒) 和 Llama 3 系列(约 106 秒)。<br/></p><p id="4CLCKEC5"> 而一些性能更强的大模型明显更慢。例如GPT-4o 约 190 秒,Claude Sonnet 约 137 秒,Kimi K2.5 约 291 秒,DeepSeek V3 约 622 秒。</p><p id="4CLCKEC6"> 这说明,模型越大、推理越复杂,速度往往越慢。<br/></p><p class="f_center"> <img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0310%2Fecb6e6c3j00tbnmls006md200mc02w8g00mc02w8.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="4CLCKEC8"> 综合这四个维度,可以看到大模型在养“龙虾”方面的一些特点。</p><p id="4CLCKEC9"> 作为用户而言,通过评测结果大概可有的结论是:MiniMax-M2.1或Kimi K2.5极致性价比(成功率93%+,成本<$0.20,只是速度不太快);Claude Opus系列贵;GPT-5-Nano适合预算极低的简单任务。</p><p id="4CLCKECA"> 评测结果也能看到大模型的一些分化局面。</p><p id="4CLCKECB"> 比如,谷歌的Gemini和 Anthropic的Claude系列整体表现稳定,一如既往的靠谱。<br/></p><p id="4CLCKECC"> OpenAI 则比较让人意外 。比如在成功率上,中低端版本成绩尚可,高端的gpt-5.2却意外拉胯,未能达到预期。</p><p id="4CLCKECD"> 当然,其 在成本上依然有优势,GPT-5 Nano 以极低成本完成任务,是典型的高性价比模型。</p><p id="4CLCKECE"> 再如,MiniMax 和 Kimi 在成功率榜单中进入前三,说明国产模型在复杂任务执行能力上,已经非常接近国际顶级水平。</p><p id="4CLCKECF"> 还有就是,同品牌不同系列模型的适配效果差异显著,选择时需格外注意版本区别,丰俭由君。</p><p id="4CLCKECG"> 这也说明,不同模型的定位越来越清晰,有的追求极致性能,有的强调成本控制,还有的侧重速度,几乎没有模型能同时做到三个维度都最优。</p><p id="4CLCKECH"> 需要注意的是,本次评测的成绩均基于标准化测试,实际部署时还会受硬件配置、部署环境、任务类型等因素影响。</p><p id="4CLCKECI"> 此外,在部署OpenClaw的过程中,还需要关注官方提示的安全风险,做好权限配置、数据加密等安全防护。</p><p class="f_center"> <img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0310%2F7bj00tbnmlt001id200m800gog00m800go.jpg&thumbnail=660x&quality=80&type=jpg" width="800" height="600" onload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" /><br/></p>
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/216108.html