据悉,OpenClaw之父发布了专为龙虾适配的模型榜单PinchBench,从成功率、速度和价格三个维度评估全球大模型对OpenClaw的适配程度。该榜单实时更新,中国模型表现尤为出色。
在成功率方面,除了第一名谷歌Gemini 3 Flash,第二、第三名均来自国内。MiniMax M2.5在速度测试中超越Gemini、Llama等模型,登上榜首。价格方面,GPT-5-nano最便宜,而国产模型MiniMax M2.1的价格约为前者的3倍。
PinchBench由一支做Agent基础设施的创业团队推出,主要测试不同大模型在真实工作流中的执行能力。评测方式偏向真实任务流程,包含23个真实任务的测试,采用自动检查脚本和LLM Judge结合的评分机制。榜单显示,偏Agent优化或推理效率更高的模型排名更靠前。
目前PinchBench仍开放使用,用户可自行运行或添加新任务。该榜单为选择适合OpenClaw的模型提供了重要参考。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/231466.html