百度伐谋Agent 2.0再登MLE-Bench榜首,智能体工程化能力迎考

百度伐谋Agent 2.0再登MLE-Bench榜首,智能体工程化能力迎考百度智能云的企业级算法自主优化智能体 近日再次登顶机器学习工程权威基准测试 并刷新了 成绩 这是该产品继去年 10 月首次登顶后 第二次拿下这一榜单的第一名 MLE Bench 由 OpenAI 主导设立 包含 75 个源自 Kaggle 真实竞赛的工程任务 用于评估 AI 智能体在模型训练 数据处理 实验管理等全流程中的独立作业能力 它考核的不是大模型的对话或推理水平

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



图片

百度智能云的企业级算法自主优化智能体“”近日再次登顶机器学习工程权威基准测试,并刷新了成绩。这是该产品继去年10月首次登顶后,第二次拿下这一榜单的第一名。

MLE-Bench由OpenAI主导设立,包含75个源自Kaggle真实竞赛的工程任务,用于评估AI智能体在模型训练、数据处理、实验管理等全流程中的独立作业能力。

它考核的不是大模型的对话或推理水平,而是模拟人类机器学习工程师解决实际问题的综合素养。每道题目需运行三次取平均分,单次完整提交的算力成本为数万美元。

伐谋2.0在“高难度”任务上的表现较为突出,在统一运行标准下,其综合胜率领先于搭载Claude-Opus-4.6等主流大模型的同类智能体。

在15道最难题目中,伐谋拿下9项第一。这类高难度任务往往对应现实中数字化基础薄弱、数据质量参差的场景,如历史遗留的脏数据、残缺的业务记录、跨系统异构对接等,具有较高的工程参考价值。

产品层面,伐谋2.0在和底层基础设施上做了系统优化。增强的演化策略支持智能体在多个路径上并行探索并适时回溯调整;长程记忆机制帮助其在长链条任务中保持逻辑一致性;全栈AI云基础设施的优化则提升了算法迭代效率。

上线以来,伐谋已服务数千家企业,覆盖零售、金融、制造、能源、交通等领域。例如在汽车制造中,与阿尔特太乙合作的风阻验证时间从10小时压缩到数分钟,整车研发周期平均缩短25%。

MLE-Bench的竞争格局并不平静。今年2月,创业公司Disarray提交了一个高分成绩,随后UCSD团队的AIBuildAI也曾短暂占据榜首。百度伐谋2.0在这一轮动态排名中最终登顶,反映出该领域技术迭代的快速与激烈。

其他参与测评的智能体还包括搭载OpenAI o1、Claude等模型的方案,各家在数据处理效率、长任务稳定性等维度上各有长短。

伐谋2.0的正式版本将在今年5月的Create 2026百度AI开发者大会上发布。同时百度还开源了项目,基于多智能体协同模式构建虚拟科研团队,支持长线程科研任务的自动化推进。

当智能体在工程化基准测试中屡次刷新纪录,一个开放的问题也随之浮现,从榜单高分到大规模产业落地,中间还需要跨越哪些真实世界的门槛?对于企业而言,稳定的成本收益比和可解释的工程回报,或许才是最终的评判标准。

[本文作者i黑马,i黑马原创。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]

小讯
上一篇 2026-04-21 14:22
下一篇 2026-04-21 14:20

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261770.html