2026年MiniMax发布新一代大模型M2.7,首次展示“模型自我进化”路径

MiniMax发布新一代大模型M2.7,首次展示“模型自我进化”路径文 晓静 编辑 徐青阳 3 月 18 日 MiniMax 发布新一代模型 M2 7 并将其定位为面向 Agent 场景的旗舰模型 首次展示 模型自我进化 路径 与此前版本相比 M2 7 此次发布的重点不只是常规性能提升 还包括一套被称为 的执行框架 MiniMax 表示 该框架可让模型更深度地参与数据处理 实验设计 训练调优与评测反馈等研发流程 在部分内部研发场景中 相关系统可承担约 30 至 50 的工作量

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



图片

文|晓静

编辑|徐青阳

3月18日,MiniMax发布新一代模型M2.7,并将其定位为面向Agent场景的旗舰模型,首次展示“模型自我进化”路径。与此前版本相比,M2.7此次发布的重点不只是常规性能提升,还包括一套被称为的执行框架。MiniMax表示,该框架可让模型更深度地参与数据处理、实验设计、训练调优与评测反馈等研发流程。在部分内部研发场景中,相关系统可承担约30%至50%的工作量,并在内部评测集上带来约30%的效果提升。

从技术路径来看,M2.7构建了一套以Agent为核心的自我进化系统。在该体系中,模型不仅承担生成与推理任务,还通过构建复杂的Agent Harness(智能体执行框架),参与数据处理、实验设计、训练调优与评测反馈等完整研发流程。换言之,模型开始成为模型研发流程的一部分,而非单一工具。

具体实践中,MiniMax将M2系列早期版本引导为一个研究型Agent,可与不同项目组协同工作,覆盖数据流水线、训练环境、评测体系以及跨团队协作。以强化学习(RL)场景为例,Agent能够从实验设想出发,通过与研究员讨论,协助研究员完成文献调研、实验设计、任务执行,并在过程中自动进行日志分析、Bug排查、指标优化和代码修复,显著降低人工介入频率。Minimax官方数据显示,在部分研发流程中,M2.7已可承担30%至50%的工作量。

图片

M2.7具备“”。在内部测试中,模型可连续执行超过100轮“分析—改进—验证”的循环,自主调整采样参数、优化工作流策略,并在内部评测集中实现约30%的效果提升。这种能力意味着,模型不再完全依赖人工调参,而是具备一定程度的“自主进化能力”。

在具体能力表现上,M2.7继续强化其在软件工程领域的优势。在SWE-bench Pro测试中,其正确率达到56.22%,接近国际顶级模型水平;在更贴近真实场景的VIBE-Pro与Terminal Bench 2测试中,分别取得55.6%和57.0%的成绩,体现出其在端到端项目交付和复杂系统理解上的能力。MiniMax表示,基于M2.7,部分线上生产系统故障的修复时间已可缩短至3分钟以内。

图片

在真实的软件工程中,模型能够深入理解真实工程语境。在线上生产环境故障调试等常见工程环境中,M2.7不仅能够生成代码,还能结合监控指标、部署时间线进行因果分析,甚至主动连接数据库验证假设,并提出工程级解决方案。

在办公与生产力场景,M2.7在 GDPval-AA的ELO得分1495。针对Word、Excel、PPT等常见工具,模型不仅可以生成内容,还支持多轮高保真编辑,并在复杂任务中保持高达97%的指令遵循率。此外,在Toolathon等工具调用评测中,表现领先。

值得关注的是,M2.7强化了“多智能体协作”(Agent Teams)能力。在这一模式下,模型需同时承担多个角色,进行对抗性推理与协同决策。这对模型的身份保持、逻辑一致性与协议遵循提出更高要求,也被视为Agent应用从单点能力走向复杂系统的重要标志。

与此同时,MiniMax也在探索Agent的“非生产力边界”。通过增强模型的人设保持与情感交互能力,M2.7开始具备更强的互动属性,并支撑起MiniMax最新推出的互动娱乐产品OpenRoom,将AI交互延伸至沉浸式Web环境,探索“”的新交互范式。

目前,M2.7已在MiniMax Agent及开放平台上线。随着开发者与企业用户的持续接入,其在真实场景中的表现,将成为检验“自我进化模型”商业价值的关键。 

小讯
上一篇 2026-03-19 16:58
下一篇 2026-03-19 16:56

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/245389.html