2026年MiniMax M2.7 实测:这次更新,几乎是给小龙虾量身做的一次模型升级

MiniMax M2.7 实测:这次更新,几乎是给小龙虾量身做的一次模型升级3 月 18 日 MiniMax 正式发布新一代模型 MiniMax M2 7 如果只看官方技术报告 这次更新会被理解成一次常规模型升级 但如果放到真实 Agent 使用场景里 尤其放到如今越来越多人正在使用的 里 你会发现 M2 7 的很多能力 其实正好补在了 Agent 真正落地最关键的位置 它开始明显朝着 真实生产力智能体 的方向推进 从代码工程 到 Office 办公

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。




图片

3月18日,MiniMax 正式发布新一代模型 MiniMax M2.7。

如果只看官方技术报告,这次更新会被理解成一次常规模型升级。

但如果放到真实 Agent 使用场景里,尤其放到如今越来越多人正在使用的里,你会发现:

M2.7 的很多能力,其实正好补在了 Agent 真正落地最关键的位置。

它开始明显朝着 真实生产力智能体 的方向推进。

从代码工程,到 Office 办公,再到多智能体协作,再到记忆与人格稳定,M2.7 开始像一个真正能长期工作的 Agent 底座。

这次最值得关注的一点,是 M2.7 在真实软件工程场景里的表现明显上了一个台阶。

1、软件工程领域表现优异。

包括端到端的完整项目交付,分析日志排查 Bug、代码安全,机器学习等。

在基准测试 中,M2.7 得分56.22%,几乎接近Opus最好的水平。

这一能力同样延伸到了端到端的完整项目交付场景( 55.6%)以及对复杂工程系统的深层理解(57.0%)。


图片


2、专业办公领域的知识广度更大、交付能力更强。

模型在各领域的专业知识和任务交付能力提高。

Office 三件套 Excel/PPT/Word 的复杂编辑能力显著提升,能更好地完成多轮修改和高保真的编辑。

3、更加适合小龙虾用户的使用

M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。

在OpenClaw的使用中,在MMClaw的评测中接近最新的Sonnet 4.6。

4、记忆能力和情商能力提高,

M2.7具备优秀的身份保持能力和情商,更加拟人化,除了生产力使用外,给互动娱乐场景的创新也准备了空间。


从小龙虾的使用角度来看,这个模型简直就是为小龙虾量身打造的。

在小龙虾作为生活场景下,模型的记忆能力和情商能力会提高小龙虾的智能,会更加拟人化、像人;同时,M2.7 的模型能力已经接近Sonnet 4.6,对复杂场景下skill的遵循成功率达到了97%。

另外,在小龙虾作为生产力场景下,M2.7 对Office三件套的支持程度更加紧密,生成的文档、ppt更加高可用;

在软件开发领域,M2.7 能够应付各种场景下的开发任务,端到端意味着什么,能够开发网页、app等各种任务,交付能力大大提高。

以后小龙虾只使用m2.7模型,也能达到不错的效果。

一句话总结:

领域:面向编程等代码生成类任务,M2.7 打磨了真实软件工程所需的编程能力,

覆盖:日志分析与 Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。

单项编程能力:

M2.7 已具备国际一线模型水准。 

在涵盖多种编程语言的 SWE-Pro 中,M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;

在更贴近真实工程场景的 SWE Multilingual(76.5)和 Multi SWE Bench(52.7)中展现出更显著优势。

端到端的完整项目交付场景:

在 Repo 级代码生成基准 VIBE-Pro 上,M2.7 得分55.6%,几乎与 Opus 4.6持平。

无论是 Web、Android、iOS 还是 Simulation 类需求,都可以直接交给 M2.7 完成。

复杂工程系统的深层理解:

在对系统认知要求极高的 Terminal Bench 2(57.0%)和 NL2Repo(39.8%)中,M2.7 同样表现稳健。

它不只擅长代码生成,更能深入理解软件系统的运行逻辑与协作流程。

原生的 Agent Teams (多智能体协作):

Agent Teams 对模型提出了范式级要求:角色边界、对抗性推理、协议遵循、行为分化——这些无法通过提示词,必须内化为模型的原生能力。


图片

实测:用M2.7 去复现。

🚅

请你复现开发一个这样的原型demo:做产品原型开发的 Agent Teams,里面包含了做产品原型的一个最小组织。 


图片

Agent Teams 场景下,模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。

接入小龙虾之后,生产力场景越来越离不开了。

M2.7 模型的优势体现在:

1. 专业知识与任务交付能力。

M2.7 模型具备各个领域的专业知识,能够清楚理解用户的需求。

模型评测作证:

在衡量这一能力的 GDPval-AA 的评测中,M2.7 在45个模型中的ELO得分是1500,仅次于Opus 4.6、Sonnet 4.6和GPT5.4,超过了GPT5.3。

在办公文件处理上,M2.7 优化了模型处理Office三件套( Word、Excel 和 PPT )的能力。

M2.7 在各种 上,

科普:

Agent Harness 是包裹在 LLM大模型外层的一套编排系统

它的核心作用是将不确定的模型行为转化为稳定、高效的生产力。

完整的Agent Harness 由三大部分组成:

Instructions(指令系统): 包含 System Prompt 和动态规则(Rules)。

Tools(工具集): 赋予模型“手脚”,如文件读写、终端执行、搜索能力。

User Messages(交互流): 用户的指令以及上下文的维护。

既能够基于模版和 skills 直接生成文件,也能够遵从用户的交互指令,对已有的文件做多轮的高保真编辑,最终给出可编辑的产物。

实测提示词:

🚅

请你阅读minimax m2.7模型的技术报告:https://www.minimaxi.com/news/minimax-m27-zh,帮我写一篇介绍的公众号文章(放在word文档),并且给我生成一份排版精美、内容翔实的ppt,交付给我


图片

生成的文档如下:


图片

生成的ppt,如果没有模板参考的话,生成的ppt还是比较乱一点(可以理解,目前想生成那种精美的ppt不是单靠模型就能做到的),但是它的多轮修改能力非常强,指哪打哪。

可以看一下对比:


图片

图片

如果是有模板参考的话,我也测试了一下,对留白这块它处理不好,通过每一次迭代会优化。

生成ppt的速度比较快,我是直接让它上传到飞书云盘,word文档直接同步到飞书文档即可,就可以直接查看。


图片

展示一版:


图片

2. 与复杂环境的交互能力。

 M2.7 增强了在泛化的日常场景下的能力,能够适应「上下文、调用skills 和工具、长程任务中指令遵循稳定」。

在 Toolathon 上,M2.7的正确率 46.3%,达到了全球第一梯队水平。

面对真实工作场景, Agent Harness (小龙虾如是)需要理解和调用大量复杂的 skills。

MM Claw 测试:M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。

这块目前还没有想到测试场景。

M2.7 模型增强了高情商和强人设的能力,Agentic 模型的使用从单纯的生产力能进一步拓展到互动娱乐。

模型其实不再局限于代码开发、生产力办公场景。

他们构建了一个 Agent 交互系统 ,将 AI 互动置入一个万物皆可互动的 Web GUI 空间。


图片

然后你也可以将自己的小龙虾加入这里:


图片

通过在推特发布帖子,然后返回bot token,就可以知道你是不是加入chatroom。


图片

在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。

项目地址: github.com/MiniMax-AI/OpenRoom

立即体验: openroom.ai

M2 模型整体是一个研究型 Agent Harness——它能够与不同的研究项目组进行交互和协作。

让 M2 系列模型自己给自己做迭代、自己优化自己,用 Agent Harness 让模型从 “被人训练” 变成 “会自己研究、自己开发、自己迭代” 的研究助手,最终逼近全自动的模型自我进化。

该系统覆盖了「数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆」——让研究员可以驱动它来交付更好的模型。

研究员只需要:提出一个实验想法


图片

剩下的 Agent 全包:

这些事以前要多个团队、多个人协作,现在研究员只在关键决策时介入。

效果上,实验迭代大幅加速,模型交付更快,M2.7 能承担 30%~50% 的研发工作流

光让模型帮人干活不够,模型还要能自己优化自己的 Harness。

🏆

内部的 harness 会自主收集反馈,建立内部任务的评测集,并基于此不断迭代自己的 Agent架构、Skills/MCP 实现和记忆机制,来更好和更高效的完成任务。

真实案例:M2.7 自己优化开发脚手架

M2.7 完全自主跑了超过 100 轮迭代,流程是:分析失败 → 规划改动 → 改代码 → 跑评测 → 对比结果 → 保留 / 回退

它自己发现并做到了:

结果:内部评测集效果提升 30%

🌰

团队目标很明确:未来 AI 完全自主进化,数据、训练、推理、评测全自动化。


图片

他们用 M2.7 跑了:MLE Bench Lite 22 个机器学习全流程任务

以及设计了极简脚手架,核心三模块:

机制是这样的:每轮迭代 → 生成记忆 → 自我复盘 → 给下一轮优化方向 → 持续进化

🌰

成绩:

最好一次:9 金 5 银 1 铜

三次平均:66.6% 得牌率

🦄

排名:

仅次于 Opus-4.6(75.7%)、GPT-5.4(71.2%)

与 Gemini-3.1 完全持平(66.6%)

小讯
上一篇 2026-03-19 23:09
下一篇 2026-03-19 23:07

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/244787.html