2026年MiniMax M2.7 实测：这次更新，几乎是给小龙虾量身做的一次模型升级

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

3月18日，MiniMax 正式发布新一代模型 MiniMax M2.7。

如果只看官方技术报告，这次更新会被理解成一次常规模型升级。

但如果放到真实 Agent 使用场景里，尤其放到如今越来越多人正在使用的里，你会发现：

M2.7 的很多能力，其实正好补在了 Agent 真正落地最关键的位置。

它开始明显朝着真实生产力智能体的方向推进。

从代码工程，到 Office 办公，再到多智能体协作，再到记忆与人格稳定，M2.7 开始像一个真正能长期工作的 Agent 底座。

这次最值得关注的一点，是 M2.7 在真实软件工程场景里的表现明显上了一个台阶。

1、软件工程领域表现优异。

包括端到端的完整项目交付，分析日志排查 Bug、代码安全，机器学习等。

在基准测试中，M2.7 得分56.22%，几乎接近Opus最好的水平。

这一能力同样延伸到了端到端的完整项目交付场景（ 55.6%）以及对复杂工程系统的深层理解（57.0%）。

2、专业办公领域的知识广度更大、交付能力更强。

模型在各领域的专业知识和任务交付能力提高。

Office 三件套 Excel/PPT/Word 的复杂编辑能力显著提升，能更好地完成多轮修改和高保真的编辑。

3、更加适合小龙虾用户的使用

M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上，仍能保持 97% 的 skills 遵循率。

在OpenClaw的使用中，在MMClaw的评测中接近最新的Sonnet 4.6。

4、记忆能力和情商能力提高，

M2.7具备优秀的身份保持能力和情商，更加拟人化，除了生产力使用外，给互动娱乐场景的创新也准备了空间。

从小龙虾的使用角度来看，这个模型简直就是为小龙虾量身打造的。

在小龙虾作为生活场景下，模型的记忆能力和情商能力会提高小龙虾的智能，会更加拟人化、像人；同时，M2.7 的模型能力已经接近Sonnet 4.6，对复杂场景下skill的遵循成功率达到了97%。

另外，在小龙虾作为生产力场景下，M2.7 对Office三件套的支持程度更加紧密，生成的文档、ppt更加高可用；

在软件开发领域，M2.7 能够应付各种场景下的开发任务，端到端意味着什么，能够开发网页、app等各种任务，交付能力大大提高。

以后小龙虾只使用m2.7模型，也能达到不错的效果。

✏

一句话总结：

领域：面向编程等代码生成类任务，M2.7 打磨了真实软件工程所需的编程能力，

覆盖：日志分析与 Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。

单项编程能力：

M2.7 已具备国际一线模型水准。

在涵盖多种编程语言的 SWE-Pro 中，M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex；

在更贴近真实工程场景的 SWE Multilingual（76.5）和 Multi SWE Bench（52.7）中展现出更显著优势。

端到端的完整项目交付场景：

在 Repo 级代码生成基准 VIBE-Pro 上，M2.7 得分55.6%，几乎与 Opus 4.6持平。

无论是 Web、Android、iOS 还是 Simulation 类需求，都可以直接交给 M2.7 完成。

复杂工程系统的深层理解：

在对系统认知要求极高的 Terminal Bench 2（57.0%）和 NL2Repo（39.8%）中，M2.7 同样表现稳健。

它不只擅长代码生成，更能深入理解软件系统的运行逻辑与协作流程。

原生的 Agent Teams （多智能体协作）：

Agent Teams 对模型提出了范式级要求：角色边界、对抗性推理、协议遵循、行为分化——这些无法通过提示词，必须内化为模型的原生能力。

实测：用M2.7 去复现。

🚅

请你复现开发一个这样的原型demo：做产品原型开发的 Agent Teams，里面包含了做产品原型的一个最小组织。

Agent Teams 场景下，模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。

接入小龙虾之后，生产力场景越来越离不开了。

M2.7 模型的优势体现在：

1. 专业知识与任务交付能力。

M2.7 模型具备各个领域的专业知识，能够清楚理解用户的需求。

模型评测作证：

在衡量这一能力的 GDPval-AA 的评测中，M2.7 在45个模型中的ELO得分是1500，仅次于Opus 4.6、Sonnet 4.6和GPT5.4，超过了GPT5.3。

在办公文件处理上，M2.7 优化了模型处理Office三件套（ Word、Excel 和 PPT ）的能力。

M2.7 在各种上，

科普：

Agent Harness 是包裹在 LLM大模型外层的一套编排系统。

它的核心作用是将不确定的模型行为转化为稳定、高效的生产力。

完整的Agent Harness 由三大部分组成：

Instructions（指令系统）：包含 System Prompt 和动态规则（Rules）。

Tools（工具集）：赋予模型“手脚”，如文件读写、终端执行、搜索能力。

User Messages（交互流）：用户的指令以及上下文的维护。

既能够基于模版和 skills 直接生成文件，也能够遵从用户的交互指令，对已有的文件做多轮的高保真编辑，最终给出可编辑的产物。

实测提示词：

🚅

请你阅读minimax m2.7模型的技术报告：https://www.minimaxi.com/news/minimax-m27-zh，帮我写一篇介绍的公众号文章（放在word文档），并且给我生成一份排版精美、内容翔实的ppt，交付给我

生成的文档如下：

生成的ppt，如果没有模板参考的话，生成的ppt还是比较乱一点（可以理解，目前想生成那种精美的ppt不是单靠模型就能做到的），但是它的多轮修改能力非常强，指哪打哪。

可以看一下对比：

如果是有模板参考的话，我也测试了一下，对留白这块它处理不好，通过每一次迭代会优化。

生成ppt的速度比较快，我是直接让它上传到飞书云盘，word文档直接同步到飞书文档即可，就可以直接查看。

展示一版：

2. 与复杂环境的交互能力。

M2.7 增强了在泛化的日常场景下的能力，能够适应「上下文、调用skills 和工具、长程任务中指令遵循稳定」。

在 Toolathon 上，M2.7的正确率 46.3%，达到了全球第一梯队水平。

面对真实工作场景， Agent Harness （小龙虾如是）需要理解和调用大量复杂的 skills。

MM Claw 测试：M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上，仍能保持 97% 的 skills 遵循率。

这块目前还没有想到测试场景。

M2.7 模型增强了高情商和强人设的能力，Agentic 模型的使用从单纯的生产力能进一步拓展到互动娱乐。

模型其实不再局限于代码开发、生产力办公场景。

他们构建了一个 Agent 交互系统，将 AI 互动置入一个万物皆可互动的 Web GUI 空间。

然后你也可以将自己的小龙虾加入这里：

通过在推特发布帖子，然后返回bot token，就可以知道你是不是加入chatroom。

在这里，对话即驱动，实时产生视觉反馈与场景交互，角色可以主动地与环境交互。

项目地址： github.com/MiniMax-AI/OpenRoom

立即体验： openroom.ai

M2 模型整体是一个研究型 Agent Harness——它能够与不同的研究项目组进行交互和协作。

让 M2 系列模型自己给自己做迭代、自己优化自己，用 Agent Harness 让模型从 “被人训练” 变成 “会自己研究、自己开发、自己迭代” 的研究助手，最终逼近全自动的模型自我进化。

该系统覆盖了「数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆」——让研究员可以驱动它来交付更好的模型。

研究员只需要：提出一个实验想法

剩下的 Agent 全包：

这些事以前要多个团队、多个人协作，现在研究员只在关键决策时介入。

效果上，实验迭代大幅加速，模型交付更快，M2.7 能承担 30%～50% 的研发工作流

光让模型帮人干活不够，模型还要能自己优化自己的 Harness。

🏆

内部的 harness 会自主收集反馈，建立内部任务的评测集，并基于此不断迭代自己的 Agent架构、Skills/MCP 实现和记忆机制，来更好和更高效的完成任务。

真实案例：M2.7 自己优化开发脚手架

M2.7 完全自主跑了超过 100 轮迭代，流程是：分析失败 → 规划改动 → 改代码 → 跑评测 → 对比结果 → 保留 / 回退

它自己发现并做到了：

结果：内部评测集效果提升 30%

🌰

团队目标很明确：未来 AI 完全自主进化，数据、训练、推理、评测全自动化。

他们用 M2.7 跑了：MLE Bench Lite 22 个机器学习全流程任务

以及设计了极简脚手架，核心三模块：

机制是这样的：每轮迭代 → 生成记忆 → 自我复盘 → 给下一轮优化方向 → 持续进化

🌰

成绩：

最好一次：9 金 5 银 1 铜

三次平均：66.6% 得牌率

🦄

排名：

仅次于 Opus-4.6（75.7%）、GPT-5.4（71.2%）

与 Gemini-3.1 完全持平（66.6%）

2026年MiniMax M2.7 实测：这次更新，几乎是给小龙虾量身做的一次模型升级

相关推荐