3月18日,MiniMax 正式发布新一代模型 MiniMax M2.7。
如果只看官方技术报告,这次更新会被理解成一次常规模型升级。
但如果放到真实 Agent 使用场景里,尤其放到如今越来越多人正在使用的里,你会发现:
M2.7 的很多能力,其实正好补在了 Agent 真正落地最关键的位置。
它开始明显朝着 真实生产力智能体 的方向推进。
从代码工程,到 Office 办公,再到多智能体协作,再到记忆与人格稳定,M2.7 开始像一个真正能长期工作的 Agent 底座。
这次最值得关注的一点,是 M2.7 在真实软件工程场景里的表现明显上了一个台阶。
1、软件工程领域表现优异。
包括端到端的完整项目交付,分析日志排查 Bug、代码安全,机器学习等。
在基准测试 中,M2.7 得分56.22%,几乎接近Opus最好的水平。
这一能力同样延伸到了端到端的完整项目交付场景( 55.6%)以及对复杂工程系统的深层理解(57.0%)。
2、专业办公领域的知识广度更大、交付能力更强。
模型在各领域的专业知识和任务交付能力提高。
Office 三件套 Excel/PPT/Word 的复杂编辑能力显著提升,能更好地完成多轮修改和高保真的编辑。
3、更加适合小龙虾用户的使用
M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。
在OpenClaw的使用中,在MMClaw的评测中接近最新的Sonnet 4.6。
4、记忆能力和情商能力提高,
M2.7具备优秀的身份保持能力和情商,更加拟人化,除了生产力使用外,给互动娱乐场景的创新也准备了空间。
从小龙虾的使用角度来看,这个模型简直就是为小龙虾量身打造的。
在小龙虾作为生活场景下,模型的记忆能力和情商能力会提高小龙虾的智能,会更加拟人化、像人;同时,M2.7 的模型能力已经接近Sonnet 4.6,对复杂场景下skill的遵循成功率达到了97%。
另外,在小龙虾作为生产力场景下,M2.7 对Office三件套的支持程度更加紧密,生成的文档、ppt更加高可用;
在软件开发领域,M2.7 能够应付各种场景下的开发任务,端到端意味着什么,能够开发网页、app等各种任务,交付能力大大提高。
以后小龙虾只使用m2.7模型,也能达到不错的效果。
一句话总结:
领域:面向编程等代码生成类任务,M2.7 打磨了真实软件工程所需的编程能力,
覆盖:日志分析与 Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。
单项编程能力:
M2.7 已具备国际一线模型水准。
在涵盖多种编程语言的 SWE-Pro 中,M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;
在更贴近真实工程场景的 SWE Multilingual(76.5)和 Multi SWE Bench(52.7)中展现出更显著优势。
端到端的完整项目交付场景:
在 Repo 级代码生成基准 VIBE-Pro 上,M2.7 得分55.6%,几乎与 Opus 4.6持平。
无论是 Web、Android、iOS 还是 Simulation 类需求,都可以直接交给 M2.7 完成。
复杂工程系统的深层理解:
在对系统认知要求极高的 Terminal Bench 2(57.0%)和 NL2Repo(39.8%)中,M2.7 同样表现稳健。
它不只擅长代码生成,更能深入理解软件系统的运行逻辑与协作流程。
原生的 Agent Teams (多智能体协作):
Agent Teams 对模型提出了范式级要求:角色边界、对抗性推理、协议遵循、行为分化——这些无法通过提示词,必须内化为模型的原生能力。
实测:用M2.7 去复现。
请你复现开发一个这样的原型demo:做产品原型开发的 Agent Teams,里面包含了做产品原型的一个最小组织。
Agent Teams 场景下,模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策。
接入小龙虾之后,生产力场景越来越离不开了。
M2.7 模型的优势体现在:
1. 专业知识与任务交付能力。
M2.7 模型具备各个领域的专业知识,能够清楚理解用户的需求。
模型评测作证:
在衡量这一能力的 GDPval-AA 的评测中,M2.7 在45个模型中的ELO得分是1500,仅次于Opus 4.6、Sonnet 4.6和GPT5.4,超过了GPT5.3。
在办公文件处理上,M2.7 优化了模型处理Office三件套( Word、Excel 和 PPT )的能力。
M2.7 在各种 上,
科普:
Agent Harness 是包裹在 LLM大模型外层的一套编排系统。
它的核心作用是将不确定的模型行为转化为稳定、高效的生产力。
完整的Agent Harness 由三大部分组成:
Instructions(指令系统): 包含 System Prompt 和动态规则(Rules)。
Tools(工具集): 赋予模型“手脚”,如文件读写、终端执行、搜索能力。
User Messages(交互流): 用户的指令以及上下文的维护。
既能够基于模版和 skills 直接生成文件,也能够遵从用户的交互指令,对已有的文件做多轮的高保真编辑,最终给出可编辑的产物。
实测提示词:
请你阅读minimax m2.7模型的技术报告:https://www.minimaxi.com/news/minimax-m27-zh,帮我写一篇介绍的公众号文章(放在word文档),并且给我生成一份排版精美、内容翔实的ppt,交付给我
生成的文档如下:
生成的ppt,如果没有模板参考的话,生成的ppt还是比较乱一点(可以理解,目前想生成那种精美的ppt不是单靠模型就能做到的),但是它的多轮修改能力非常强,指哪打哪。
可以看一下对比:
如果是有模板参考的话,我也测试了一下,对留白这块它处理不好,通过每一次迭代会优化。
生成ppt的速度比较快,我是直接让它上传到飞书云盘,word文档直接同步到飞书文档即可,就可以直接查看。
展示一版:
2. 与复杂环境的交互能力。
M2.7 增强了在泛化的日常场景下的能力,能够适应「上下文、调用skills 和工具、长程任务中指令遵循稳定」。
在 Toolathon 上,M2.7的正确率 46.3%,达到了全球第一梯队水平。
面对真实工作场景, Agent Harness (小龙虾如是)需要理解和调用大量复杂的 skills。
MM Claw 测试:M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。
这块目前还没有想到测试场景。
M2.7 模型增强了高情商和强人设的能力,Agentic 模型的使用从单纯的生产力能进一步拓展到互动娱乐。
模型其实不再局限于代码开发、生产力办公场景。
他们构建了一个 Agent 交互系统 ,将 AI 互动置入一个万物皆可互动的 Web GUI 空间。
然后你也可以将自己的小龙虾加入这里:
通过在推特发布帖子,然后返回bot token,就可以知道你是不是加入chatroom。
在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。
项目地址: github.com/MiniMax-AI/OpenRoom
立即体验: openroom.ai
M2 模型整体是一个研究型 Agent Harness——它能够与不同的研究项目组进行交互和协作。
让 M2 系列模型自己给自己做迭代、自己优化自己,用 Agent Harness 让模型从 “被人训练” 变成 “会自己研究、自己开发、自己迭代” 的研究助手,最终逼近全自动的模型自我进化。
该系统覆盖了「数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆」——让研究员可以驱动它来交付更好的模型。
研究员只需要:提出一个实验想法
剩下的 Agent 全包:
这些事以前要多个团队、多个人协作,现在研究员只在关键决策时介入。
效果上,实验迭代大幅加速,模型交付更快,M2.7 能承担 30%~50% 的研发工作流
光让模型帮人干活不够,模型还要能自己优化自己的 Harness。
内部的 harness 会自主收集反馈,建立内部任务的评测集,并基于此不断迭代自己的 Agent架构、Skills/MCP 实现和记忆机制,来更好和更高效的完成任务。
真实案例:M2.7 自己优化开发脚手架
M2.7 完全自主跑了超过 100 轮迭代,流程是:分析失败 → 规划改动 → 改代码 → 跑评测 → 对比结果 → 保留 / 回退
它自己发现并做到了:
结果:内部评测集效果提升 30%
团队目标很明确:未来 AI 完全自主进化,数据、训练、推理、评测全自动化。
他们用 M2.7 跑了:MLE Bench Lite 22 个机器学习全流程任务
以及设计了极简脚手架,核心三模块:
机制是这样的:每轮迭代 → 生成记忆 → 自我复盘 → 给下一轮优化方向 → 持续进化
成绩:
最好一次:9 金 5 银 1 铜
三次平均:66.6% 得牌率
排名:
仅次于 Opus-4.6(75.7%)、GPT-5.4(71.2%)
与 Gemini-3.1 完全持平(66.6%)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/244787.html