2026年OpenClaw引领多模态生成新潮流,6B小模型超越Nano Banana 2!

OpenClaw引领多模态生成新潮流,6B小模型超越Nano Banana 2!p 在当今的人工智能领域 多模态生成模型已经展现出惊人的能力 尤其是在主流任务上表现卓越 然而 在面对复杂指令和下游任务时 这些模型的表现依然显得捉襟见肘 最近 随着 Agent 框架的兴起 诸如 OpenClaw 和 ClaudeCode 等系统在复杂真实任务中的表现令人瞩目 p p 近日 上海人工智能实验室联合南京大学 香港中文大学及上海交通大学 p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

在当今的人工智能领域,多模态生成模型已经展现出惊人的能力,尤其是在主流任务上表现卓越。然而,在面对复杂指令和下游任务时,这些模型的表现依然显得捉襟见肘。最近,随着Agent框架的兴起,诸如OpenClaw和ClaudeCode等系统在复杂真实任务中的表现令人瞩目。

近日,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学,推出了GEMS(Agent-Native Multimodal Generation with Memory and Skills),这一新框架不仅激发了小模型的潜力,甚至使得6B的小模型在某些任务中超越了Nano Banana 2。GEMS受到了先进的Agent系统如OpenClaw和ClaudeCode的启发,旨在解决当前多模态生成模型在复杂任务中的局限性。

GEMS的核心特性可以归纳为三大模块:

  1. AgentLoop:引入结构化的多智能体协作框架,通过闭环优化,确保生成结果逐步对齐,提升了任务执行的准确性。
  2. AgentMemory:与简单的历史堆叠不同,GEMS采用了分层压缩策略,保留历史轨迹中的关键事实,同时将冗长的思维链(Chain of Thought)压缩为精炼的经验,从而有效降低Token开销并提升长时迭代的效率。
  3. AgentSkill:建立了可扩展的专家知识库,通过按需加载机制,在执行相关任务时动态加载详细指令,极大地扩展了系统的能力边界。

为验证GEMS的优势,研究团队在五个主流任务和四个下游任务上进行了实验,结果显示,在基于Z-Image-Turbo的主流任务中,GEMS的表现平均提升了14.22%。在下游任务中,其性能超越了**基线8.92,充分展现了GEMS框架的有效性。

进一步的分析显示,逐步加入AgentLoop、AgentMemory和AgentSkill等模块后,性能逐渐提升,甚至使得6B的Z-Image-Turbo在GenEval2上超越了Nano Banana 2。同时,Memory模块的变体也证明了将思维链压缩为经验的有效性。研究团队还探讨了平均生图次数与性能之间的权衡,展示了GEMS框架在性能和效率上的双重优势。

在生成效果方面,GEMS的AgentSkills模块使模型能够根据任务自主触发特定技能,显著提升生成的艺术感。例如,在生成“山脉日出”的场景时,触发AestheticDrawing技能后,光影层次丰富,整体画面美感大增;而在生成“漂浮的书”时,触发CreativeDrawing技能后,书页飞舞、星空点缀,整体画面梦幻无比。这些实例清晰地展示了GEMS技能模块在生成结果中的生动性和故事感。

综上所述,GEMS证明了智能体化的管理策略可以有效弥补基础模型能力的不足。通过赋予模型“长记性”和“学技能”的能力,即使是轻量化的开源模型,也能在复杂任务中展现出媲美甚至超越闭源模型的潜力。这为未来多模态生成的进一步演进提供了一个极具参考价值的范式。

如需了解更多信息,欢迎访问项目主页和代码仓库,深入探索GEMS的神奇世界。

小讯
上一篇 2026-04-11 22:27
下一篇 2026-04-11 22:25

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/257427.html