2026年OpenClaw引领多模态生成新潮流，6B小模型超越Nano Banana 2！

科技前沿 • 2026-04-11 22:26 • 阅读 0
大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 在当今的人工智能领域，多模态生成模型已经展现出惊人的能力，尤其是在主流任务上表现卓越。然而，在面对复杂指令和下游任务时，这些模型的表现依然显得捉襟见肘。最近，随着Agent框架的兴起，诸如OpenClaw和ClaudeCode等系统在复杂真实任务中的表现令人瞩目。
近日，上海人工智能实验室联合南京大学、香港中文大学及上海交通大学，推出了GEMS（Agent-Native Multimodal Generation with Memory and Skills），这一新框架不仅激发了小模型的潜力，甚至使得6B的小模型在某些任务中超越了Nano Banana 2。GEMS受到了先进的Agent系统如OpenClaw和ClaudeCode的启发，旨在解决当前多模态生成模型在复杂任务中的局限性。
GEMS的核心特性可以归纳为三大模块： 
  
    
     
     AgentLoop：引入结构化的多智能体协作框架，通过闭环优化，确保生成结果逐步对齐，提升了任务执行的准确性。 
     AgentMemory：与简单的历史堆叠不同，GEMS采用了分层压缩策略，保留历史轨迹中的关键事实，同时将冗长的思维链（Chain of Thought）压缩为精炼的经验，从而有效降低Token开销并提升长时迭代的效率。 
     AgentSkill：建立了可扩展的专家知识库，通过按需加载机制，在执行相关任务时动态加载详细指令，极大地扩展了系统的能力边界。 
    
为验证GEMS的优势，研究团队在五个主流任务和四个下游任务上进行了实验，结果显示，在基于Z-Image-Turbo的主流任务中，GEMS的表现平均提升了14.22%。在下游任务中，其性能超越了**基线8.92，充分展现了GEMS框架的有效性。
进一步的分析显示，逐步加入AgentLoop、AgentMemory和AgentSkill等模块后，性能逐渐提升，甚至使得6B的Z-Image-Turbo在GenEval2上超越了Nano Banana 2。同时，Memory模块的变体也证明了将思维链压缩为经验的有效性。研究团队还探讨了平均生图次数与性能之间的权衡，展示了GEMS框架在性能和效率上的双重优势。
在生成效果方面，GEMS的AgentSkills模块使模型能够根据任务自主触发特定技能，显著提升生成的艺术感。例如，在生成“山脉日出”的场景时，触发AestheticDrawing技能后，光影层次丰富，整体画面美感大增；而在生成“漂浮的书”时，触发CreativeDrawing技能后，书页飞舞、星空点缀，整体画面梦幻无比。这些实例清晰地展示了GEMS技能模块在生成结果中的生动性和故事感。
综上所述，GEMS证明了智能体化的管理策略可以有效弥补基础模型能力的不足。通过赋予模型“长记性”和“学技能”的能力，即使是轻量化的开源模型，也能在复杂任务中展现出媲美甚至超越闭源模型的潜力。这为未来多模态生成的进一步演进提供了一个极具参考价值的范式。
如需了解更多信息，欢迎访问项目主页和代码仓库，深入探索GEMS的神奇世界。
2026年OpenClaw引领多模态生成新潮流，6B小模型超越Nano Banana 2！

相关推荐