通义千问推出 Qwen-Image-Layered 模型,实现图片 “分层编辑” 突破

通义千问推出 Qwen-Image-Layered 模型,实现图片 “分层编辑” 突破今日 通义千问团队正式发布全新图像生成模型 Qwen Image Layered 该模型以自研创新架构打破传统 AI 图片编辑局限 通过 图层拆解 技术赋予静态图片可编辑性 开启 指哪改哪 的精准编辑新时代 当前 AI 图片编辑存在两大痛点 全局编辑易破坏未修改区域一致性 基于掩码的局部编辑难处理遮挡与模糊边界 Qwen Image Layered 则创新提出 图像解耦 思路

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



今日,通义千问团队正式发布全新图像生成模型 Qwen-Image-Layered,该模型以自研创新架构打破传统 AI 图片编辑局限,通过 “图层拆解” 技术赋予静态图片可编辑性,开启 “指哪改哪” 的精准编辑新时代。

20251222-155312.png

当前 AI 图片编辑存在两大痛点:全局编辑易破坏未修改区域一致性,基于掩码的局部编辑难处理遮挡与模糊边界。Qwen-Image-Layered 则创新提出 “图像解耦” 思路,将图片自动 “剥洋葱” 式分解为语义独立的 RGBA 图层,每层拥有专属颜色(RGB)与透明度(Alpha),可独立操作且不影响其他图层。

20251222-155351.png

模型核心亮点显著:全新 RGBA-VAE 技术让 RGB 图像与 RGBA 图层在同一潜空间 “对话”,解决图层分布不均、边界模糊问题;VLD-MMDiT 架构支持3层至10层以上灵活处理,层间通过注意力机制协同,无需低效递归拆解;历经 “生成单图 - 生成多层 - 拆解任意 RGB 图像” 多阶段进化,实现生成能力到理解能力的转化。

20251222-155357.png

在应用层面,该模型可完成重新着色、物体替换、文字修改、元素删除、缩放移动等操作。更值得关注的是,其支持可变数量图层分解,同一图像可按需拆分为3层或8层,且任一图层能进一步递归分解,实现无限层级细化。

目前,Qwen-Image-Layered 的技术报告、代码仓库及 Demo 已分别在 arXiv、Github、ModelScope 等平台上线。通义千问团队表示,希望通过该模型将图像重构为可组合图层,为用户提供直观、精准且鲁棒的图片编辑能力。

技术报告:

https://arxiv.org/abs/2512.15603

Github: 

https://github.com/QwenLM/Qwen-Image-Layered 

ModelScope: 

https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered

Hugging Face: 

https://huggingface.co/Qwen/Qwen-Image-Layered

Demo: 

https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered

 原文链接: 通义千问推出 Qwen-Image-Layered 模型,实现图片 “分层编辑” 突破 </div> 
小讯
上一篇 2026-03-13 21:28
下一篇 2026-03-13 21:30

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/217183.html