JoyAI-Image-Edit:首个融合空间智能的开源图像编辑模型

JoyAI-Image-Edit:首个融合空间智能的开源图像编辑模型大多数图像 AI 能画出漂亮的图片 却搞不定一个基本问题 空间 换个角度透视崩塌 挪个物体遮挡错乱 京东开源的 JoyAI Image Edit 把 空间智能 写进了模型架构底层 让图像编辑从平面修图走向真正的三维理解 JoyAI Image Edit 是京东探索研究院开源的一体化图像模型 Apache 2 0 协议 它将一个 8B

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



大多数图像 AI 能画出漂亮的图片,却搞不定一个基本问题:空间。换个角度透视崩塌,挪个物体遮挡错乱。京东开源的 JoyAI-Image-Edit 把"空间智能"写进了模型架构底层,让图像编辑从平面修图走向真正的三维理解。

JoyAI-Image-Edit 是京东探索研究院开源的一体化图像模型,Apache 2.0 协议。它将一个 8B 参数的多模态语言模型(MLLM)和一个 16B 参数的多模态扩散 Transformer(MMDiT)耦合在一起,让"理解"和"生成"在同一个架构里形成闭环。

简单说:模型一边"看"一边"画",一边"画"又帮它看得更清楚。

核心论文标题直白地写明了野心 -- "Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation"(在统一的多模态理解与生成中,唤醒空间智能)。

用自然语言告诉模型调整视角,比如"把相机往右偏 30 度,往下俯 15 度,再拉近一点"。模型会生成一张全新视角的图像,透视、遮挡、光影关系全部保持一致。

支持连续视角移动,生成逻辑连贯的多视角图像序列。比如让球鞋转到正面,让人物转到背面。

挪动、旋转、缩放画面中的任意物体,场景结构保持稳定,遮挡自然,光影过渡顺滑。

除了空间编辑,JoyAI-Image-Edit 还支持:替换、删除、添加、风格迁移、细节精修、长文本渲染等通用图像编辑操作。

输入一句指令就能给小猫戴上皇冠,或者将图片中的行人移走。长文本渲染也是拿手项。

HuggingFace Space 提供了在线 Demo,打开即用:

  • 体验地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

已支持 ComfyUI,全面兼容 Diffusers 格式:

# 克隆仓库 git clone https://github.com/jd-opensource/JoyAI-Image.git  # 安装依赖并运行推理 # 详见仓库 README
  • GitHub:https://github.com/jd-opensource/JoyAI-Image
  • 开源权重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

电商:一张商品主图自动衍生几十种视角和场景,保持商品一致性。

视频创作:利用空间编辑生成视频首尾帧,再用视频生成模型创建平滑过渡。

具身智能:机器人视觉感知的底座,支持"预演动作" -- 给机器人一张图片,模型能生成执行某个动作后的预期画面。

与 Qwen-Image-Edit、Nano Banana Pro 相比,JoyAI-Image-Edit 在相机运动执行忠实度和新视角合成质量上明显领先。高保真的新视角能有效消除复杂空间关系的歧义。

  • 架构:8B MLLM + 16B MMDiT,共享接口让空间意图从指令解析贯穿到图像生成
  • 数据流水线:包含空间理解数据(OpenSpatial)、长文本渲染数据、编辑数据(SpatialEdit)
  • 训练策略:多阶段优化,理解和生成形成闭环
  • 开源协议:Apache 2.0,可自由商用

如果你在做电商视觉、机器人感知或需要精确空间控制的图像编辑,JoyAI-Image-Edit 值得立即上手试一试。

小讯
上一篇 2026-04-13 21:51
下一篇 2026-04-13 21:49

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258753.html