JoyAI-Image-Edit：首个融合空间智能的开源图像编辑模型

科技前沿 • 2026-04-13 21:50 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

大多数图像 AI 能画出漂亮的图片，却搞不定一个基本问题：空间。换个角度透视崩塌，挪个物体遮挡错乱。京东开源的 JoyAI-Image-Edit 把"空间智能"写进了模型架构底层，让图像编辑从平面修图走向真正的三维理解。

JoyAI-Image-Edit 是京东探索研究院开源的一体化图像模型，Apache 2.0 协议。它将一个 8B 参数的多模态语言模型（MLLM）和一个 16B 参数的多模态扩散 Transformer（MMDiT）耦合在一起，让"理解"和"生成"在同一个架构里形成闭环。

简单说：模型一边"看"一边"画"，一边"画"又帮它看得更清楚。

核心论文标题直白地写明了野心 -- "Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation"（在统一的多模态理解与生成中，唤醒空间智能）。

用自然语言告诉模型调整视角，比如"把相机往右偏 30 度，往下俯 15 度，再拉近一点"。模型会生成一张全新视角的图像，透视、遮挡、光影关系全部保持一致。

支持连续视角移动，生成逻辑连贯的多视角图像序列。比如让球鞋转到正面，让人物转到背面。

挪动、旋转、缩放画面中的任意物体，场景结构保持稳定，遮挡自然，光影过渡顺滑。

除了空间编辑，JoyAI-Image-Edit 还支持：替换、删除、添加、风格迁移、细节精修、长文本渲染等通用图像编辑操作。

输入一句指令就能给小猫戴上皇冠，或者将图片中的行人移走。长文本渲染也是拿手项。

HuggingFace Space 提供了在线 Demo，打开即用：

已支持 ComfyUI，全面兼容 Diffusers 格式：

# 克隆仓库 git clone https://github.com/jd-opensource/JoyAI-Image.git  # 安装依赖并运行推理 # 详见仓库 README

电商：一张商品主图自动衍生几十种视角和场景，保持商品一致性。

视频创作：利用空间编辑生成视频首尾帧，再用视频生成模型创建平滑过渡。

具身智能：机器人视觉感知的底座，支持"预演动作" -- 给机器人一张图片，模型能生成执行某个动作后的预期画面。

与 Qwen-Image-Edit、Nano Banana Pro 相比，JoyAI-Image-Edit 在相机运动执行忠实度和新视角合成质量上明显领先。高保真的新视角能有效消除复杂空间关系的歧义。

如果你在做电商视觉、机器人感知或需要精确空间控制的图像编辑，JoyAI-Image-Edit 值得立即上手试一试。