何恺明&谢赛宁署名：DeepMind新模型吊打SAM 3，视觉理解的游戏规则变了

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

「生成即理解」

01 行业困境：生成与理解的长期割裂，专用模型的内卷困局

1. 任务与模型的强绑定，泛化性先天不足

2. 生成与理解的二元对立，资源重复浪费

3. 以往融合尝试的固有缺陷

02 核心创新：把所有视觉理解，重写成“生成可解码RGB图像”

1. 统一范式：感知即生成，输出即RGB

2. 训练方式：极轻量指令微调，不破坏基座能力

3. 关键技术：可解码可视化 schemes，让生成结果可量化

（1）度量深度的可逆映射

（2）分割与法向的自然映射

03 实验实证：统一模型碾压专项专家，生成理解双SOTA

1. 2D语义理解：全面超越SAM 3

2. 3D几何理解：超越Depth Anything 3与Lotus-2

3. 生成能力：与基座模型持平，实现“鱼与熊掌兼得”

04 范式重构：生成式预训练，将成为视觉基础模型的统一底座

1. 生成即理解：从“假说”到“实证”

2. 统一接口：图像生成 = 视觉任务的通用语言

3. 路线选择：视觉基础模型的未来，属于生成范式

05 客观局限：当前范式仍需解决的现实挑战

06 总结：视觉领域的GPT时刻，正在到来

过去五年，计算机视觉的发展路径始终围绕着一个核心分歧：表征学习该走判别式路线，还是生成式路线。

从监督分类、对比学习、掩码自编码，到各类自监督范式轮番登场，业界长期默认：生成模型只管画得像，理解与感知得靠判别模型。想要分割、深度估计、法向预测，就要为每个任务设计专属架构、损失函数与标注流程；想要兼顾图像生成与视觉理解，就得用多模型拼接，既冗余又难以协同。学界与工业界的主流实践，一直是“生成、理解二分”，用专用模型解决专用问题。

而在2026年4月，Google DeepMind发布的《Image Generators are Generalist Vision Learners》直接打破这一共识——图像生成模型，本身就是通用视觉学习器。

论文基于Nano Banana Pro图像生成模型，通过极轻量指令微调得到统一模型Vision Banana，在不牺牲生成能力的前提下，于2D分割、3D深度估计、法向估计等任务上超越SAM 3、Depth Anything 3等专项专家模型，证明生成式预训练可像LLM预训练一样，成为视觉基础模型的统一底座。

这不是一次简单的SOTA刷新，而是对视觉基础模型范式的重构：未来的视觉系统，或许不再需要割裂的“生成模型”与“感知模型”，只用一套生成预训练参数，就能以统一接口完成从画图到理解的全视觉任务。

在Vision Banana出现之前，视觉领域长期存在三层难以调和的矛盾。

传统视觉范式高度专业化：

语义/实例/指代表达分割，依赖SAM系列等专用架构与海量掩码标注；
单目深度估计，需要相机内参参与训练与推理，用专属回归损失优化；
表面法向估计，同样依赖专门设计的几何监督与网络结构。

这类模型任务内精度高，但跨任务迁移极差，换一个任务就要重新设计头结构、标注数据、训练流程，难以实现真正的通用视觉。

图像生成模型（如FLUX、Nano Banana Pro、GPT-Image）与视觉理解模型长期各自进化：

生成模型追求高保真、语义可控、细节丰富，预训练学习海量视觉分布；
理解模型追求分类、检测、分割、几何估计精度，用判别式目标优化。

两者共享同样的视觉世界，却用两套体系、两套参数、两套训练流程，大量冗余计算与标注成本被浪费。

此前也有研究试图用扩散模型做感知任务，但普遍存在两大硬伤：

输出格式不可解码，无法量化评估，只能看可视化效果；
全量微调+添加专用模块，彻底丢失原生成能力，通用性归零。

这些方案本质是“用生成架构做判别任务”，并未真正打通生成与理解的壁垒。

而Vision Banana的核心突破，正是不改变生成模型本质、不添加专用结构、不牺牲生成能力，只用轻量指令微调，把感知任务全部转化为图像生成问题。

Vision Banana的设计哲学极度简洁，完全对标LLM的“生成预训练+指令微调”范式：

图像生成 = 文本生成；视觉理解任务 = 指令；可解码RGB图 = 任务输出。

图| 通过指令微调揭示图像生成模型的隐藏视觉理解能力

论文提出一个颠覆性设定：所有视觉理解任务的输出，都参数化为可解码的RGB图像。

分割：按提示指定颜色生成掩码图，聚类像素即可还原掩码；
深度估计：生成深度伪彩色图，可严格逆变换回物理深度值；
表面法向：法向向量直接映射为RGB，天然对齐色彩空间。

这种设计带来三大优势：

1. 单一模型通吃多任务：权重完全共享，仅靠prompt切换任务；

2. 微调成本极低：只教模型按格式输出RGB，几乎不增加新数据；

3. 生成能力无损：输出仍是图像，基座生成先验不被破坏。

Vision Banana以Nano Banana Pro为基座，采用极低比例混合视觉任务数据做轻量指令微调，不进行全量微调、不添加任务分支、不修改主干架构。

论文用两组基准验证生成能力保留：

文生图（GenAI-Bench）：Vision Banana胜率53.5%，略超基座Nano Banana Pro；
图像编辑（ImgEdit）：胜率47.8%，与基座基本持平。

直白说：模型学会了理解，没忘记怎么生成，这是此前所有融合方案都未能实现的关键。

为了让生成的RGB能还原为感知标签，论文设计了严格可逆的映射规则：

图| 度量深度与 RGB 颜色值的双射映射可视化

（1）度量深度的可逆映射

深度值通过幂变换弯曲后，映射到RGB立方体边沿，形成一一对应双射，可精确解码回物理深度（单位：米）。

该设计全程不依赖相机内参，彻底摆脱传统深度模型的硬件约束。

（2）分割与法向的自然映射

分割：用prompt指定类别→颜色对应，聚类相近色值即可提取掩码；
表面法向：x/y/z三个分量直接对应RGB通道，无需复杂转换。

这些设计极简，却让生成模型的输出，直接接入传统感知benchmark的量化评估体系。

Vision Banana在不使用专项标注、不依赖相机参数、不添加专用结构的前提下，在2D理解、3D理解、图像生成三大维度全面领先或对齐SOTA。

图| 指令微调后的 Vision Banana 在生成与理解任务上超越 / 持平 SOTA 专用模型

作为视觉理解的核心任务，分割领域长期由SAM系列主导，而Vision Banana在零样本迁移设定下实现反超：

图| Vision Banana 在多个分割数据集上与 SOTA 方法对比

Cityscapes语义分割mIoU：0.699 vs SAM3的0.652，领先4.7个点；
RefCOCOg指代表达分割cIoU：0.738 vs SAM3 Agent的0.734；
ReasonSeg推理分割gIoU：0.793 vs SAM3 Agent的0.770；
SA-Co/Gold实例分割：与DINO-X持平（0.540 vs 0.552），且未使用该数据集训练。

图| Vision Banana 根据指令提示执行语义分割

这意味着：专门用来分割的模型，被一个顺便做分割的生成模型打败。

3D任务对几何先验要求极高，传统模型高度依赖相机参数与专门监督：

图| 零样本迁移设定下单目度量深度估计结果

度量深度估计（4数据集平均δ₁）：0.929 vs Depth Anything 3的0.918；
表面法向估计（室内平均角度误差）：15.549° vs Lotus-2的16.558°，误差最低。

更关键的是：训练全程零真实深度数据、零相机内参、零专项几何损失，完全靠生成预训练学到的几何常识完成预测。

图| Vision Banana 度量深度估计能力演示

在GenAI-Bench、ImgEdit等权威生成基准上，Vision Banana与Nano Banana Pro无显著差距，可视化对比也几乎无法区分。

这组结果给出铁证：

图| Vision Banana 与 Nano Banana Pro 文生图效果对比

Nano Banana Pro在预训练阶段就已具备完整的视觉理解表征，指令微调只是把这些能力“解锁”并“格式化输出”。

Vision Banana的真正价值，不在指标，而在重新定义视觉基础模型的技术路线。

学界一直有直觉：能生成高保真图像，必然理解语义、结构、几何、空间关系。

但此前始终缺乏严格量化证据。Vision Banana首次系统证明：

图像生成预训练 = 视觉领域的LLM预训练，生成过程自然习得通用视觉表征，可通过指令微调迁移到全品类感知任务。

正如文本生成统一NLP任务，RGB图像生成可以统一所有视觉任务：

输入：图像+自然语言指令；
输出：指定格式的RGB图；
解码：还原为分割掩码、深度值、法向向量等。

未来视觉系统可彻底告别任务专属头、专属损失、专属标注，一套模型、一套流程、一套接口搞定从创作到感知的全场景。

过去五年，视觉表征学习以判别式（对比学习、掩码重建）为主流；

未来，生成式预训练将成为构建通用视觉基础模型的主线。

原因很简单：

生成模型天然建模完整数据分布，泛化性远优于判别模型；
多任务统一，降低研发、部署、维护成本；
生成与理解一体化，更接近人类“先理解再创作、通过创作深化理解”的认知逻辑。

中立来看，Vision Banana打开了新范式，但仍存在明显短板：

1、计算成本高于专用模型

生成模型推理开销远大于轻量判别模型，落地端侧、高密度场景仍需优化加速。

2、部分细粒度任务仍有差距

实例分割在SA-Co/Gold上略低于DINO-X，对小物体、遮挡场景的精度仍有提升空间。

3、指令与解码规则需人工设计

目前任务prompt、颜色映射、逆变换规则需人工定义，尚未实现完全端到端自动化。

4、未扩展至视频与多视图

当前仅针对单目静态图像，视频时序理解、多视图3D重建仍待验证。这些局限不否定范式价值，反而指明了清晰的演进方向。

NLP领域的革命，始于“生成预训练+指令微调”统一所有语言任务；

计算机视觉的革命，正由“生成预训练+指令微调”统一所有视觉任务开启。Vision Banana的贡献可概括为三点：

1. 实证图像生成模型就是通用视觉学习器，生成预训练足以支撑全品类感知SOTA；

2. 建立感知即生成的统一范式，用RGB图像作为视觉任务通用接口；

3. 实现生成与理解不妥协，单一模型同时胜任创作与感知，颠覆传统专用模型路线。

长期来看，这篇工作很可能成为视觉基础模型的分水岭：

未来不再有孤立的文生图模型、分割模型、深度模型，取而代之的是以生成式预训练为底座、以指令为接口、兼顾创作与感知的全能视觉基础模型。

当生成与理解不再对立，计算机视觉才真正走向通用。

Ref

论文标题：Image Generators are Generalist Vision Learners

论文链接：https://arxiv.org/pdf/2604.20329

项目链接：https://vision-banana.github.io/

何恺明&谢赛宁署名：DeepMind新模型吊打SAM 3，视觉理解的游戏规则变了

（1）度量深度的可逆映射

（2）分割与法向的自然映射

相关推荐