何恺明&谢赛宁署名:DeepMind新模型吊打SAM 3,视觉理解的游戏规则变了

何恺明&谢赛宁署名:DeepMind新模型吊打SAM 3,视觉理解的游戏规则变了生成即理解 目录 01 行业困境 生成与理解的长期割裂 专用模型的内卷困局 1 任务与模型的强绑定 泛化性先天不足 2 生成与理解的二元对立 资源重复浪费 3 以往融合尝试的固有缺陷 02 核心创新 把所有视觉理解 重写成 生成可解码 RGB 图像 1 统一范式

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



生成即理解

目录

01 行业困境:生成与理解的长期割裂,专用模型的内卷困局

1. 任务与模型的强绑定,泛化性先天不足

2. 生成与理解的二元对立,资源重复浪费

3. 以往融合尝试的固有缺陷

02 核心创新:把所有视觉理解,重写成“生成可解码RGB图像”

1. 统一范式:感知即生成,输出即RGB

2. 训练方式:极轻量指令微调,不破坏基座能力

3. 关键技术:可解码可视化 schemes,让生成结果可量化

(1)度量深度的可逆映射

(2)分割与法向的自然映射

03 实验实证:统一模型碾压专项专家,生成理解双SOTA

1. 2D语义理解:全面超越SAM 3

2. 3D几何理解:超越Depth Anything 3与Lotus-2

3. 生成能力:与基座模型持平,实现“鱼与熊掌兼得”

04 范式重构:生成式预训练,将成为视觉基础模型的统一底座

1. 生成即理解:从“假说”到“实证”

2. 统一接口:图像生成 = 视觉任务的通用语言

3. 路线选择:视觉基础模型的未来,属于生成范式

05 客观局限:当前范式仍需解决的现实挑战

06 总结:视觉领域的GPT时刻,正在到来


过去五年,计算机视觉的发展路径始终围绕着一个核心分歧:表征学习该走判别式路线,还是生成式路线

从监督分类、对比学习、掩码自编码,到各类自监督范式轮番登场,业界长期默认:生成模型只管画得像,理解与感知得靠判别模型。想要分割、深度估计、法向预测,就要为每个任务设计专属架构、损失函数与标注流程;想要兼顾图像生成与视觉理解,就得用多模型拼接,既冗余又难以协同。学界与工业界的主流实践,一直是“生成、理解二分”,用专用模型解决专用问题。

而在2026年4月,Google DeepMind发布的《Image Generators are Generalist Vision Learners》直接打破这一共识——图像生成模型,本身就是通用视觉学习器

论文基于Nano Banana Pro图像生成模型,通过极轻量指令微调得到统一模型Vision Banana,在不牺牲生成能力的前提下,于2D分割、3D深度估计、法向估计等任务上超越SAM 3、Depth Anything 3等专项专家模型,证明生成式预训练可像LLM预训练一样,成为视觉基础模型的统一底座

这不是一次简单的SOTA刷新,而是对视觉基础模型范式的重构:未来的视觉系统,或许不再需要割裂的“生成模型”与“感知模型”,只用一套生成预训练参数,就能以统一接口完成从画图到理解的全视觉任务。

在Vision Banana出现之前,视觉领域长期存在三层难以调和的矛盾。

传统视觉范式高度专业化:

  • 语义/实例/指代表达分割,依赖SAM系列等专用架构与海量掩码标注;
  • 单目深度估计,需要相机内参参与训练与推理,用专属回归损失优化;
  • 表面法向估计,同样依赖专门设计的几何监督与网络结构。

这类模型任务内精度高,但跨任务迁移极差,换一个任务就要重新设计头结构、标注数据、训练流程,难以实现真正的通用视觉。

图像生成模型(如FLUX、Nano Banana Pro、GPT-Image)与视觉理解模型长期各自进化:

  • 生成模型追求高保真、语义可控、细节丰富,预训练学习海量视觉分布;
  • 理解模型追求分类、检测、分割、几何估计精度,用判别式目标优化。

两者共享同样的视觉世界,却用两套体系、两套参数、两套训练流程,大量冗余计算与标注成本被浪费

此前也有研究试图用扩散模型做感知任务,但普遍存在两大硬伤:

  • 输出格式不可解码,无法量化评估,只能看可视化效果;
  • 全量微调+添加专用模块,彻底丢失原生成能力,通用性归零。

这些方案本质是“用生成架构做判别任务”,并未真正打通生成与理解的壁垒。

而Vision Banana的核心突破,正是不改变生成模型本质、不添加专用结构、不牺牲生成能力,只用轻量指令微调,把感知任务全部转化为图像生成问题

Vision Banana的设计哲学极度简洁,完全对标LLM的“生成预训练+指令微调”范式:

图像生成 = 文本生成;视觉理解任务 = 指令;可解码RGB图 = 任务输出

图| 通过指令微调揭示图像生成模型的隐藏视觉理解能力

论文提出一个颠覆性设定:所有视觉理解任务的输出,都参数化为可解码的RGB图像

  • 分割:按提示指定颜色生成掩码图,聚类像素即可还原掩码;
  • 深度估计:生成深度伪彩色图,可严格逆变换回物理深度值;
  • 表面法向:法向向量直接映射为RGB,天然对齐色彩空间。

这种设计带来三大优势:

1. 单一模型通吃多任务:权重完全共享,仅靠prompt切换任务;

2. 微调成本极低:只教模型按格式输出RGB,几乎不增加新数据;

3. 生成能力无损:输出仍是图像,基座生成先验不被破坏。

Vision Banana以Nano Banana Pro为基座,采用极低比例混合视觉任务数据做轻量指令微调,不进行全量微调、不添加任务分支、不修改主干架构。

论文用两组基准验证生成能力保留:

  • 文生图(GenAI-Bench):Vision Banana胜率53.5%,略超基座Nano Banana Pro;
  • 图像编辑(ImgEdit):胜率47.8%,与基座基本持平。

直白说:模型学会了理解,没忘记怎么生成,这是此前所有融合方案都未能实现的关键。

为了让生成的RGB能还原为感知标签,论文设计了严格可逆的映射规则:

图| 度量深度与 RGB 颜色值的双射映射可视化

(1)度量深度的可逆映射

深度值通过幂变换弯曲后,映射到RGB立方体边沿,形成一一对应双射,可精确解码回物理深度(单位:米)。

该设计全程不依赖相机内参,彻底摆脱传统深度模型的硬件约束。

(2)分割与法向的自然映射

  • 分割:用prompt指定类别→颜色对应,聚类相近色值即可提取掩码;
  • 表面法向:x/y/z三个分量直接对应RGB通道,无需复杂转换。

这些设计极简,却让生成模型的输出,直接接入传统感知benchmark的量化评估体系。

Vision Banana在不使用专项标注、不依赖相机参数、不添加专用结构的前提下,在2D理解、3D理解、图像生成三大维度全面领先或对齐SOTA。

图| 指令微调后的 Vision Banana 在生成与理解任务上超越 / 持平 SOTA 专用模型

作为视觉理解的核心任务,分割领域长期由SAM系列主导,而Vision Banana在零样本迁移设定下实现反超:

图| Vision Banana 在多个分割数据集上与 SOTA 方法对比

  • Cityscapes语义分割mIoU:0.699 vs SAM3的0.652,领先4.7个点;
  • RefCOCOg指代表达分割cIoU:0.738 vs SAM3 Agent的0.734
  • ReasonSeg推理分割gIoU:0.793 vs SAM3 Agent的0.770
  • SA-Co/Gold实例分割:与DINO-X持平(0.540 vs 0.552),且未使用该数据集训练。

图| Vision Banana 根据指令提示执行语义分割

这意味着:专门用来分割的模型,被一个顺便做分割的生成模型打败

3D任务对几何先验要求极高,传统模型高度依赖相机参数与专门监督:

图| 零样本迁移设定下单目度量深度估计结果

  • 度量深度估计(4数据集平均δ₁):0.929 vs Depth Anything 3的0.918
  • 表面法向估计(室内平均角度误差):15.549° vs Lotus-2的16.558°,误差最低。

更关键的是:训练全程零真实深度数据、零相机内参、零专项几何损失,完全靠生成预训练学到的几何常识完成预测。

图| Vision Banana 度量深度估计能力演示

在GenAI-Bench、ImgEdit等权威生成基准上,Vision Banana与Nano Banana Pro无显著差距,可视化对比也几乎无法区分。

这组结果给出铁证:

图| Vision Banana 与 Nano Banana Pro 文生图效果对比

Nano Banana Pro在预训练阶段就已具备完整的视觉理解表征,指令微调只是把这些能力“解锁”并“格式化输出”

Vision Banana的真正价值,不在指标,而在重新定义视觉基础模型的技术路线

学界一直有直觉:能生成高保真图像,必然理解语义、结构、几何、空间关系。

但此前始终缺乏严格量化证据。Vision Banana首次系统证明:

图像生成预训练 = 视觉领域的LLM预训练,生成过程自然习得通用视觉表征,可通过指令微调迁移到全品类感知任务。

正如文本生成统一NLP任务,RGB图像生成可以统一所有视觉任务

  • 输入:图像+自然语言指令;
  • 输出:指定格式的RGB图;
  • 解码:还原为分割掩码、深度值、法向向量等。

未来视觉系统可彻底告别任务专属头、专属损失、专属标注,一套模型、一套流程、一套接口搞定从创作到感知的全场景。

过去五年,视觉表征学习以判别式(对比学习、掩码重建)为主流;

未来,生成式预训练将成为构建通用视觉基础模型的主线

原因很简单:

  • 生成模型天然建模完整数据分布,泛化性远优于判别模型;
  • 多任务统一,降低研发、部署、维护成本;
  • 生成与理解一体化,更接近人类“先理解再创作、通过创作深化理解”的认知逻辑。

中立来看,Vision Banana打开了新范式,但仍存在明显短板:

1、计算成本高于专用模型

生成模型推理开销远大于轻量判别模型,落地端侧、高密度场景仍需优化加速。

2、部分细粒度任务仍有差距

实例分割在SA-Co/Gold上略低于DINO-X,对小物体、遮挡场景的精度仍有提升空间。

3、指令与解码规则需人工设计

目前任务prompt、颜色映射、逆变换规则需人工定义,尚未实现完全端到端自动化。

4、未扩展至视频与多视图

当前仅针对单目静态图像,视频时序理解、多视图3D重建仍待验证。这些局限不否定范式价值,反而指明了清晰的演进方向。

NLP领域的革命,始于“生成预训练+指令微调”统一所有语言任务;

计算机视觉的革命,正由“生成预训练+指令微调”统一所有视觉任务开启。Vision Banana的贡献可概括为三点:

1. 实证图像生成模型就是通用视觉学习器,生成预训练足以支撑全品类感知SOTA;

2. 建立感知即生成的统一范式,用RGB图像作为视觉任务通用接口;

3. 实现生成与理解不妥协,单一模型同时胜任创作与感知,颠覆传统专用模型路线。

长期来看,这篇工作很可能成为视觉基础模型的分水岭:

未来不再有孤立的文生图模型、分割模型、深度模型,取而代之的是以生成式预训练为底座、以指令为接口、兼顾创作与感知的全能视觉基础模型

当生成与理解不再对立,计算机视觉才真正走向通用。

Ref

论文标题:Image Generators are Generalist Vision Learners

论文链接:https://arxiv.org/pdf/2604.20329

项目链接:https://vision-banana.github.io/

小讯
上一篇 2026-05-01 10:21
下一篇 2026-05-01 10:19

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/283379.html