2026年谷歌揭秘nano-banana模型：Gemini 2.5 Flash Image！

科技前沿 • 2026-04-02 11:46 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

刚刚，谷歌正式揭秘最新的图像生成与编辑模型nano-banana，它就是Gemini 2.5 Flash Image，为之前原生图像模型Gemini 2.0 Flash的升级版。新模型带来了多项强大功能：可以将多张图片融合为一张；保持角色一致性，从而支持更丰富的故事表达；使用自然语言进行精准的图像变换；利用 Gemini 的世界知识进行图像生成与编辑。

Gemini 2.5 Flash Image经过超过250万的投票，在LMArena的图像编辑排行榜上超过Flux-Kontext和GPT-Image-1，位居第一：

当前新模型也已经开放，在Google AI Studio 可直接使用：

而且支持API调用，Gemini 2.5 Flash Image 的API定价为 $30/百万tokens，每张图片约消耗 1290 个输出 token，即每张图片约 0.039 美元。输入与输出的其他模态则和 Gemini 2.5 Flash 的定价标准一致。

Gemini 2.5 Flash Image的主要亮点如下所示：

在图像生成中，一个核心挑战是如何在多个提示词和编辑过程中维持角色或对象的外观一致性。Gemini 2.5 Flash Image可以将同一个角色置于不同环境中；在全新场景下从多个角度展示同一产品；或生成一致的品牌素材，同时始终保持主体形象不变。

https://www.zhihu.com/video/1943814527239033045

除了角色一致性之外，该模型在遵循视觉模板方面同样表现出色，例如房地产房源卡片、统一的员工工牌，或是整套商品目录的动态产品展示图。

Gemini 2.5 Flash Image 支持通过自然语言实现精准定向变换与局部编辑。例如，该模型可以模糊图像背景、清除T恤上的污渍、从照片中移除整个人物、改变主体姿态、为黑白照片上色，或通过简单提示实现您能想象到的任何编辑效果。

谷歌在 AI Studio 中构建了照片编辑模板应用，同时提供用户界面和基于提示的双重控制方式。

传统图像生成模型虽擅长创作美学图像，却缺乏对现实世界的深度语义理解。Gemini 2.5 Flash Image 可以依托 Gemini 的世界知识体系来进行图像创作。比如Gemini 2.5 Flash Image 可以推理出图像中某一时刻之前或之后可能发生的情景：在生成了气球飘向仙人掌的第一张画面后，可以让它去想象接下来可能发生的场景（气球爆炸）：