本文翻译自 Google 官方发布在 X 上的 nano banana pro 完整开发者教程。
与注重速度和性价比的 Flash 版本不同,Pro 版本引入了“思考”能力、搜索(Search Grounding)以及高保真 4K 输出等高级功能。该模型的三大核心优势在于:
- 具备思考能力:能够理解和推理复杂的提示词。
- 搜索溯源(Search Grounding):利用 Google Search 获取实时数据以生成准确的图像。
- 高质量输出:支持高达 4K 分辨率的图像生成。
- 思考过程(The “Thinking” Process):不仅仅是绘画,模型会先进行推理。开发者可以通过设置 来查看模型的“思考”过程,了解其如何解读提示词。
- 搜索溯源(Search Grounding):模型可以访问实时数据(如天气预报、特定人物信息),生成基于事实的图像。
- 4K 高分辨率生成:支持 1K、2K 和 4K 分辨率。
- 多语言能力:能够生成和翻译图像中的文本,支持超过十种语言。
- 高级图像混合:相比 Flash 版本仅支持 3 张图像,Pro 版本最多可处理 14 张图像的混合,适合制作复杂的拼贴画。
- 定价:生成 1K 或 2K 图像的成本为 \(0.134</strong>,而 <strong>4K</strong> 图像的成本为 <strong>\)0.24(外加 Token 费用)。
- 节省成本:使用 Batch API 可以节省 50% 的生成成本,但可能需要等待长达 24 小时。
- 必要设置:必须在 Google Cloud 项目中设置计费,并获取 API 密钥。
- SDK 支持:支持 Python () 和 JavaScript SDK。
- 模型 ID:使用 Pro 模型时需指定 ID 为 。
- 基本代码结构:教程提供了初始化客户端、设置 (文本/图像)和 (宽高比)的代码示例。
为了获得**效果,建议遵循以下原则:
- 极度具体:详细描述主体、颜色、光照和构图。
- 提供背景与意图:解释图像的目的或情绪。
- 迭代优化:利用对话模式进行多轮编辑。
- 正向描述:使用正向框架(如“空荡的街道”)而非负面提示(如“没有车”)。
- 控制镜头:使用专业的摄影术语(如“广角”、“微距”)。
探索这一下一代 AI 模型的高级功能——包括思考、搜索溯源(Search Grounding)和惊艳的 4K 输出——将如何赋能你构建复杂且富有创意的应用程序。
虽然 Flash 模型 (Nano Banana) 带来了速度和性价比,但 Pro 版本引入了“思考”能力、搜索溯源和高保真 4K 输出。是时候利用复杂的创意任务大干一场了!
本指南将带你了解 Nano Banana Pro 的高级功能。
本指南将涵盖:
- 在 Google AI Studio 中使用 Nano Banana Pro
- 项目设置
- 初始化客户端
- 基础生成(经典用法)
- “思考”过程
- 搜索溯源 (Search Grounding)
- 高分辨率 4K 生成
- 多语言能力
- 高级图像混合
- Pro 专属演示
- **实践和提示词技巧
虽然终端用户可以在 Gemini 应用访问 Nano Banana Pro,但开发者设计原型和测试提示词的**环境是 Google AI Studio。AI Studio 是一个在编写任何代码之前试验所有可用 AI 模型的游乐场,也是构建 Gemini API 的入口。
你可以在 AI Studio 中使用 Nano Banana Pro。要开始使用,请前往 aistudio.google.com,登录你的 Google 账号,并在模型选择器中选择 Nano Banana Pro (Gemini 3 Pro Image)。
与 Nano-Banana 相反,Pro 版本没有免费层级,这意味着你需要选择一个已启用计费的 API 密钥(参见下方的“项目设置”部分)。

提示:你也可以直接在 AI Studio 的 ai.studio/apps 中“vibe code”(凭感觉编程)Nano Banana Web 应用,或者查看代码并重新混合 (remix) 。
要跟随本指南,你需要以下内容:
- 来自 Google AI Studio 的 API 密钥。
- 为你的项目设置计费。
- 适用于 Python 或 JavaScript/TypeScript 的 Google Gen AI SDK。
如果你已经是拥有这一切的硬核 Gemini API 用户,太棒了!直接跳过本节进入下一节。否则,请按以下步骤开始:
当你首次登录 AI Studio 时,会自动创建一个 Google Cloud 项目和一个 API 密钥。
打开 API密钥管理界面 并点击“复制”图标以复制你的 API 密钥。

由于 Nano Banana Pro 没有免费层级,你必须在你的 Google Cloud 项目上启用计费。
在 API密钥管理界面 中,点击项目旁边的 设置计费 (Set up billing) 并按照屏幕上的说明进行操作。
Nano Banana Pro 的费用是多少?
使用 Nano Banana Pro 生成图像比 Flash 版本更昂贵,特别是 4K 图像。在本文发布时,生成一张 1K 或 2K 图像的费用为 0.134 美元,而 4K 图像的费用为 0.24 美元(加上输入的 token 费用和文本输出费用)。
请查看文档中的 Pricing 以获取最新详情。
专家提示:为了节省 50% 的生成成本,你可以使用 Batch API。作为交换,你可能需要等待最多 24 小时才能拿到图像。
选择你偏好的语言 SDK。
Python:
注意:以下示例使用 Python SDK 进行演示。JS Notebook 中提供了在 JavaScript 中使用 Nano Banana 的等效代码片段。
要使用 Pro 模型,你需要使用 模型 ID。
在我们开始讨论花哨的功能之前,先来看看标准的生成过程。你可以使用 response_modalities(获取文本和图像或仅图像)和 aspect_ratio(宽高比)来控制输出。

聊天模式也是一种选择(实际上这是我推荐用于多轮编辑的模式)。请查看第 8 个示例“Polyglot Banana”了解详情。
Nano Banana Pro 不仅仅是在绘画;它在思考。这意味着它可以在生成图像之前推理你最复杂、最扭曲的提示词。最棒的是什么?你可以窥视它的大脑!
要启用此功能,请在 thinking_config 中设置 。
你应该会得到类似这样的结果:

这种透明度有助于你理解模型是如何解读你的请求的。就像和你的艺术家对话一样!
最具颠覆性的功能之一是搜索溯源 (Search Grounding)。Nano Banana Pro 并没有停留在过去;它可以从 Google 搜索访问实时数据,以生成准确、最新的图像。想要天气信息?没问题。
例如,你可以让它可视化当天的天气预报:

需要打印级质量的图像?Nano Banana Pro 支持 4K 分辨率。因为有时候,大就是好。

注意:4K 生成成本更高,所以请明智使用!
该模型可以生成甚至翻译图像中的文本,支持十几种语言。这基本上就是你眼睛的通用翻译机。


虽然 Flash 模型最多只能混合 3 张图像,但 Pro 模型最多可以处理 14 张图像!这完全就是一个提示词派对。非常适合创建复杂的拼贴画或展示你的整个产品线。

注意:如果你想要角色具有非常高的保真度,请将数量限制在 5 个以内,这对于派对之夜来说已经绰绰有余了!
以下是一些只有 Nano Banana Pro 才能实现的示例。准备好大吃一惊吧:
提示词:“搜索网络,然后生成一张等轴测视角的详细像素艺术图,展示 Guillaume Vernade 的职业生涯”
这使用了搜索溯源来查找关于某人的具体信息,并以特定的风格将其可视化。

提示词:“给我看一张关于十四行诗如何运作的信息图,其中使用了一首关于香蕉的十四行诗,并附带对这首诗的冗长文学分析。要有好的复古美学”
该模型可以生成连贯、长篇的文本,并将其完美地集成到复杂的布局中。

提示词:“一张放在漂亮剧院座位上的百老汇 TCG 玩家秀的节目单照片,它专业且制作精良,有光泽,我们可以看到封面和展示舞台照片的内页。”
创建具有准确光照和纹理的印刷材料的逼真样机。

为了使用 Nano Banana 模型获得**效果,请遵循以下提示词准则:
- 极度具体:你提供的关于主体、颜色、光照和构图的细节越多,你对输出的控制就越强。
- 提供背景和意图:解释图像的目的或期望的情绪。模型对背景的理解将影响其创意选择。
- 迭代和完善:不要指望第一次尝试就完美。利用模型的对话能力进行增量更改并完善你的图像。
- 使用分步指令:对于复杂的场景,将你的提示词分解为一系列清晰、顺序的指令。
- 使用正面框架:与其使用像“没有车”这样的负面提示词,不如正面描述所需的场景:“一条空荡荡、废弃的街道,没有交通迹象。”
- 控制镜头:使用摄影和电影术语来指导构图,例如“广角镜头”、“微距镜头”或“低角度视角”。
- 利用搜索溯源优势:当你想要模型使用实时或现实世界数据时,要非常精确。“搜索网络关于里昂奥林匹克队上一场比赛的信息并制作信息图”会比仅仅说“一张里昂队上一场比赛的信息图”效果更好(虽然那个也能行,但不要碰运气)。
- 使用 Batch API 来降低成本并获得更多配额:Batch API 是一种将少量或大量请求一起发送的方法。它们可能需要长达 24 小时来处理,但作为交换,你可以节省 50% 的生成成本。而且配额也更高!
要深入了解**实践,请查看文档中的 prompting guide 以及官方博客上发布的针对 Nano Banana 的 prompting best practices。
Nano Banana Pro (Gemini 3 Pro Image) 开启了 AI 图像生成的新前沿。凭借其思考、搜索和 4K 渲染能力,它是严肃创作者(以及追求极致乐趣者)的工具。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/216560.html