本文翻译自 Google 官方发布在 X 上的 nano banana pro 完整开发者教程

与注重速度和性价比的 Flash 版本不同,Pro 版本引入了“思考”能力、搜索(Search Grounding)以及高保真 4K 输出等高级功能。该模型的三大核心优势在于:

  1. 具备思考能力:能够理解和推理复杂的提示词。
  2. 搜索溯源(Search Grounding):利用 Google Search 获取实时数据以生成准确的图像。
  3. 高质量输出:支持高达 4K 分辨率的图像生成。

关键细节

独特的高级功能

  • 思考过程(The “Thinking” Process):不仅仅是绘画,模型会先进行推理。开发者可以通过设置 include_thoughts=True 来查看模型的“思考”过程,了解其如何解读提示词。
  • 搜索溯源(Search Grounding):模型可以访问实时数据(如天气预报、特定人物信息),生成基于事实的图像。
  • 4K 高分辨率生成:支持 1K2K4K 分辨率。
  • 多语言能力:能够生成和翻译图像中的文本,支持超过十种语言。
  • 高级图像混合:相比 Flash 版本仅支持 3 张图像,Pro 版本最多可处理 14 张图像的混合,适合制作复杂的拼贴画。

成本与计费信息

  • 定价:生成 1K2K 图像的成本为 $0.134,而 4K 图像的成本为 $0.24(外加 Token 费用)。
  • 节省成本:使用 Batch API 可以节省 50% 的生成成本,但可能需要等待长达 24 小时。
  • 必要设置:必须在 Google Cloud 项目中设置计费,并获取 API 密钥。

技术实现指南

  • SDK 支持:支持 Python (google-genai) 和 JavaScript SDK。
  • 模型 ID:使用 Pro 模型时需指定 ID 为 gemini-3-pro-image-preview
  • 基本代码结构:教程提供了初始化客户端、设置 response_modalities(文本/图像)和 aspect_ratio(宽高比)的代码示例。

最佳实践与提示词技巧

为了获得最佳效果,建议遵循以下原则:

  • 极度具体:详细描述主体、颜色、光照和构图。
  • 提供背景与意图:解释图像的目的或情绪。
  • 迭代优化:利用对话模式进行多轮编辑。
  • 正向描述:使用正向框架(如“空荡的街道”)而非负面提示(如“没有车”)。
  • 控制镜头:使用专业的摄影术语(如“广角”、“微距”)。

原文:Nano Banana Pro 完整开发者教程

探索这一下一代 AI 模型的高级功能——包括思考、搜索溯源(Search Grounding)和惊艳的 4K 输出——将如何赋能你构建复杂且富有创意的应用程序。

虽然 Flash 模型 (Nano Banana) 带来了速度和性价比,但 Pro 版本引入了“思考”能力、搜索溯源和高保真 4K 输出。是时候利用复杂的创意任务大干一场了!

本指南将带你了解 Nano Banana Pro 的高级功能。

本指南将涵盖:

  1. 在 Google AI Studio 中使用 Nano Banana Pro
  2. 项目设置
  3. 初始化客户端
  4. 基础生成(经典用法)
  5. “思考”过程
  6. 搜索溯源 (Search Grounding)
  7. 高分辨率 4K 生成
  8. 多语言能力
  9. 高级图像混合
  10. Pro 专属演示
  11. 最佳实践和提示词技巧

1. 在 Google AI Studio 中使用 Nano Banana Pro

虽然终端用户可以在 Gemini 应用访问 Nano Banana Pro,但开发者设计原型和测试提示词的最佳环境是 Google AI Studio。AI Studio 是一个在编写任何代码之前试验所有可用 AI 模型的游乐场,也是构建 Gemini API 的入口。

你可以在 AI Studio 中使用 Nano Banana Pro。要开始使用,请前往 aistudio.google.com,登录你的 Google 账号,并在模型选择器中选择 Nano Banana Pro (Gemini 3 Pro Image)。

与 Nano-Banana 相反,Pro 版本没有免费层级,这意味着你需要选择一个已启用计费的 API 密钥(参见下方的“项目设置”部分)。

xx

提示:你也可以直接在 AI Studio 的 ai.studio/apps 中“vibe code”(凭感觉编程)Nano Banana Web 应用,或者查看代码并重新混合 (remix) 。

2. 项目设置

要跟随本指南,你需要以下内容:

  • 来自 Google AI Studio 的 API 密钥。
  • 为你的项目设置计费。
  • 适用于 Python 或 JavaScript/TypeScript 的 Google Gen AI SDK。

如果你已经是拥有这一切的硬核 Gemini API 用户,太棒了!直接跳过本节进入下一节。否则,请按以下步骤开始:

步骤 A:获取您的 API 密钥

当你首次登录 AI Studio 时,会自动创建一个 Google Cloud 项目和一个 API 密钥。

打开 API密钥管理界面 并点击“复制”图标以复制你的 API 密钥。

xx

步骤 B:启用计费

由于 Nano Banana Pro 没有免费层级,你必须在你的 Google Cloud 项目上启用计费。

API密钥管理界面 中,点击项目旁边的 设置计费 (Set up billing) 并按照屏幕上的说明进行操作。

Nano Banana Pro 的费用是多少?

使用 Nano Banana Pro 生成图像比 Flash 版本更昂贵,特别是 4K 图像。在本文发布时,生成一张 1K 或 2K 图像的费用为 0.134 美元,而 4K 图像的费用为 0.24 美元(加上输入的 token 费用和文本输出费用)。

请查看文档中的 Pricing 以获取最新详情。

专家提示:为了节省 50% 的生成成本,你可以使用 Batch API。作为交换,你可能需要等待最多 24 小时才能拿到图像。

步骤 C:安装 SDK

选择你偏好的语言 SDK。

Python:

pip install -U google-genai
# 安装用于图像处理的 Pillow 库
pip install Pillow
npm install @google/genai

注意:以下示例使用 Python SDK 进行演示。JS Notebook 中提供了在 JavaScript 中使用 Nano Banana 的等效代码片段。

3. 初始化客户端

要使用 Pro 模型,你需要使用 gemini-3-pro-image-preview 模型 ID。

from google import genai
from google.genai import types

# 初始化客户端
client = genai.Client(api_key="YOUR_API_KEY")

# 设置模型 ID
PRO_MODEL_ID = "gemini-3-pro-image-preview"

4. 基本生成

在我们开始讨论花哨的功能之前,先来看看标准的生成过程。你可以使用 response_modalities(获取文本和图像或仅图像)和 aspect_ratio(宽高比)来控制输出。

prompt = "Create a photorealistic image of a siamese cat with a green left eye and a blue right one" # 创建一个左眼绿色、右眼蓝色的逼真连体猫图像
aspect_ratio = "16:9" # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9" 或 "21:9"

response = client.models.generate_content(
    model=PRO_MODEL_ID,
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=['Text', 'Image'], # 或者仅 ['Image']
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
        )
    )
)

# 显示图像
for part in response.parts:
    if image:= part.as_image():
        image.save("cat.png")

xx

聊天模式也是一种选择(实际上这是我推荐用于多轮编辑的模式)。请查看第 8 个示例“Polyglot Banana”了解详情。

5. “思考”过程

Nano Banana Pro 不仅仅是在绘画;它在思考。这意味着它可以在生成图像之前推理你最复杂、最扭曲的提示词。最棒的是什么?你可以窥视它的大脑!

要启用此功能,请在 thinking_config 中设置 include_thoughts=True

prompt = "Create an unusual but realistic image that might go viral" # 创建一个不寻常但逼真的、可能会像病毒一样传播的图像
aspect_ratio = "16:9"

response = client.models.generate_content(
    model=PRO_MODEL_ID,
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=['Text', 'Image'],
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
        ),
        thinking_config=types.ThinkingConfig(
            include_thoughts=True # 启用思考
        )
    )
)

# 显示图像和思考内容
for part in response.parts:
  if part.thought:
    print(f"Thought: {part.text}")
  elif image:= part.as_image():
    image.save("viral.png")

你应该会得到类似这样的结果:

## 构想羊驼通勤者

我现在专注于羊驼。目标是将它们捕捉为玻利维亚拉巴斯繁忙公交车上的日常通勤者。
我的计划涉及一辆复古巴士,里面挤满了被逗乐的乘客。
图像将突出细节,比如一只羊驼望着窗外,另一只与乘客互动,同时人们在拍照。

[图像]

## 可视化概念

我现在完全沉浸在要求的场景中。我的主要关注点是“不寻常但现实”的方面。
场景开始成形,关键元素已经确立。

xx

这种透明度有助于你理解模型是如何解读你的请求的。就像和你的艺术家对话一样!

6. 搜索溯源 (Search Grounding)

最具颠覆性的功能之一是搜索溯源 (Search Grounding)。Nano Banana Pro 并没有停留在过去;它可以从 Google 搜索访问实时数据,以生成准确、最新的图像。想要天气信息?没问题。

例如,你可以让它可视化当天的天气预报:

prompt = "Visualize the current weather forecast for the next 5 days in Tokyo as a clean, modern weather chart. add a visual on what i should wear each day" # 将东京未来5天的当前天气预报可视化为一张干净、现代的天气图表。并添加每天应该穿什么的视觉建议。

response = client.models.generate_content(
    model=PRO_MODEL_ID,
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=['Text', 'Image'],
        image_config=types.ImageConfig(
            aspect_ratio="16:9",
        ),
        tools=[{"google_search": {}}] # 启用 Google 搜索
    )
)

# 保存图像
for part in response.parts:
    if image:= part.as_image():
        image.save("weather.png")

# 显示来源(你必须始终这样做)
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)

xxx

7. 4K 生成

需要打印级质量的图像?Nano Banana Pro 支持 4K 分辨率。因为有时候,大就是好。

prompt = "A photo of an oak tree experiencing every season" # 一张橡树经历每个季节的照片
resolution = "4K" # 选项:"1K", "2K", "4K",注意小写不起作用。

response = client.models.generate_content(
    model=PRO_MODEL_ID,
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=['Text', 'Image'],
        image_config=types.ImageConfig(
            aspect_ratio="1:1",
            image_size=resolution
        )
    )
)

xx

注意:4K 生成成本更高,所以请明智使用!

8. 多语言能力

该模型可以生成甚至翻译图像中的文本,支持十几种语言。这基本上就是你眼睛的通用翻译机。

# 生成西班牙语的信息图
message = "Make an infographic explaining Einstein's theory of General Relativity suitable for a 6th grader in Spanish" # 制作一张适合六年级学生的西班牙语信息图,解释爱因斯坦的广义相对论

response = chat.send_message(message,
    config=types.GenerateContentConfig(
        image_config=types.ImageConfig(aspect_ratio="16:9")
    )
)

# 保存图像
for part in response.parts:
    if image:= part.as_image():
        image.save("relativity.png")

xx

# 将其翻译成日语
message = "Translate this infographic in Japanese, keeping everything else the same" # 将此信息图翻译成日语,保持其他所有内容不变
response = chat.send_message(message)

# 保存图像
for part in response.parts:
    if image:= part.as_image():
        image.save("relativity_JP.png")

xx

9. 高级图像混合

虽然 Flash 模型最多只能混合 3 张图像,但 Pro 模型最多可以处理 14 张图像!这完全就是一个提示词派对。非常适合创建复杂的拼贴画或展示你的整个产品线。

# 混合多张图像
response = client.models.generate_content(
    model=PRO_MODEL_ID,
    contents=[
        "An office group photo of these people, they are making funny faces.", # 一张这些人的办公室合影,他们在做鬼脸。
        PIL.Image.open('John.png'),
        PIL.Image.open('Jane.png'),
        # ... 最多添加 14 张图像
    ],
)

# 保存图像
for part in response.parts:
    if image:= part.as_image():
        image.save("group_picture.png")

xx

注意:如果你想要角色具有非常高的保真度,请将数量限制在 5 个以内,这对于派对之夜来说已经绰绰有余了!

10. 炫技时间!(专业独享演示)

以下是一些只有 Nano Banana Pro 才能实现的示例。准备好大吃一惊吧:

个性化像素艺术(Search Grounding)

提示词:“搜索网络,然后生成一张等轴测视角的详细像素艺术图,展示 Guillaume Vernade 的职业生涯”

这使用了搜索溯源来查找关于某人的具体信息,并以特定的风格将其可视化。

xx

复杂文本集成

提示词:“给我看一张关于十四行诗如何运作的信息图,其中使用了一首关于香蕉的十四行诗,并附带对这首诗的冗长文学分析。要有好的复古美学”

该模型可以生成连贯、长篇的文本,并将其完美地集成到复杂的布局中。

xx

高保真模型

提示词:“一张放在漂亮剧院座位上的百老汇 TCG 玩家秀的节目单照片,它专业且制作精良,有光泽,我们可以看到封面和展示舞台照片的内页。”

创建具有准确光照和纹理的印刷材料的逼真样机。

xxx

11. Nano Banana 和 Nano Banana Pro 的最佳实践和提示

为了使用 Nano Banana 模型获得最佳效果,请遵循以下提示词准则:

  • 极度具体:你提供的关于主体、颜色、光照和构图的细节越多,你对输出的控制就越强。

  • 提供背景和意图:解释图像的目的或期望的情绪。模型对背景的理解将影响其创意选择。

  • 迭代和完善:不要指望第一次尝试就完美。利用模型的对话能力进行增量更改并完善你的图像。

  • 使用分步指令:对于复杂的场景,将你的提示词分解为一系列清晰、顺序的指令。

  • 使用正面框架:与其使用像“没有车”这样的负面提示词,不如正面描述所需的场景:“一条空荡荡、废弃的街道,没有交通迹象。”

  • 控制镜头:使用摄影和电影术语来指导构图,例如“广角镜头”、“微距镜头”或“低角度视角”。

  • 利用搜索溯源优势:当你想要模型使用实时或现实世界数据时,要非常精确。“搜索网络关于里昂奥林匹克队上一场比赛的信息并制作信息图”会比仅仅说“一张里昂队上一场比赛的信息图”效果更好(虽然那个也能行,但不要碰运气)。

  • 使用 Batch API 来降低成本并获得更多配额:Batch API 是一种将少量或大量请求一起发送的方法。它们可能需要长达 24 小时来处理,但作为交换,你可以节省 50% 的生成成本。而且配额也更高!

要深入了解最佳实践,请查看文档中的 prompting guide 以及官方博客上发布的针对 Nano Banana 的 prompting best practices

Nano Banana Pro (Gemini 3 Pro Image) 开启了 AI 图像生成的新前沿。凭借其思考、搜索和 4K 渲染能力,它是严肃创作者(以及追求极致乐趣者)的工具。