本文翻译自 Google 官方提供的 nano banana 教程。
Gemini 2.5 Flash Image 是我们最新、最快、最高效的原生多模态模型。Gemini 2.5 Flash 的独特之处在于其原生的多模态架构。它从头开始进行训练,能够以单一、统一的步骤处理文本和图像。这使得它能够实现超越简单图像生成的强大功能,例如对话式编辑、多图像合成和对图像内容的逻辑推理。
以下是您可以执行的关键操作:
- 文本到图像: 从简单或复杂的文本描述中生成高质量的图像。
- 图像 + 文本到图像(编辑): 提供一张图像,并使用文本提示添加、删除或修改元素、更改风格或调整颜色。
- 多图像到图像(合成和风格迁移): 使用多个输入图像来合成新场景或将一种图像的风格迁移到另一种图像。
- 迭代优化: 通过对话,在多个回合中逐步优化您的图像,进行微小的调整。
- 文本渲染: 生成包含清晰且位置得当的文本的图像,非常适合徽标、图表和海报。
本指南将教您如何编写提示和提供说明,以从 Gemini 2.5 Flash 获得更好的结果。这一切都始于一个基本原则:
描述场景,而不仅仅是列出关键字。 模型的最大优势在于其深厚的语言理解能力。一个叙事性、描述性的段落几乎总是能产生比简单的单词列表更好、更连贯的图像。
您可以通过以下方式进行尝试:使用官方文档中的代码,或直接在Google AI Studio中开始创建。
从文本创建图像
生成图像最常见的方式是描述您想要看到的内容。
1. 照片级真实感场景
对于逼真的图像,请像摄影师一样思考。提及相机角度、镜头类型、灯光和细节将有助于模型获得照片级真实感的效果。
模板:
一张照片级真实的 [拍摄类型]
的 [主体]
,[动作或表情]
,发生在 [环境]
。场景由 [灯光描述]
照明,营造出 [氛围]
的氛围。使用 [相机/镜头细节]
拍摄,强调 [关键纹理和细节]
。图像应为 [纵横比]
格式。
示例提示:
一张照片级真实的特写肖像,描绘一位年长的日本陶瓷艺术家,脸上刻满了深深的、被太阳晒过的皱纹,带着温暖而了然的微笑。他正在仔细检查一个刚上釉的茶碗。场景设定在他的乡村、被阳光沐浴的工作室里。柔和的黄金时刻光线透过窗户照射进来,突出了粘土的细腻纹理。使用 85 毫米人像镜头拍摄,产生了柔和、模糊的背景(散景)。整体氛围宁静而精湛。垂直肖像方向。
示例输出:
一张照片级真实的特写肖像,描绘一位年长的日本陶瓷艺术家……
2. 风格化插画和贴纸
要创建贴纸、图标或项目资产,请明确说明风格,如果您需要白色背景,请记住要求。
模板:
一个 [风格]
的贴纸,描绘一个 [主体]
,具有 [关键特征]
和 [配色方案]
。设计应具有 [线条风格]
和 [着色风格]
。背景必须为白色。
示例提示:
一个可爱的风格贴纸,描绘一只戴着小小竹帽的快乐小熊猫。它正在啃食一根绿色的竹叶。设计具有粗犷、干净的轮廓,简单的单元着色,以及充满活力的配色方案。背景必须为白色。
示例输出:
一个可爱的风格贴纸,描绘一只快乐的小熊猫……
3. 图像中的准确文本
Gemini 2.5 Flash Image 可以渲染图像中的文本。请清晰说明您想要的具体文本,描述字体风格,并设定整体设计。
模板:
为 [品牌/概念]
创建一个 [图像类型]
,其中包含 [要渲染的文本]
,采用 [字体风格]
。设计应为 [风格描述]
,并采用 [配色方案]
。
示例提示:
为一家名为“The Daily Grind”的咖啡店创建一个现代、简约的标志。文本应采用干净、粗体、无衬线字体。设计应包含一个简单的、风格化的咖啡豆图标,与文本无缝集成。配色方案为黑白。
示例输出:
为一家咖啡店创建现代、简约的标志,名为“The Daily Grind”……
4. 产品模型和商业摄影
为电子商务、广告或品牌创建干净、专业的广告。
模板:
高分辨率、工作室灯光的产品照片,描绘一个 [产品描述]
,放置在 [背景表面/描述]
上。灯光为 [灯光设置,例如,三点柔光箱设置]
,用于 [灯光目的]
。相机角度为 [角度类型]
,以展示 [特定功能]
。超逼真,焦点清晰于 [关键细节]
。[纵横比]
。
示例提示:
高分辨率、工作室灯光的产品照片,描绘一个哑光黑色的简约陶瓷咖啡杯,放置在抛光的混凝土表面上。灯光采用三点柔光箱设置,旨在创造柔和、漫射的高光并消除刺眼的阴影。相机角度为略微抬高的 45 度拍摄,以展示其简洁的线条。超逼真,焦点清晰于咖啡上升的蒸汽。方形图像。
示例输出:
高分辨率、工作室灯光的产品照片,描绘一个简约的陶瓷咖啡杯……
5. 简约和负空间设计
为网站、演示文稿或营销材料创建背景,您计划在其中叠加文本。
模板:
一个简约的构图,在框架的 [右下角/左上角/等]
位置只有一个 [主体]
。背景是广阔、空白的 [颜色]
画布,创造了大量的负空间。柔和、微妙的灯光。[纵横比]
。
示例提示:
一个简约的构图,在框架的右下角位置只有一个精致的红色枫叶。背景是广阔、空白的米白色画布,创造了大量的负空间用于放置文本。来自左上方的柔和、漫射的灯光。方形图像。
示例输出:
一个简约的构图,在框架的右下角位置只有一个精致的红色枫叶……
6. 连续艺术(漫画分镜/故事板)
通过逐帧清晰的场景描述,创作引人入胜的视觉叙事,非常适合开发故事板、漫画条或任何形式的连续艺术。
模板:
一个漫画分镜,采用 [艺术风格]
风格。前景是 [角色描述和动作]
。背景是 [场景细节]
。分镜包含一个带有文本“[文本]
”的 [对话/标题框]
。灯光营造出 [氛围]
的氛围。[纵横比]
。
示例提示:
一个漫画分镜,采用粗犷、黑色电影艺术风格,具有高对比度的黑白墨水。前景是一位穿着风衣的侦探,站在闪烁的街灯下,雨水浸湿了他的肩膀。背景中,一个荒凉酒吧的霓虹灯招牌倒映在水坑里。顶部的标题框写着“这座城市是个藏匿秘密的艰难之地”。灯光强烈,营造出戏剧性、忧郁的氛围。横向。
示例输出:
一个漫画分镜,采用粗犷、黑色电影艺术风格……
使用文本编辑图像
这正是 Gemini 2.5 Flash Image 多模态的真正亮点所在。您可以提供一张或多张图像以及用于编辑、合成和风格迁移的文本提示。
1. 图像编辑:添加和删除元素
提供一张图像,然后简单描述您想要进行的更改。模型将分析原始图像的风格、灯光和透视,使编辑看起来自然,并在多张图像中保持角色的一致性。
模板:
使用提供的 [主体]
图像,请 [添加/删除/修改]
[元素]
到/从场景中。确保更改 [描述更改应如何整合]
。
示例提示:
使用我猫的图像,请在它头上戴上一个小的、针织的巫师帽。让它看起来像是舒适地坐着,并且与照片的柔和光线相匹配。
示例输入和输出:
2. 填色:编辑特定区域
您可以对话式地告诉 Gemini 2.5 Flash Image 只编辑图像的一个部分,而完全不触碰其余部分。
模板:
使用提供的图像,仅将 [特定元素]
更改为 [新元素/描述]
。保持图像中的其他所有内容完全相同,保留原始风格、灯光和构图。
示例提示:
使用提供的客厅图像,仅将蓝色沙发更改为复古的棕色皮革切斯特菲尔德沙发。保持房间的其他部分,包括沙发上的靠垫和灯光不变。
示例输入和输出:
3. 风格迁移
提供一张照片,然后让模型以特定的风格或艺术流派重新创作其内容。
模板:
将提供的 [主体]
照片转换为 [艺术家/艺术风格]
的艺术风格。保留原始构图,但使用 [风格化元素的描述]
进行渲染。
示例提示:
将提供的现代城市街道夜景照片转换为文森特·梵高《星夜》的艺术风格。保留建筑和汽车的原始构图,但使用旋转的、厚涂的笔触和深蓝色与亮黄色的戏剧性调色板来渲染所有元素。
示例输入和输出:
4. 高级构图:组合多张图像
提供多张图像作为上下文,以创建全新的、组合的场景。这非常适合产品模型或创意拼贴。
模板:
通过组合提供的图像中的元素来创建新图像。取 [来自图像 1 的元素]
,并将其与/放在 [来自图像 2 的元素]
上。最终图像应为 [最终场景的描述]
。
示例提示:
创建一张专业的电子商务时尚照片。取第一张图像中的蓝色碎花连衣裙,让第二张图像中的女性穿上。生成女性穿着这件连衣裙的逼真全身照,并调整灯光和阴影以匹配户外环境。
示例输入和输出:
最佳实践
在构建时,这里有一些使用图像生成的更多技巧:
- 极其具体: 您提供的细节越多,控制力就越强。不要只说“奇幻盔甲”,而是描述它:“华丽的精灵板甲,上面刻有银叶图案,高领和肩甲形状像猎鹰的翅膀。”
- 修复角色一致性漂移: 如果您注意到角色特征在多次迭代编辑后开始漂移,您可以重新开始对话,提供详细的描述以保持一致性。
- 提供上下文和意图: 解释图像的目的。例如,“为高端、简约的护肤品牌创建标志”比仅说“创建标志”效果更好。
- 迭代和优化: 不要指望第一次就能得到完美的图像。利用模型的对话特性进行微小的更改。后续的提示可以这样说:“这很棒,但能不能让灯光更暖一点?”或者“保持所有内容不变,但将角色的表情改为更严肃一些。”
- **使用“语义负面提示”:**与其说“没有汽车”,不如积极地描述所需的场景:“一条空旷、荒凉的街道,没有交通迹象。”
- 纵横比: 在编辑时,Gemini 2.5 Flash Image 通常会保留输入图像的纵横比。如果不是,请在提示中明确说明:
“更新输入图像……不要更改输入纵横比。”
如果您上传了多张具有不同纵横比的图像,模型将采用最后一张提供的图像的纵横比。如果您需要新图像的特定比例,而提示无法实现,最佳做法是将具有正确尺寸的参考图像作为提示的一部分提供。 - 控制相机: 使用摄影和电影语言来控制构图。诸如
广角镜头
、微距镜头
、低角度视角
、85 毫米人像镜头
和荷兰角
等术语可以精确控制最终图像。
限制
随着我们不断开发和改进模型,我们相信在需要改进的领域保持透明。
虽然 Gemini 2.5 Flash Image 是一个强大而多功能的工具,但对于高度细致的要求,第一次就达到完美可能需要一些迭代。您可能会发现,生成复杂的排版或在多张图像中保持绝对的角色特征一致性有时需要通过后续提示进行优化。
我们正在积极改进这些领域,并感谢您在我们共同构建下一代图像工具时的创造力。
下一步?开始创作!
您现在已经掌握了帮助您使用 Gemini 2.5 Flash 创建和编辑令人难以置信的图像的基础技能。提高技能的最佳方法是实践。以下是一些可以帮助您在旅途中学习的资源:
- 探索 Google AI Studio 中的 Gemini:使用我们的网页工具是开始练习本指南中技术的最简单方法。
- 阅读官方文档:面向希望将 Gemini 2.5 Flash 的图像生成功能集成到自己的应用程序中的开发人员。
- 查看价格:了解使用 Gemini API 的 Gemini 2.5 Flash Image Generation 进行项目的成本。
- 尝试图像编辑小程序:使用简单的文本提示测试 AI 驱动的照片编辑,应用创意滤镜或进行专业调整。