如何使用 Nnano banana 进行图像生成以获得最佳结果 • Google
本文翻译自 Google 官方提供的 nano banana 教程。 Gemini 2.5 Flash Image 是我们最新、最快、最高效的原生多模态模型。Gemini 2.5 Flash 的独特之处在于其原生的多模态架构。它从头开始进行训练,能够以单一、统一的步骤处理文本和图像。这使得它能够实现超越简单图像生成的强大功能,例如对话式编辑、多图像合成和对图像内容的逻辑推理。 以下是您可以执行的关键操作: 文本到图像: 从简单或复杂的文本描述中生成高质量的图像。 图像 + 文本到图像(编辑): 提供一张图像,并使用文本提示添加、删除或修改元素、更改风格或调整颜色。 多图像到图像(合成和风格迁移): 使用多个输入图像来合成新场景或将一种图像的风格迁移到另一种图像。 迭代优化: 通过对话,在多个回合中逐步优化您的图像,进行微小的调整。 文本渲染: 生成包含清晰且位置得当的文本的图像,非常适合徽标、图表和海报。 本指南将教您如何编写提示和提供说明,以从 Gemini 2.5 Flash 获得更好的结果。这一切都始于一个基本原则: 描述场景,而不仅仅是列出关键字。 模型的最大优势在于其深厚的语言理解能力。一个叙事性、描述性的段落几乎总是能产生比简单的单词列表更好、更连贯的图像。 您可以通过以下方式进行尝试:使用官方文档中的代码,或直接在Google AI Studio中开始创建。 从文本创建图像 生成图像最常见的方式是描述您想要看到的内容。 1. 照片级真实感场景 对于逼真的图像,请像摄影师一样思考。提及相机角度、镜头类型、灯光和细节将有助于模型获得照片级真实感的效果。 模板: 一张照片级真实的 [拍摄类型] 的 [主体],[动作或表情],发生在 [环境]。场景由 [灯光描述] 照明,营造出 [氛围] 的氛围。使用 [相机/镜头细节] 拍摄,强调 [关键纹理和细节]。图像应为 [纵横比] 格式。 示例提示: 一张照片级真实的特写肖像,描绘一位年长的日本陶瓷艺术家,脸上刻满了深深的、被太阳晒过的皱纹,带着温暖而了然的微笑。他正在仔细检查一个刚上釉的茶碗。场景设定在他的乡村、被阳光沐浴的工作室里。柔和的黄金时刻光线透过窗户照射进来,突出了粘土的细腻纹理。使用 85 毫米人像镜头拍摄,产生了柔和、模糊的背景(散景)。整体氛围宁静而精湛。垂直肖像方向。 示例输出: 一张照片级真实的特写肖像,描绘一位年长的日本陶瓷艺术家…… 2. 风格化插画和贴纸 要创建贴纸、图标或项目资产,请明确说明风格,如果您需要白色背景,请记住要求。 模板: 一个 [风格] 的贴纸,描绘一个 [主体],具有 [关键特征] 和 [配色方案]。设计应具有 [线条风格] 和 [着色风格]。背景必须为白色。...