Nano Banana图像生成最佳指南(谷歌官方版)

AI教程2个月前更新 智子
11 0
本文由 Philipp Schmid(开发者关系工程师)、Logan Kilpatrick(集团产品经理)、Alisa Fortin(产品经理)于 2025 年 8 月 28 日发布,详细介绍了 Gemini 2.5 Flash 图像生成的核心能力、prompt 编写技巧、实操方法及注意事项,旨在帮助用户高效生成高质量图像。

一、模型核心特点与核心能力

Gemini 2.5 Flash 是原生多模态模型,从底层开始训练,可在单一统一步骤中处理文本和图像,不仅支持基础图像生成,还具备更强大的多模态功能,具体核心能力如下:
  • 文本到图像(Text-to-image):通过简单或复杂的文本描述,生成高质量图像。
  • 图像 + 文本到图像(编辑):上传图像后,用文本提示添加、删除、修改元素,或调整风格、颜色。
  • 多图像到图像(合成与风格迁移):利用多张输入图像合成新场景,或实现风格从一张图像到另一张的迁移。
  • 迭代优化(Iterative refinement):通过对话式交互,分多轮逐步优化图像,进行细微调整。
  • 文本渲染(Text rendering):生成包含清晰、位置恰当文本的图像,适用于 logo、图表、海报等场景。

二、核心原则:写出优质 Prompt 的基础

模型的核心优势是深度语言理解,描述场景而非罗列关键词:一段具有叙事性的描述性段落,几乎总能比零散的关键词列表,生成更连贯、更优质的图像。

三、文本生成图像:6 大场景模板与示例

文本生成是最常用的图像生成方式,针对不同场景,可使用以下结构化模板,结合具体需求补充细节,提升生成效果。

1. 照片级真实场景(Photorealistic scenes)

按摄影师思维描述,明确镜头、光线、细节,引导模型生成真实感图像。
  • 模板:一张 [镜头类型] 的照片级图像,主体是 [主体描述],处于 [动作 / 表情状态],场景设定在 [环境]。画面由 [光线描述] 照亮,营造出 [氛围] 感。使用 [相机 / 镜头参数] 拍摄,突出 [核心纹理与细节]。图像比例为 [宽高比]。
  • 示例:一张特写镜头的照片级肖像,主体是年长的日本陶艺家 —— 他脸上有深深的日晒皱纹,带着温暖、洞悉一切的笑容,正仔细检查刚上釉的茶碗。场景设定在他那间充满乡村气息、洒满阳光的工作室。画面由从窗户射入的柔和黄金时刻光线照亮,凸显黏土的细腻纹理。使用 85mm 人像镜头拍摄,背景呈现柔和的虚化效果(景深)。整体氛围宁静且充满大师感,图像为垂直肖像比例。
    Nano Banana图像生成最佳指南(谷歌官方版)

2. 风格化插画与贴纸(Stylized illustrations & stickers)

明确风格、色彩、线条,若需透明背景需特别说明,适用于项目素材制作。

 

  • 模板:一张 [风格] 风格的贴纸,主体是 [主体描述],包含 [核心特征],采用 [色彩搭配]。设计需有 [线条风格] 和 [阴影风格],背景必须为白色。
  • 示例:一张卡哇伊(kawaii)风格的贴纸,主体是一只开心的小熊猫 —— 它戴着迷你竹编帽,正在啃食绿色竹叶。设计采用粗线条、清晰轮廓,搭配简单的赛璐璐阴影,色彩鲜明活泼,背景必须为白色。
Nano Banana图像生成最佳指南(谷歌官方版)

3. 图像中的精准文本(Accurate text in images)

明确需渲染的文本内容、字体风格及整体设计,确保文本清晰且符合场景需求。

 

  • 模板:为 [品牌 / 概念] 创建一张 [图像类型],包含文本 “[需渲染的文本]”,字体风格为 [字体描述]。设计整体需 [风格描述],采用 [色彩方案]。
  • 示例:为名为 “The Daily Grind” 的咖啡店创建现代简约风格 logo,文本采用简洁、粗体的无衬线字体。设计中需融入一个简约风格化的咖啡豆图标,与文本无缝结合,色彩方案为黑白。
Nano Banana图像生成最佳指南(谷歌官方版)

 

4. 产品样机与商业摄影(Product mockups & commercial photography)

突出产品细节、光线、背景,生成专业、适合电商、广告场景的产品图。

 

  • 模板:一张高分辨率、工作室灯光拍摄的产品照片,主体是 [产品描述],放置在 [背景表面 / 背景描述] 上。灯光采用 [灯光设置,如三点柔光箱设置],目的是 [灯光作用]。相机角度为 [角度类型],以突出 [产品特定特征]。图像需超写实,焦点清晰对准 [核心细节],比例为 [宽高比]。
  • 示例:一张高分辨率、工作室灯光拍摄的产品照片,主体是哑光黑色极简陶瓷咖啡杯,放置在抛光混凝土表面上。灯光采用三点柔光箱设置,营造柔和扩散的高光,消除生硬阴影。相机角度为略微抬高的 45 度角,以凸显杯子的简洁线条。图像超写实,焦点清晰对准杯口升起的蒸汽,比例为正方形。
Nano Banana图像生成最佳指南(谷歌官方版)

 

5. 极简与留白设计(Minimalist & negative space design)

明确主体位置、背景色彩,预留留白区域,适用于网站、演示文稿背景(需叠加文本)。

 

  • 模板:一张极简构图图像,单个 [主体描述] 位于画面的 [位置,如下右 / 上左]。背景是大面积空白的 [颜色] 画布,形成明显留白。光线柔和、淡雅,比例为 [宽高比]。
  • 示例:一张极简构图图像,单个精致的红色枫叶位于画面右下角。背景是大面积空白的米白色画布,预留充足留白以叠加文本。光线为左上角射入的柔和漫射光,比例为正方形。
Nano Banana图像生成最佳指南(谷歌官方版)

 

6. 序列艺术(漫画分镜 / 故事板)(Sequential art)

明确画面层次(前景、背景)、风格、文本框,生成具有叙事性的分镜或故事板。

 

  • 模板:一张 [艺术风格] 风格的漫画分镜。前景中,[角色描述及动作];背景中,[场景细节]。分镜包含 [对话框 / 标题框],文本为 “[文本内容]”。灯光营造出 [氛围] 感,比例为 [宽高比]。
  • 示例:一张粗粝的黑色电影(noir)风格漫画分镜,采用高对比度黑白墨水绘制。前景中,一名穿风衣的侦探站在闪烁的街灯下,雨水打湿了他的肩膀;背景中,荒凉酒吧的霓虹灯招牌倒映在水坑里。分镜顶部有标题框,文本为 “这座城市藏不住秘密”。灯光强烈,营造出戏剧化、阴郁的氛围,比例为横版。
Nano Banana图像生成最佳指南(谷歌官方版)

 

四、文本编辑图像:4 大实用功能(多模态核心亮点)

上传图像后,结合文本提示可实现编辑、局部修改、风格迁移等功能,充分发挥模型多模态优势。

1. 图像编辑:添加 / 删除元素

描述需修改的内容,模型会自动匹配原图风格、光线、视角,确保修改自然,且支持系列图像的风格一致性。

 

  • 模板:基于提供的 [主体] 图像,请向场景中 [添加 / 删除 / 修改][元素],确保修改后 [描述修改的融合效果]。
  • 示例:基于提供的猫咪图像,请在猫头上添加一顶小型针织巫师帽,确保帽子佩戴自然,且与照片的柔和光线相匹配。
Nano Banana图像生成最佳指南(谷歌官方版)

 

2. 局部修改(Inpainting)

指定仅修改图像中的某个元素,保持其他部分(风格、光线、构图)完全不变。

 

  • 模板:基于提供的图像,仅将 [特定元素] 修改为 [新元素 / 新描述],其他部分完全保留,不改变原图风格、光线与构图。
  • 示例:基于提供的客厅图像,仅将蓝色沙发修改为复古棕色皮质切斯特菲尔德沙发,保留房间其他部分(包括沙发上的抱枕和灯光)不变。
Nano Banana图像生成最佳指南(谷歌官方版)

 

3. 风格迁移(Style transfer)

上传照片,指定目标艺术风格,模型会保留原图构图,用目标风格重新渲染内容。

 

  • 模板:将提供的 [主体] 照片,转换为 [艺术家 / 艺术风格] 的艺术风格。保留原图构图,用 [风格元素描述] 进行渲染。
  • 示例:将提供的现代城市夜间街道照片,转换为文森特・梵高《星夜》的艺术风格。保留原图中建筑和汽车的构图,用旋转的厚涂笔触、深蓝与亮黄的鲜明配色渲染所有元素。
Nano Banana图像生成最佳指南(谷歌官方版)

 

4. 高级合成:多图融合(Advanced composition)

上传多张图像,指定需提取的元素及融合方式,生成全新合成场景,适用于产品样机、创意拼贴。

 

  • 模板:融合提供的多张图像元素生成新图像:提取第一张图像中的 [元素 1],与第二张图像中的 [元素 2] 结合,最终场景为 [最终场景描述]。
  • 示例:生成专业电商时尚照片:提取第一张图像中的蓝色花卉连衣裙,让第二张图像中的女性模特穿着该连衣裙,生成模特穿着连衣裙的全身写实照片,并调整光线和阴影以匹配户外环境。
Nano Banana图像生成最佳指南(谷歌官方版)

 

五、最佳实践:提升效果的 7 个技巧

  1. 极致具体:细节越丰富,控制度越高。避免 “奇幻盔甲” 这类模糊描述,改用 “装饰华丽的精灵板甲,刻有银叶花纹,高领设计,肩甲呈猎鹰翅膀形状”。
  2. 修复角色一致性偏差:若多轮迭代后角色特征偏移,可重新开启对话,用详细描述重新定义角色,保持一致性。
  3. 提供背景与意图:说明图像用途,如 “为高端极简护肤品牌设计 logo”,比单纯 “设计 logo” 效果更好。
  4. 迭代优化:不期待一次生成完美图像,利用对话功能微调,例如 “很好,但能否让光线更暖一些?”“其他不变,将角色表情调整得更严肃”。
  5. 使用 “语义否定提示”:不用 “不要有汽车” 这类否定表述,改用正面描述 “一条空旷无人的街道,无任何车辆痕迹”。
  6. 控制宽高比:编辑图像时,模型通常保留原图比例;若需特定比例,可在 prompt 中明确(如 “不改变原图宽高比”);若上传多图比例不同,模型默认采用最后一张图的比例;若需自定义比例,可上传一张对应尺寸的参考图作为提示。
  7. 控制镜头视角:用摄影 / 电影术语定义构图,如广角镜头、微距镜头、低角度视角、85mm 人像镜头、倾斜角度等,精准控制最终画面。

 

原文链接:访问查看

© 版权声明

相关文章

暂无评论

暂无评论...