大家好,我是顾北。

你是否经历过这样的绝望:

明明心里想的是“五彩斑斓的黑”,AI 却给你生成了一坨“不可名状的糊”?

好不容易调出了一张满意的角色脸,换个场景立马“整容”,判若两人?

最让人抓狂的是,想在图片里加个简单的中文招牌,它却给你画成了谁也看不懂的“鬼画符”……

如果以上这些痛点你都感同身受,那么今天这篇文章,就是为你准备的解药。

AI 绘图早已过了“看图图个乐”的阶段,现在的竞争核心在于: 谁能精准控制模型,谁能让 AI 真正听懂人话。

最近爆火的 Nano Banana Pro 恰恰就是这样一个“懂事”的六边形战士。它不仅解决了文本渲染的千古难题,更在逻辑推理和画面一致性上实现了降维打击。

为了让你少走弯路,我熬夜整理了这篇 全网最全的实操指南 。我将带你参照官方案例 手把手入门 Nano Banana Pro 。

文章主要从以下几个方面切入,建议 先收藏,再细读 ,这绝对是你进阶路上的必修课。

1.提示词黄金法则

2.文本渲染、信息图表和视觉合成

3.角色一致性与病毒式传播的缩略图

4.利用谷歌搜索进行基础学习

5.高级编辑、修复和着色

6.维度转换(2D ↔ 3D)

7.高分辨率和纹理

8.思考与推理

9.一次性故事板和概念艺术

10.结构控制与布局指导

话不多说,上干货!!!

1

提示词黄金法则

Nano-Banana Pro 是一款“思考型”模型。它不只是匹配关键词,还能理解意图、物理原理和构图。为了获得最佳效果,请你停止使用“标签大杂烩”(例如:狗、公园、4K、逼真),并且你应该像创意总监一样进行创作。

1)别重新生成,直接修改

如果你生成的一张图已经有80%的正确率了,千万不要重新开始生成新图,而是直接在原来图片的基础上继续对话修改即可。

例如:请你在当前图片的基础上,将灯光改成日落色,并且将文字改成霓虹色。

2)使用自然语言和完整的句子

在你和模型交流的时候,你要像指导一位艺术家一样来指导它。说白了,它其实就是对你思维的放大。在指导过程中请你使用正确的语法和描述性的提示词。

错误的用法

示例:“酷车,霓虹灯,城市,夜晚,8k”

正确的用法

示例:一个极具电影感的广角镜头,展现了一辆未来主义跑车在雨夜的东京街道上疾驰。霓虹灯的光芒倒映在湿漉漉的路面和汽车的金属底盘上。

效果对比:

图片

图片

3)描述越具体越好

你写出的越是模糊的提示,越会得到千篇一律的结果。在你写提示词的时候,你要明确 主题、场景、光线和氛围 。

例如说:不要一句话描述“一位女士”,而要用“一位穿着复古香奈儿风格套装的优雅老妇人”。

想想看,你说的一位女士,模型并不知道是年轻人、还是老年人,穿衣风格也没有,可想而知,你得到的结果当然就不如意了。

一句话总结:尽可能的描述清楚你要什么。

4)提供上下文

因为 Nano Banana Pro 模型是以 Gemini 3为底座,所以它自带思考能力。所以在你描述问题的时候可以给它提供背景信息,这样有助于它做出合乎逻辑的决定。

例如: “ 为一本巴西高端美食食谱 创作一张三明治的图片 。”(该模型将推断出专业的摆盘、浅景深和完美的照明)。

图片

2

文本渲染、信息图表和视觉合成

在三个月前的Nano Banana 1.0 版本中,生成文字是硬伤,尤其是对中文的支持能力。

好在,在 Nano Banana Pro 这个版本中,这个硬伤已经被完美解决了。

另外,Nano Banana Pro 一个核心的功能就是能够渲染清晰易读、风格化的文本内容,并且能够将复杂的信息转化为清晰易懂的图片,方便你更好地理解。

例如:就拿昨天 DeepSeek-V3.2模型的正式发布来说,其中一篇技术文章晦涩难懂,那么你可以使用它来帮你转换成信息图的形式,方便你快速获取论文中说的什么内容。

提示词:请你根据我提供的附件内容,制作一份简洁现代的信息图,并且高度概括附件内容的亮点。在生成信息图时,必须使用中文。

图片

复古信息图:“ 制作一张复古的、20世纪50年代风格的信息图,介绍美国餐馆的历史。信息图应包含‘食物’、‘点唱机’和‘装饰’等不同部分。确保所有文字清晰易读,并符合当时的风格。 ”

图片

技术图: “绘制一份正投影蓝图,以平面图、立面图和剖面图的形式描述该建筑。用专业建筑字体清晰标注‘北立面’和‘正门’。格式为16:9。”

图片

白板总结(教育): 请用手绘白板图的形式概括“Transformer 神经网络架构”的概念,使其适用于大学讲座。编码器和解码器模块请使用不同颜色的马克笔,并清晰地标明“自注意力”和“前馈”。

图片

3

任务一致性+病毒式传播的封面图

Nano Banana Pro 最多可以支持 14 张参考图像(其中6张为高保真图像)。

这一点可以将特定人物或角色放在新的场景中,而不会造成面部变形。

三个最佳实践

身份锁定: 明确说明:“保持人物面部特征与图像 1 完全相同。”

表情/动作: 描述在保持身份的同时,情绪或姿势的 变化 。

病毒式构图: 将主题与醒目的图形和文字一次性结合起来。

病毒式传播缩略图(标识 + 文字 + 图形)

使用图 1 中的人物设计一个病毒式传播的视频缩略图。 面部一致性: 保持人物面部特征与图 1 完全相同,但改变其表情,使其看起来兴奋和惊讶。 动作: 将人物置于画面左侧,手指指向画面右侧。 主体: 在画面右侧放置一张美味的牛油果吐司高清图片。 图形: 添加一个醒目的黄色箭头,连接人物的手指和吐司。 文字: 在画面中间叠加醒目的流行风格文字:“3 分钟搞定!”(3 分钟搞定!)。使用粗白线描边并添加阴影。 背景: 模糊明亮的厨房背景。高饱和度和高对比度。

图片

“毛茸茸的朋友”情景(群体一致性)

[输入3张不同毛绒玩具的图片] 请创作一个有趣的十页故事,讲述这三个毛茸茸的小伙伴去热带度假的故事。故事情节跌宕起伏,扣人心弦,最终以温馨的结局收尾。 三个角色的服装和形象要保持一致 ,但他们的表情和角度在十幅图中要有所变化。每幅图中每个角色只能出现一次。

图片

品牌素材生成

[输入一张产品图片]

“请创作9张精美的时尚大片,风格应如同获奖时尚杂志大片。请以此为品牌风格参考,但需在风格上进行细微调整和丰富变化,以展现专业设计感。请一次创作一张,共创作九张图片。”

图片

4

巧用谷歌搜索

Nano Banana Pro 可以使用 Google 搜索,基于实时的数据、事件或事实的验证生成图像,从而减少对时效性话题的幻觉问题。

最佳实践

要求提供动态数据(天气、股票、新闻)的可视化图表。

模型会在生成图像之前对搜索结果进行“思考”或“推理”。

数据可视化

根据当前的旅游趋势,制作一张信息图,展示2025年游览美国国家公园的最佳时间。

图片

5

编辑、修复和着色

Nano Banana Pro 模型擅长通过对话提问的下形式进行复杂的编辑。

包括:图像修复(移除/添加对象),修复(修复旧照片),着色(漫画/黑白照片)和风格互换。

背景去除和补绘

“将照片背景中的游客移除,并用与周围环境相协调的合理纹理(鹅卵石和店面)填充空间。”

图片

漫画/漫画着色

[输入黑白漫画画面] “给这幅漫画分镜上色。使用鲜艳的动漫风格配色方案。确保能量光束的照明效果呈现霓虹蓝色,并且角色的服装颜色与其官方配色一致。”

图片

背景替换

[插入一张伦敦公交车站广告的图片]

“将这个概念本地化到东京背景,包括将标语翻译成日语。将背景改为夜晚熙熙攘攘的涩谷街道。”

图片

季节转换

[输入一张夏季房屋的图片]

“把这个场景变成冬天。保持房屋建筑风格不变,但在屋顶和院子里加上积雪,并将光线改为寒冷阴沉的午后。”

图片

6

维度转换(2D ↔ 3D)

Nano Banana Pro 一个强大的新功能。

可以将任意二维图纸转为为三维可视化图像。

对于室内设计师、建筑师和表情包的创作者来说,岂不美滋滋。

2D 平面图转 3D 室内设计图

“根据上传的二维平面图,生成一张专业的室内设计展示图。 布局: 采用拼贴画形式,顶部为一张大型主图(客厅广角视图),下方为三张较小图片(主卧、家庭办公室和三维俯视图)。 风格: 所有图片均采用现代简约风格,搭配温暖的橡木地板和米白色墙面。 质量: 照片级渲染,柔和的自然光。”

图片

2D 转 3D 表情包

把‘一切都好’狗狗表情包做成逼真的 3D 渲染图。保持构图不变,但让狗狗看起来像毛绒玩具,火焰看起来像真实的火焰。

图片

007

高分辨率和纹理精修

Nano-Banana Pro 支持原生 1K 至 4K 图像生成。这对于处理精细纹理或制作大幅面打印作品尤为有用。

4K 壁纸

利用原生高保真输出,打造令人叹为观止、充满氛围的苔藓森林地面环境。掌控复杂的光照效果和细腻的纹理,确保每一根苔藓和每一束光线都以像素级分辨率渲染,满足 4K 壁纸的要求。”

图片

美食解构(思维模式)

制作一张超逼真的美食芝士汉堡信息图,将其拆解,展现烤过的奶油蛋卷面包的质地、肉饼煎至焦香的外皮以及闪闪发光的融化芝士。并为每一层标注其风味特征。

图片

8

思考与推理

Nano-Banana Pro 默认采用“思考”模式,它会生成一些中间的思考图像(不计费),以便在渲染最终输出之前优化构图。这有助于进行数据分析和解决视觉问题。

解方程

“请在白板上用 C 语言求解方程组 log_{x^2+1}(x^4-1)=2。请清晰地写出解题步骤。”

图片

视觉推理

“分析这张房间图片,生成一张‘之前’的图片,展示房间在施工期间可能的样子,包括框架和未完成的石膏板。”

图片

9

一键生成分镜和概念设计

你无需网格即可生成连续的艺术图或故事板,从而确保在一次操作中实现连贯的叙事流程。这种方法也常用于“电影概念艺术”(例如,即将上映电影的虚假泄露图)。

请创作一个引人入胜的九部分故事,包含九张图片,故事中需出现一位女性和一位男性,他们正在拍摄一部屡获殊荣的豪华行李箱广告。故事应有跌宕起伏的情感,最后以一位女性手持品牌标识的优雅照片结尾。 男女主角的身份和着装必须保持一致 ,但可以从不同的角度和距离拍摄。请逐一生成图片。请确保每张图片均为 16:9 横向格式。

图片

10

结构控制和布局指导

输入图像不仅限于角色参考或待编辑对象。你可以使用它们来严格控制最终输出的 构图和布局 。对于需要将草图、线框图或特定网格布局转化为精美素材的设计师来说,这无疑是一项颠覆性的创新。

草图 -> 广告

请根据这张草图为[产品]创作一则广告

图片

线框草图 -> 原型图

请按照以下准则创建一个[产品]模型。

图片

像素艺术与 LED 显示屏

请绘制一个独角兽像素画,使其完美契合这幅 64x64 的网格图像。使用高对比度的颜色。

图片

网格精灵图

一位女性在无人机上做后空翻的精灵图,3x3 网格,逐帧动画序列,正方形宽高比。请完全按照附件参考图像的结构进行绘制。”

(提示:您可以提取每个单元格并制作成 GIF 动画)

图片

0011

最后

为了帮助大家更好地掌握这些技能,我把自己从业以来整理的所有 AI 学习资料,汇编成了一份《10万字 AI 使用手册》。

这里面不仅包含了今天的 Nano Banana Pro 教程,还有写作、AI工具、AI编程、AI智能体等多个领域的 AI 实战技巧。

图片

👇 关注gzh,后台回复“领取资料” ,即可免费领取这份 10 万字的 AI 实战宝典。

如果觉得这篇教程对你有启发, 随手点个赞、在看、转发三连吧~ 

谢谢你耐心看完我的文章~

参考: https://x.com/GoogleAIStudio/article/1994480371061469306

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐