如果你是Gemini的重度用户,大概率昨天还在等Google的3.5 Pro。

这事儿从5月19日的I/O就开始吊胃口——Google当时官宣了Gemini 3.5 Pro,把发布窗口定在6月。可6月30日,眼看要到月底最后一天了,3.5 Pro也没有出现。

据外媒报道,它被推迟到了7月,理由是“根据早期企业测试反馈,还在打磨编码能力、token效率和长任务表现”,Google官方对此不予置评。。

卡着6月最后一天,Google倒是上线了两个新东西——

图像模型Nano Banana 2 Lite

视频模型Gemini Omni Flash

一个主打快,一个主打省。

说好的正餐没等到,厨房先端出来两盘创意菜。是敷衍,还是另有算盘?

◈两个模型,一条流水线

先说清楚这俩模型是什么吧。

Nano Banana 2 Lite,技术代号Gemini 3.1 Flash-Lite Image,4秒出一张1K图,单价可以压到0.034美元。它是大名鼎鼎Nano Banana系列的最新衍生款,整个家族里最快、最便宜的型号。

定位上,这个模型适合做一些快速视觉草图、高频A/B测试出图。

如果你做一个AI应用,用户每次点击要等15秒才能出图,流失率高得心疼。那Nano Banana 2 Lite就是来解决这个问题的——4秒就出图。

性能上,Nano Banana 2 Lite拿到了Elo 1255的分数,排在第五,强于香蕉pro。作为一个主打低成本的模型,这个名次还可以。

Gemini Omni Flash则是全新“Omni”家族的第一个成员,定位是对话式编辑视频。

你可以在保留原片运镜和节奏的前提下完成局部修改。通过Interactions API,最多支持三轮连续编辑,每一轮都保留前面的上下文。

Google官方这个demo效果很不错,一个女生对着手机拍摄,Omni Flash为她的视频逐步叠加特效——从手机屏幕里拉出一个3D气球文字、把水从屏幕“倒”进杯子里——三轮编辑,每轮都建立在上一轮的结果上,角色、光线、物理逻辑都保持一致。

不过对话式编辑不是Omni Flash独有的本事。字节跳动Seedance 2.0同样支持多镜头对话式编辑,可灵3.0、即梦也都有对应的方案。

Omni Flash的差异化,更多在于统一两个字:文本、图片、音频、视频被当成同一套多模态理解来处理,再加上Gemini自带的世界知识打底,以及直接嵌进YouTube Shorts、Search这些十亿级流量入口的分发能力。

而且,谷歌俩新模型甚至可以直接拼成一条流水线:

先用Nano Banana 2 Lite几秒钟出一张定妆图,再喂给Omni Flash把它“变活”,然后用自然语言多轮修改。

Google甚至做了三个demo应用来展示这个工作流——

  1. Anywhere

    (自拍换地标+生成视频):上传一张自拍,NB2 Lite把你P到全球各地地标前,点一下Omni Flash就把静态图变成动态视频;

  1. (房间设计方案+视频预览):拍一张房间照片,自动生成多种室内设计方案,选中后一键转为视频看效果;

  1. Omni Product Studio

    (产品图转电商视频):把静态产品图直接转成电商级视频广告

这几套组合已经直接内置进Gemini App、Google Flow、YouTube Shorts和YouTube Create,免费开放。

◈价格横评

价格方面,Nano Banana 2 Lite是最快最便宜的Gemini图像模型——

  • Nano Banana 2 Lite:0.034美元/张——速度最快,4秒出图,有编辑能力

  • Nano Banana 2:0.067美元/张——画质和编辑能力的均衡之选,延迟4-8秒

  • Nano Banana Pro:0.134美元/张——复杂场景、极致细节,10-20秒出图

此外,OpenAI的GPT Image 2采用token计价,折算下来1024×1024中等画质大约0.053美元/张,高画质约0.211美元/张。

视频这边,Omni Flash的0.10美元/秒,Google自己拿来对标的是Veo 3.1 Fast——同价。

但如果把OpenAI Sora 2 Standard拉过来比,720p档位同样是0.10美元/秒,两家其实打了个平手。

更明显的价差在中国厂商这边:字节跳动即梦、快手可灵这类产品,5秒视频定价普遍在0.4美元上下,折算每秒超不多0.1美元——横向看,Omni Flash的“性价比”招牌一般。

◈社区的反应,是真的分裂

发布之后,开发者社区的反馈也不统一。

正面声音集中在成本和效率。Google开发者关系团队的Paige Bailey发推说,“NB2 Lite已经是我做图的默认选项了——质量很高,价格只是零头。”

Twitter上也有开发者评论“喜欢Google一直把用它模型开发的成本往下打”。企业侧的动作更实在:WPP、Figma、Invideo、Artlist都是早期接入方,Adobe直接把这两个模型接进了Firefly。

但另一头,V2EX和知乎上同步出现了吐槽:

复杂版式下的中文文字渲染依然会出错,生成图里偶尔还有六根手指的老毛病;高峰期排队能到30秒以上,和“4秒出图”的招牌不太相符;水彩、油画这类艺术风格的迁移也不够稳。

Omni Flash自己在文档里也承认了短板——不支持音频参考,不支持场景延展,3秒以内的视频参考“API接受但模型还处理不好”。

也有一部分开发者的态度更强硬:这些都不是我真正想要的东西,我要3.5 Pro!

◈配角,还是另一种主角

回到最初那个问题:Google为什么在3.5 Pro跳票的当口,选择推两个“轻量级”模型救场?

比较合理的解释是,这根本不是救场,而是两条并行的产品逻辑。

旗舰模型解决的是能力天花板的问题,考验的是耐心;而Nano Banana 2 Lite和Omni Flash解决的是另一个问题:“够不够快、够不够便宜、能不能嵌进已有工作流”——这恰恰是Figma、Adobe这类工具公司,以及绝大多数中小开发者每天在意的事。

到了2026年中,头部模型之间的质量差距已经被大幅压缩。Sora、Kling、Veo,画质都到了够用,甚至惊艳的水平。天花板还在涨,但边际收益递减。

至于3.5 Pro的天花板在哪?我们再等等吧。

不过话说回来——AI这行,最后赢的往往不是跑得最高的那个,而是跑进你工作流的那个。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐