4秒出图、10秒成片，Google上线两个轻量创作模型

夕小瑶

52人浏览 · 2026-07-02 14:47:24

夕小瑶 · 2026-07-02 14:47:24 发布

如果你是Gemini的重度用户，大概率昨天还在等Google的3.5 Pro。

这事儿从5月19日的I/O就开始吊胃口——Google当时官宣了Gemini 3.5 Pro，把发布窗口定在6月。可6月30日，眼看要到月底最后一天了，3.5 Pro也没有出现。

据外媒报道，它被推迟到了7月，理由是“根据早期企业测试反馈，还在打磨编码能力、token效率和长任务表现”，Google官方对此不予置评。。

卡着6月最后一天，Google倒是上线了两个新东西——

图像模型Nano Banana 2 Lite

视频模型Gemini Omni Flash

一个主打快，一个主打省。

说好的正餐没等到，厨房先端出来两盘创意菜。是敷衍，还是另有算盘？

◈两个模型，一条流水线

先说清楚这俩模型是什么吧。

Nano Banana 2 Lite，技术代号Gemini 3.1 Flash-Lite Image，4秒出一张1K图，单价可以压到0.034美元。它是大名鼎鼎Nano Banana系列的最新衍生款，整个家族里最快、最便宜的型号。

定位上，这个模型适合做一些快速视觉草图、高频A/B测试出图。

如果你做一个AI应用，用户每次点击要等15秒才能出图，流失率高得心疼。那Nano Banana 2 Lite就是来解决这个问题的——4秒就出图。

性能上，Nano Banana 2 Lite拿到了Elo 1255的分数，排在第五，强于香蕉pro。作为一个主打低成本的模型，这个名次还可以。

Gemini Omni Flash则是全新“Omni”家族的第一个成员，定位是对话式编辑视频。

你可以在保留原片运镜和节奏的前提下完成局部修改。通过Interactions API，最多支持三轮连续编辑，每一轮都保留前面的上下文。

Google官方这个demo效果很不错，一个女生对着手机拍摄，Omni Flash为她的视频逐步叠加特效——从手机屏幕里拉出一个3D气球文字、把水从屏幕“倒”进杯子里——三轮编辑，每轮都建立在上一轮的结果上，角色、光线、物理逻辑都保持一致。

不过对话式编辑不是Omni Flash独有的本事。字节跳动Seedance 2.0同样支持多镜头对话式编辑，可灵3.0、即梦也都有对应的方案。

Omni Flash的差异化，更多在于统一两个字：文本、图片、音频、视频被当成同一套多模态理解来处理，再加上Gemini自带的世界知识打底，以及直接嵌进YouTube Shorts、Search这些十亿级流量入口的分发能力。

而且，谷歌俩新模型甚至可以直接拼成一条流水线：

先用Nano Banana 2 Lite几秒钟出一张定妆图，再喂给Omni Flash把它“变活”，然后用自然语言多轮修改。

Google甚至做了三个demo应用来展示这个工作流——

Anywhere

（自拍换地标+生成视频）：上传一张自拍，NB2 Lite把你P到全球各地地标前，点一下Omni Flash就把静态图变成动态视频；

（房间设计方案+视频预览）：拍一张房间照片，自动生成多种室内设计方案，选中后一键转为视频看效果；

Omni Product Studio

（产品图转电商视频）：把静态产品图直接转成电商级视频广告

这几套组合已经直接内置进Gemini App、Google Flow、YouTube Shorts和YouTube Create，免费开放。

◈价格横评

价格方面，Nano Banana 2 Lite是最快最便宜的Gemini图像模型——

Nano Banana 2 Lite：0.034美元/张——速度最快，4秒出图，有编辑能力
Nano Banana 2：0.067美元/张——画质和编辑能力的均衡之选，延迟4-8秒
Nano Banana Pro：0.134美元/张——复杂场景、极致细节，10-20秒出图

此外，OpenAI的GPT Image 2采用token计价，折算下来1024×1024中等画质大约0.053美元/张，高画质约0.211美元/张。

视频这边，Omni Flash的0.10美元/秒，Google自己拿来对标的是Veo 3.1 Fast——同价。

但如果把OpenAI Sora 2 Standard拉过来比，720p档位同样是0.10美元/秒，两家其实打了个平手。

更明显的价差在中国厂商这边：字节跳动即梦、快手可灵这类产品，5秒视频定价普遍在0.4美元上下，折算每秒超不多0.1美元——横向看，Omni Flash的“性价比”招牌一般。

◈社区的反应，是真的分裂

发布之后，开发者社区的反馈也不统一。

正面声音集中在成本和效率。Google开发者关系团队的Paige Bailey发推说，“NB2 Lite已经是我做图的默认选项了——质量很高，价格只是零头。”

Twitter上也有开发者评论“喜欢Google一直把用它模型开发的成本往下打”。企业侧的动作更实在：WPP、Figma、Invideo、Artlist都是早期接入方，Adobe直接把这两个模型接进了Firefly。

但另一头，V2EX和知乎上同步出现了吐槽：

复杂版式下的中文文字渲染依然会出错，生成图里偶尔还有六根手指的老毛病；高峰期排队能到30秒以上，和“4秒出图”的招牌不太相符；水彩、油画这类艺术风格的迁移也不够稳。

Omni Flash自己在文档里也承认了短板——不支持音频参考，不支持场景延展，3秒以内的视频参考“API接受但模型还处理不好”。

也有一部分开发者的态度更强硬：这些都不是我真正想要的东西，我要3.5 Pro！

◈配角，还是另一种主角

回到最初那个问题：Google为什么在3.5 Pro跳票的当口，选择推两个“轻量级”模型救场？

比较合理的解释是，这根本不是救场，而是两条并行的产品逻辑。

旗舰模型解决的是能力天花板的问题，考验的是耐心；而Nano Banana 2 Lite和Omni Flash解决的是另一个问题：“够不够快、够不够便宜、能不能嵌进已有工作流”——这恰恰是Figma、Adobe这类工具公司，以及绝大多数中小开发者每天在意的事。

到了2026年中，头部模型之间的质量差距已经被大幅压缩。Sora、Kling、Veo，画质都到了够用，甚至惊艳的水平。天花板还在涨，但边际收益递减。

至于3.5 Pro的天花板在哪？我们再等等吧。

不过话说回来——AI这行，最后赢的往往不是跑得最高的那个，而是先跑进你工作流的那个。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

基于阿里云百炼AI+阿里云服务器搭建智能办公系统

内容：仅提供搭建技术指导方案，具体使用场景需个人开发阿里云百炼AI可以用在任何模型，任何环境上面，同样可以部署在VS code 里面的Claude code，openclaw 等等ai智能体里面。（有学生认证纯白嫖300块钱token）搭建需要成本：阿里云服务器68一年（自动配备Hermes，或者Open claw自己选）。阿里云百炼AI（包含最新模型千问3.6plus，或者deepseekv4，

智能体开发者社区

股票研究信息处理：AI工具在资讯、财报与复盘环节的辅助作用

股票研究中的AI工具，核心是提升信息处理效率、规范研究流程、沉淀体系化资料，而非替代投资判断。扣子app适合做研究中枢，管理资料与协作；DeepSeek、Kimi、Perplexity 分别覆盖深度解读、资讯筛选、实时检索；ChatGPT 辅助思路梳理；Power BI、酷表 ChatExcel 专注数据处理与可视化。新手从轻量化工具起步，快速掌握信息处理流程；深度研究搭配专业工具，提升分析深度；

智能体开发者社区

AI工具在股票研究与信息整理中的应用指南

AI工具在股票研究中，核心价值是提升信息处理效率、辅助资料整理与逻辑梳理，而非替代投资判断。扣子app适合做研究中枢与协作平台，DeepSeek、Kimi、Perplexity、夸克AI适合资讯与文本处理，Power BI、酷表 ChatExcel适合数据处理与可视化。不同工具各有侧重，投资者可根据自身研究习惯、场景需求灵活搭配，所有工具仅作研究辅助，不构成任何投资建议，最终决策仍需结合自身判断与