Hello 大家好,我是日码未来,夜探AI的开发者鹿先森,用生产力革命,为十万开拓者打开AI财富新大陆。

今日凌晨两点(2025年3月26日),OpenAI直播放大招,GPT-4o原生文生图功能全面开放!这场对谷歌Gemini 2.5的精准狙击战,把AI图像生成赛道卷出了新高度。

划重点:所有用户免费开放(包括免费版!),现在打开ChatGPT就能玩转这些高级功能,从此你不需要在Sora中画图了,也不需要用DALL·E 3了。

简单来说,就是一句话或者一张图,就能让GPT-4o帮你生成超逼真图片!

多模态生图:从文字到图像的无缝衔接

GPT-4o多模态生图功能的核心突破,在于其原生融合的端到端架构。用户仅需通过文字描述或上传图片,即可驱动系统生成专业级视觉内容。相较于传统需要切换DALL·E 3或Stable Diffusion等独立模型的繁琐流程,GPT-4o通过统一的多模态大脑实现了输入-理解-生成的全链路贯通。这种深度集成不仅将创作耗时压缩至1分钟级别,更通过语义理解与视觉生成的原子级耦合,让创意落地过程如同对话般自然。

例如,直接给GPT-4o一个提示词

在一个俯瞰海湾大桥的房间里,用手机拍摄的玻璃白板的宽图像。视野显示一名女性正在写作,穿着一件带有大型 OpenAl 标志的T恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。

GPT-4o能迅速生成符合预期的图像。

摄影师的自拍视角,当她转身与他击掌

怎么样,玻璃白板上的英文都如此的逼真,你是否感到震惊?

技术突破:自回归模式的图像生成

GPT-4o生图引擎的背后,是一项突破性的技术创新。不同于传统的扩散模型(Diffusion Model)从噪声中逐步还原图像,GPT-4o采用了“自回归”(autoregressive)生成方式。这种方法模仿了人类写作的逻辑,从图像的左上角开始逐步绘制至右下角,每一步都基于前一步的内容进行预测和扩展。这种生成模式显著提升了图像细节的精准度,尤其是在复杂文字呈现(如广告牌/书本排版)和几何结构控制(建筑/工业设计)方面表现尤为出色。

GPT-4o作为原生多模态架构的最新迭代,本次升级在文生图领域的技术突破主要体现在以下核心维度

拆解GPT-4o文生图能力跃迁

一、文本渲染

创建一张逼真的图片,其中两个 20 多岁的女巫(一个染着灰色挑染发,另一个留着长长的波浪形赤褐色头发)正在阅读路牌。

背景:纽约州威廉斯堡的一条随机街道上的一条城市街道,一根柱子上完全覆盖着许多详细的路牌(例如,街道清扫时间、停车许可证要求、车辆分类、拖车规则),中间还有一些荒谬的标志:(将其改写为合法的路牌)“C 区禁止女巫使用扫帚停车”和“仅允许魔毯装卸(15 分钟限制)”和“仅允许驯鹿凭许可证停车(12 月 24 日至 25 日)违反者将被列入淘气名单。”路标位于街道的右侧。请勿重复标志。标志必须逼真。

人物:一个女巫拿着扫帚,> 另一个拿着卷起的魔毯。他们站在前景中,背对着镜头,头部微微倾斜,仔细观察路标。

从背景到前景的构图:街道 + 停放的汽车 + 建筑物 -> 路标 -> 女巫。人物必须距离拍摄镜头最近的位置

根据上面的提示词就可以生成令人难以置信的街道标志图片

二、多轮对话

由于图像生成现在是 GPT-4o 的原生功能,您可以通过自然对话来优化图像。GPT-4o 可以在聊天环境中基于图像和文本进行构建,从而确保始终保持一致性。例如,如果您正在设计视频游戏角色,那么在您进行优化和实验的过程中,该角色的外观在多次迭代中保持一致。

可以看到浣熊在多次迭代中始终是保持一致的

三、遵循指令

GPT‑4o 的图像生成遵循详细的提示,注重细节。其他系统在处理约 5-8 个对象时会遇到困难,而 GPT‑4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定可以实现更好的控制。

一张正方形图片,包含一个 4 行 4 列的网格,网格上有 16 个对> 象,背景为白色。从左到右,从上到下。列表如下:

  1. 一颗蓝色的星星

  2. 红色三角形

  3. 绿色正方形

  4. 粉色圆圈

  5. 橙色沙漏

  6. 紫色无限符号

  7. 黑白圆点领结

  8. 扎染“42”

  9. 一只戴着黑色棒球帽的橙色猫

  10. 一张带有宝箱的地图

  11. 一双活动眼珠

  12. 一个竖起大拇指的表情符号

  13. 一把剪刀

  14. 一只蓝白相间的长颈鹿

  15. 用草书写的“OpenAI”一词

  16. 一道彩虹色的闪电

四、情境学习

GPT‑4o 可以分析和学习用户上传的图像,将其细节无缝集成到其上下文中以指导图像生成。

现在把它放在一张在纽约市拍摄的照片中。

五、世界知识

原生图像生成使 4o 能够将其知识链接到文本和图像之间,从而产生一个感觉更智能、更高效的模型。

以活泼的水彩风格创建不同类型鲸鱼的教育海报。使背景为纯白色。

六、照片写实主义和风格

通过对反映各种图像风格的图像进行训练,模型可以令人信服地创建或转换图像。

马就在海天相接的地平线上。使用三分法来定位马。马的大小是整个图像的 1%,因为相机距离拍摄对象很远。相机视图非常接近地面/海洋,就像虫眼视图一样。马就在海天相接的地方奔跑

目前,GPT-4o 图像生成已经作为ChatGPT中的默认图像生成器使用了,包括:Plus、Pro、Team和Free版本,Enterprise和Edu版本也会很快推出。同时Sora中也可以使用。

好了,大家可以去试试了。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐