OpenAI 于 2025年 3 月 25日发布了 GPT-4o 的原生生图能力。与以往的生成模型不同，GPT-4o 专注于生成能够有效沟通和传递信息的图像，例如标志、图表和信息图。其核心优势在于精确的文本渲染、准确理解并执行用户指令，以及充分利用 GPT-4o 的知识库和对话上下文。通过对在线图像和文本的联合分布进行训练，并结合积极的后训练，GPT-4o 具备了出色的视觉流畅性，能够生成实用、连贯且符合语境的图像。此外，GPT-4o 还支持通过自然对话进行图像优化，并能从用户上传的图像中学习，实现更智能和高效的图像生成。

实用性: GPT-4o 图像生成旨在超越装饰性应用，成为一种实用的沟通工具，适用于创建标志、图表等信息类图像。
文本渲染: GPT-4o 能够精确地在图像中渲染文本，实现有效的视觉沟通，这得益于其将精确符号与图像融合的能力。
上下文连贯性: 由于图像生成是 GPT-4o 的原生功能，用户可以通过自然对话来优化图像，并在对话上下文中保持图像的一致性，例如在设计视频游戏角色时，角色外观可以在多次迭代中保持连贯。
细节处理: GPT-4o 能够处理更复杂的提示，可以处理 10-20 个不同的对象，而其他系统通常只能处理 5-8 个对象。
情境学习: GPT-4o 可以分析和学习用户上传的图像，并将这些细节融入到图像生成过程中。
照片写实性和风格: 模型在反映各种图像风格的图像上进行训练，使其能够创建或转换具有说服力的图像。
局限性: 当前模型在编辑图像的特定部分（如错别字）时效果不佳，并且在保持面部编辑的一致性方面存在 bug，但 OpenAI 正在努力解决这些问题。
安全性: 所有生成的图像都带有 C2PA 元数据，以标识图像来自 GPT-4o，并提供透明度。OpenAI 还构建了一个内部搜索工具，以验证内容是否来自其模型。同时，系统会阻止违反内容政策的图像生成请求，并对涉及真实人物的图像施加更严格的限制。
访问和可用性: GPT-4o 图像生成功能已开始向 Plus、Pro、Team 和 Free 用户推出，作为 ChatGPT 中的默认图像生成器，Enterprise 和 Edu 用户也将很快获得访问权限。开发者也将在未来几周内通过 API 使用 GPT-4o 生成图像。生成图像可能需要长达一分钟的时间，因为模型会创建更细致的图片。

推出 4o 图像生成

通过一个原生多模态模型解锁实用且有价值的图像生成，该模型能够产出精确、准确、照片般真实的输出。

在 OpenAI，我们一直认为图像生成应成为我们语言模型的一项主要能力。因此，我们将我们迄今为止最先进的图像生成器内置到了 GPT-4o 中。其结果是——图像生成不仅美观，而且实用。

示例

白板会议

一张用手机拍摄的宽幅照片，展示了一个玻璃白板，房间可以俯瞰海湾大桥。视野中显示一位女士正在书写，她穿着一件印有大号 OpenAI logo 的 T 恤。笔迹看起来自然且略显潦草，我们能看到摄影师的倒影。

文字内容如下：

（左侧）

“跨模态转换：

假设我们直接建模

p(文本, 像素, 声音) [公式]

用一个大型自回归 transformer。

优点：

* 结合了广阔世界知识的图像生成

* 更高层次的文本渲染

* 原生的上下文学习能力

* 统一的后训练流程

缺点：

* 不同模态间的比特率不同

* 计算非自适应”

（右侧）

“解决方法：

* 对压缩表示进行建模

* 将自回归先验与强大的解码器结合”

在白板的右下角，她画了一个图示：

“tokens -> [transformer] -> [diffusion] -> pixels” (词元 -> [transformer] -> [扩散模型] -> 像素)

oai_image-generation_whiteboard1

8 次生成中的最佳效果

摄影师的自拍视角，她转过身来与他击掌

oai_image-generation_whiteboard2

8 次生成中的最佳效果

有意义的文字

在一个中世纪风格家庭的冰箱上，用磁性诗歌拼出的文字：

第 1 行: “A picture” (一幅画)

第 2 行: “is worth” (胜过)

第 3 行: “a thousand words,” (千言万语,)

第 4 行: “but sometimes” (但有时) [此处有较大空隙]

第 5 行: “in the right place” (在恰当位置的)

第 6 行: “can elevate” (能够提升)

第 7 行: “its meaning.” (它的意义。)

这名男子右手拿着 “a few” (几个) 的词块，左手拿着 “words” (词语) 的词块。

hero image 2-picture worth a thousand words

5 次生成中的最佳效果

连环画

制作一个四格漫画的图像，边框周围留一些空白：

第一格：一只小蜗牛在一个豪华汽车展厅的柜台前。销售员为了看到它，身体使劲探过桌子。第二格：蜗牛的特写，表情非常严肃。它说：“我要你们最快的跑车……并且我希望你们在车门、引擎盖和车顶上都喷涂大写的字母‘S’。” 第三格：销售员挠着头。“嗯……我们可以做到，但为什么要喷 S 呢？” 第四格：画面猛然切换到一个红色的模糊身影在高速公路上飞驰。跑车上覆盖着巨大的 S。人行道上的人们指着大笑：“哇！快看那辆 S-CAR (音同 es-car-go, 即蜗牛) 在跑！”

ChatGPT Image Mar 24, 2025, 08 49 15 AM

约 2 次生成中的最佳效果

科学实验

一个详细解释牛顿棱镜实验的信息图表。

newtons1

3 次生成中的最佳效果

现在生成一个第一人称视角（POV）的图像，显示一个人正在华盛顿广场公园的一个圆形咖啡桌旁，在他的笔记本上绘制这个图表。

newtons2

2 次生成中的最佳效果

现在展示同样的场景，但桌旁坐着一个得意洋洋的年轻艾萨克·牛顿，他拿着一个棱镜正在演示实验，画面中没有笔记本。

newtons3

4 次生成中的最佳效果

实用的图像生成

从最早的洞穴壁画到现代的信息图表，人类一直使用视觉图像来进行交流、说服和分析——而不仅仅是为了装饰。当今的生成模型可以变幻出超现实、令人惊叹的场景，但在处理人们用来分享和创造信息的常用图像（workhorse imagery）方面却有困难。从徽标到图表，当图像辅以指向共同语言和经验的符号时，可以传达精确的含义。

GPT-4o 图像生成擅长准确渲染文本、精确遵循提示，并利用 4o 固有的知识库和聊天上下文——包括转换上传的图像或将其用作视觉灵感。这些能力使得创建你所构想的精确图像变得更容易，帮助你通过视觉更有效地沟通，并将图像生成提升为一个兼具精确性和强大功能的实用工具。

增强的功能

我们基于网络图像和文本的联合分布训练了我们的模型，不仅学习了图像如何与语言相关联，还学习了它们彼此之间的关联。结合积极的后训练，由此产生的模型具有惊人的视觉流畅性，能够生成实用、一致且具有上下文感知能力的图像。

文本渲染

一图胜千言，但有时在恰当的位置生成几个词可以提升图像的意义。4o 将精确符号与图像融合的能力，将图像生成转变为一种视觉传达工具。

街道标志

创建一张照片般真实的图像，展示两位 20 多岁的女巫（一位是灰金色挑染发，另一位是长波浪赤褐色头发）正在阅读一个路牌。

情境：纽约威廉斯堡一条随机街道上的城市街景，有一根完全被无数详细路牌覆盖的杆子（例如，街道清扫时间、需要停车许可证、车辆分类、拖车规则），中间夹杂着几个荒谬的标志（请改写使其看起来像合法的路牌）：“C 区禁止女巫停放扫帚”、“魔毯装卸专用（限时 15 分钟）”以及“驯鹿凭许可证停放（12 月 24-25 日）\n 违者将被列入淘气名单”。路牌杆位于街道右侧。不要重复标志。标志必须看起来真实。

人物：一位女巫拿着扫帚，另一位拿着卷起的魔毯。她们位于前景，背部微侧向镜头，头部微倾，仔细查看标志。

构图（从背景到前景）：街道 + 停放的汽车 + 建筑物 -> 路牌 -> 女巫。人物必须离拍摄镜头的相机最近。

image-gen-4o-street-sign

约 8 次生成中的最佳效果

菜单

我正在马林县（Marin）开一家名为“Haein”的传统概念餐厅。它专注于使用有机、农场新鲜食材烹制的韩国料理，菜单根据时令轮换。我希望你设计一张图片——一份包含以下菜单项的菜单——强调传统/乡村风格，同时保持高档和时尚感。请同时为每道菜配上优雅的、彼得兔（peter rabbit）风格的插图。确保所有文本都正确渲染，背景为白色。

（顶部）

大酱汤 (Doenjang Jjigae - 发酵黄豆酱汤) – $18 自制大酱配本地蘑菇、豆腐和时令蔬菜，配米饭。

炖排骨 (Galbi Jjim - 炖牛短排) – $34 慢炖本地草饲牛肋排，配梨和黑蒜酱汁、时令根茎蔬菜和红枣。

烤时令鱼 – 时价 ($22-$30) 整条或鱼片的本地可持续捕捞鱼，炭火烤制，配紫苏叶包饭和自制酱料。

石锅拌饭 (Bibimbap) – $19 传统米饭配农场新鲜时令蔬菜、自制发酵辣椒酱和散养鸡蛋。

韩式白切肉 (Bossam - 传统猪肉卷) – $28 慢煮五花肉配白菜卷、牡蛎泡菜、紫苏叶和时令调味品。

（底部）甜点和饮品时令马格利米酒 (Makgeolli - Rice Wine) – $12/杯根据时令水果和花卉轮换口味（柿子、柑橘、接骨木花等）。

韩式糖饼 (Hotteok - Korean Sweet Pancake) – $9 肉桂馅煎饼配黑芝麻冰淇淋。

ChatGPT Image Mar 24, 2025, 07 55 11 AM

约 2 次生成中的最佳效果

邀请函

一张精美木质书桌上的令人愉悦的婚礼邀请函照片。卡片厚实，具有蛋壳纹理和漂亮的压花，优雅的装饰抽象地代表着这对新人，并巧妙地融入设计中。使用了图标，但很少且风格极简。排版完美。

“诚邀您莅临

期待已久的结合典礼

图像 (Image)

与

文本 (Text)

经过多年的调情与合作

它们终于合二为一。

最终在 GPT-4o 中相聚，

它们现在说着同一种语言——

在这里，低语变成杰作，

提示变成图画。

请与我们一同庆祝

这场神奇的多模态联姻

在这里，想象力无远弗届。

日期：2025 年 3 月 25 日

地点：chatgpt.com

着装要求：像素或散文 (Pixels or Prose)

爱你的，

OpenAI”

排版完美。

text rendering X invitation

约 10 次生成中的最佳效果

多轮生成

由于图像生成现在是 GPT-4o 的原生功能，你可以通过自然对话来完善图像。GPT-4o 可以在聊天上下文中基于图像和文本进行构建，确保持续性。例如，如果你正在设计一个视频游戏角色，在你进行完善和实验的多个迭代中，角色的外观将保持一致。

视频游戏

minnias cat input

给这只猫戴上侦探帽和单片眼镜

minnias-cat-2

1 次生成中的最佳效果

把这个变成用 4k 游戏引擎制作的 AAA 级视频游戏，并添加一些用户界面 (UI) 作为覆盖层，来自一个神秘角色扮演游戏 (RPG)，我们可以看到顶部的生命条和迷你地图，以及底部的法术，图标需保持一致。

minnias cat2

1 次生成中的最佳效果

更新为 16:9 比例的横向图像，在 UI 中添加更多法术，并将视觉效果缩小，以便我们看到猫在蒸汽朋克风格的曼哈顿中行走的第三人称视角，营造出像顶级 AAA 游戏中那样美丽的对比度和光影效果，使用冷色调。

minnias cat3

2 次生成中的最佳效果

创建玩家打开菜单时的界面，我们能看到猫的角色资料及其装备，以及显示活动任务的另一页（内容应与我们在图像中描述的宇宙世界观相符）。

minnias cat4

8 次生成中的最佳效果

具体诗 (Concrete poem)

在高档蛋壳纹理卡片上创作具体诗：

从最早的洞穴壁画到现代的信息图表，人类一直使用视觉图像来进行交流、说服和分析——而不仅仅是为了装饰。当今的生成模型可以变幻出令人惊叹的远景和超现实的场景，但在处理构成大多数视觉数据用于分享和创造信息的基础实用图像方面仍然存在困难。从徽标到图表，当图像辅以指向共同语言和经验的符号时，可以传达精确的含义。

凭借这项新功能，ChatGPT 将图像生成推向成为一个兼具精确性和强大功能的实用工具。

$Screenshot 2025-03-24 at 9.10.27\u202fAM$

8 次生成中的最佳效果

展示这张卡片，但场景是在一个设计师的房间里。卡片靠近相机。

$Screenshot 2025-03-18 at 1.40.24\u202fPM$

8 次生成中的最佳效果

贴纸

你能给我做一个可爱的极简风格浣熊吃草莓的贴纸吗？使用粗白边框和透明背景。

oai sticker raccoon brown

试试不同的极简风格，用灰色的浣熊。

oai sticker raccoon gray

啊，好可爱，能在草莓上加个咬痕吗，嘴巴周围也许再加点红色的糊状物？

generate a transparent image: a raccoon with a strawberry.

指令遵循

GPT-4o 的图像生成能够细致地遵循详细的提示。虽然其他系统在处理约 5-8 个对象时会遇到困难，但 GPT-4o 可以处理多达 10-20 个不同的对象。对象与其特征和关系的更紧密绑定，实现了更好的控制。

有序的对象

一张方形图片，包含一个 4 行 4 列的网格，白色背景上放置了 16 个对象。按从左到右、从上到下的顺序排列。列表如下：

一颗蓝色的星星
一个红色的三角形
一个绿色的正方形
一个粉色的圆形
一个橙色的沙漏
一个紫色的无限符号
一个黑白波点领结
扎染风格的数字 “42”
一只戴着黑色棒球帽的橙色猫
一张带有宝藏箱的地图
一对活动假眼 (googly eyes)
一个竖起大拇指的表情符号 (emoji)
一把剪刀
一只蓝色和白色的长颈鹿
草书书写的单词 “OpenAI”
一道彩虹色的闪电

$Screenshot 2025-03-24 at 10.07.12\u202fAM$

5 次生成中的最佳效果

空城

下午时分的纽约市时代广场，没有行人、车辆或亮灯的广告牌。

$Screenshot 2025-03-24 at 10.18.39\u202fAM$

约 1 次生成中的最佳效果

没有行人、车辆或亮灯广告牌的涩谷十字路口。

$Screenshot 2025-03-24 at 10.12.04\u202fAM$

约 1 次生成中的最佳效果

红酒杯

给我看一个只剩下极少量红酒的红酒杯。

$Screenshot 2025-03-17 at 2.25.30\u202fPM$

约 1 次生成中的最佳效果

隐形大象

我们需要证据证明当前有一头隐形的大象。考虑一下大象是什么以及它在环境中会做什么，然后向我们展示这些——也许是过程中的景象——但大象本身完全不显示出来。

$Screenshot 2025-03-24 at 10.26.23\u202fAM$

创作者鸣谢：Eskcanta

数学公式

一个写有以下公式的白板：

E = mc^2

sqrt(9) = 3

(-b +/- sqrt(b^2 - 4ac)) / 2a

$Screenshot 2025-03-24 at 9.36.48\u202fPM$

约 1 次生成中的最佳效果

上下文学习 (In-context learning)

GPT-4o 能够分析和学习用户上传的图像，将其细节无缝整合到上下文中，为图像生成提供信息。

三角轮车辆

in-context-learning-prompt

以这些图片为参考，绘制一个带有三角形轮子的车辆设计图。
标注前轮、后轮，并在图表的顶部（用小号大写字母）写上：
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI. (三角轮车辆。英国专利。2025。OPENAI。)

$Screenshot 2025-03-24 at 10.41.56\u202fAM$

约 16 次生成中的最佳效果

现在把它放到一张在纽约市拍摄的照片中。

$Screenshot 2025-03-24 at 10.42.45\u202fAM$

约 16 次生成中的最佳效果

电锯

一张照片般真实的蓝色电锯图像。

ChatGPT Image Mar 24, 2025, 09 48 14 PM

1 次生成中的最佳效果

为这款电锯制作一则广告，画面是一位老奶奶在感恩节晚餐桌上切割火鸡。加上一句广告语。

ChatGPT Image Mar 24, 2025, 09 48 59 PM

4 次生成中的最佳效果

女士

$Screenshot 2025-03-24 at 10.46.58\u202fAM$

(译注：上图可能为广告语示例或另一版本广告图)

把这个场景变成一张照片。用数码单反相机 (DSLR) 拍摄。

约 8 次生成中的最佳效果

建筑

$Screenshot 2025-03-24 at 10.48.37\u202fAM$

把这个变成一张照片。

$Screenshot 2025-03-24 at 10.48.47\u202fAM$

约 4 次生成中的最佳效果

世界知识

原生的图像生成能力使得 4o 能够将其在文本和图像之间的知识联系起来，从而产生一个感觉更智能、更高效的模型。

基于代码生图

Code Example (Three.js)

<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="UTF-8" />
    <title>OpenAI Banner</title>
    <style>
      body { margin: 0; overflow: hidden; }
      canvas { display: block; }
    </style>
  </head>
  <body>
    <script type="module">
      import * as THREE from 'https://cdn.jsdelivr.net/npm/[email protected]/build/three.module.js';
      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/controls/OrbitControls.js';
      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/loaders/FontLoader.js';
      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/geometries/TextGeometry.js';

      const scene = new THREE.Scene();
      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
      const renderer = new THREE.WebGLRenderer({ antialias: true });
      renderer.setSize(window.innerWidth, window.innerHeight);
      document.body.appendChild(renderer.domElement);

      // Lighting
      const light = new THREE.AmbientLight(0xffffff, 1);
      scene.add(light);

      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
      dirLight.position.set(0, 5, 10);
      scene.add(dirLight);

      // Camera position
      camera.position.z = 20;

      // Controls
      const controls = new OrbitControls(camera, renderer.domElement);

      // Banner background
      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
      scene.add(banner);

      // OpenAI Logo texture (placeholder)
      const loader = new THREE.TextureLoader();
      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
        const logoGeometry = new THREE.PlaneGeometry(4, 4);
        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
        scene.add(logo);
      });

      // Load font and add text
      const fontLoader = new FontLoader();
      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
        const textGeometry = new TextGeometry("I am 4-o", {
          font: font,
          size: 1,
          height: 0.2,
          curveSegments: 12,
          bevelEnabled: true,
          bevelThickness: 0.02,
          bevelSize: 0.02,
          bevelOffset: 0,
          bevelSegments: 5
        });

        textGeometry.center();

        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
        scene.add(textMesh);
      });

      // Resize handler
      window.addEventListener('resize', () => {
        camera.aspect = window.innerWidth / window.innerHeight;
        camera.updateProjectionMatrix();
        renderer.setSize(window.innerWidth, window.innerHeight);
      });

      // Render loop
      function animate() {
        requestAnimationFrame(animate);
        controls.update();
        renderer.render(scene, camera);
      }

      animate();
    </script>
  </body>
</html>

请创作一幅图像，表达它对你的意义

$Screenshot 2025-03-18 at 11.46.24\u202fAM$

鸡尾酒配方

为我制作一张专业拍摄的照片级写实图表，展示我酒吧里最畅销的鸡尾酒，并在每种酒旁边标明配方。

将配方写在每杯酒前面的手写卡片上。

卡片是棕色的，文字是黑色的。

背景是白色的。

标题是“4款最受欢迎的鸡尾酒”

ChatGPT Image Mar 24, 2025, 11 20 33 AM

最佳结果（1选1）

天气信息图

制作一个视觉信息图，解释旧金山为何多雾

ChatGPT Image Mar 24, 2025, 12 51 05 PM

最佳结果（3选1）

鲸鱼指南

创作一张关于不同种类鲸鱼的教育海报，采用活泼的水彩风格。背景设为纯白色。

whales

最佳结果（3选1）

抹茶制作说明

制作一张色彩非常丰富的孔版印刷风格图片，展示如何制作抹茶

$Screenshot 2025-03-24 at 10.08.43\u202fPM$

最佳结果（3选1）

照片写实主义与风格

通过对反映各种图像风格的大量图像进行训练，该模型能够令人信服地创建或转换图像。

一张狗仔队风格的抓拍照片，卡尔·马克思匆忙走过美国购物中心的停车场，一边回头看，表情惊惶，试图躲避拍照。他手里紧抓着几个装满奢侈品的光面购物袋。他的外套在风中飘动，其中一个袋子正在摇摆，好像他正大步流星。模糊的背景中有汽车和发光的购物中心入口，以强调动感。相机的闪光灯眩光使图像部分过曝，给人一种混乱的小报感觉。一张狗仔队风格的抓拍照片…

一只猫凝视着街上的水坑，但它的倒影是一只老虎，两个倒影都被水中的涟漪逼真地扭曲了一只猫凝视着街上的水坑…

生成一张坦率的、宝丽来风格的照片，拍摄的是四个二十出头的不同族裔的朋友在一家破旧的潜水酒吧里。灯光采用非常刺眼的直射闪光灯，造成锐利的阴影，并使照片具有非常过曝、复古的即时相机感觉。颜色应略微柔和，唤起怀旧的、2000年代初的派对氛围。审美风格是随意的emo风格。没有边框、标志或标牌。他们身后有一面有趣的墙，上面有一些轻微的涂鸦。图像质量应非常清晰和细致（几乎没有噪点）。气氛应该是傻气和混乱的。他们要么在开玩笑地做鬼脸，要么在微笑，要么假装看起来很强硬。其中一人应该用一种傻气的、开玩笑的方式锁住朋友的头。他们的嘴巴是闭着的。生成一张坦率的、宝丽来风格的照片…

生成一张照片级写实的图像，展示 2006 年夏天某个周六多伦多的农贸市场，这是一个美丽的六月下旬日子，人们在购物和吃三明治。焦点应该是一个穿着牛仔背带裤、正在啜饮草莓香蕉冰沙的年轻亚裔女孩——其余部分可以模糊处理。照片应该让人联想到 2006 年的数码相机会拍摄出的效果，带有像打印照片会有的时间戳。宽高比应为 3:2 生成一张照片级写实的图像…

模糊的老式模拟胶片照片，拍摄的是停在小街旁的汽车，宁静的夜晚。创作者署名：Roope Rainisto 模糊的老式模拟胶片照片…

创作一张超写实的图片，描绘这 4 只生物在多洛雷斯公园的野餐毯上打扑克，画面拉远，照片级写实。那只虎斑长毛猫手里拿着牌；它旁边是 2 个高高的竖直黑色筹码（带条纹），因为它一直在赢钱。虎斑猫的瞳孔又大又可爱，它低头仔细看着自己的牌，非常专注。那只傻乎乎的黑猫全押了。两只狗正探过猫的肩膀看它们的牌。除了暴露的一张方块 3 之外，所有的牌都是背面朝上且背面颜色相同。每只生物面前都有一小堆筹码，但黑猫全押了。两只狗弃牌了。所有筹码都来自同一套，所有牌的背面颜色都相同。照片级写实，用 iPhone 拍摄，原始格式。创作一张超写实的图片…

最佳结果（1选1）| 在纯色柔和背景上生成一幅肖像广告。左上角，大约向下三分之一处，用纯白色无衬线字体写着 “ChatGPT image generation”。右下角，大约向上三分之一处，用纯白色无衬线字体写着 “Form follows function”。背景中放一张非常光滑、现代的雕塑照片。它应该从左侧的线框草图逐渐过渡到右侧完全照片写实的样子。在最底部，用中等偏小的字体写上 “This entire poster was generated by ChatGPT image generation.” 最佳结果（1选1）| 在纯色柔和背景上生成一幅肖像广告…

一位孤独的宇航员漂浮在巨大的空间站内，将旋转的星系画在一张失重悬浮在空中的巨大画布上。他们的画笔留下宇宙尘埃的轨迹，他们的宇航服沾染着星云色彩的色调。他们的头盔摘掉了，露出的眼睛里映照着遥远行星的倒影。玻璃窗外，一个黑洞若隐若现，将光线扭曲成迷人的图案。一位孤独的宇航员漂浮在巨大的空间站内，将旋转的星系画在一张失重悬浮在空中的巨大画布上…

一匹马从右向左飞驰过广阔平静的海面的写实照片，准确描绘了其蹄下的飞溅、反射和微妙的涟漪图案。夸张马的动作，但其他一切都应保持静止、宁静，以显示与马的力量形成对比。构图简洁，具有电影感。宽广的全景构图展示了遥远的地平线。大气透视创造了深度。画面拉远，使马与浩瀚的海洋相比显得微不足道。马正好位于海天相接的地平线上。使用三分法定位马匹。由于相机离主体非常远，马的大小仅占整个图像大小的 1%。相机视角非常贴近地面/海洋，如同虫眼视角。马正在海天相接的地方飞驰。一匹马从右向左飞驰过广阔平静的海面的写实照片…

一个逼真的水下场景，海豚游过废弃地铁车厢的窗户，气泡和详细的水流被精确模拟。

一个水果碗的照片，由真实水果和微型行星（木星、土星、火星、地球）混合组成，保持了与原始照片一致的逼真反射、光照和阴影，构图简洁，纹理真实，渲染清晰细致一个水果碗的照片，由真实水果和微型行星…

局限性

我们的模型并非完美。我们意识到目前存在多个局限性，我们将在初次发布后通过模型改进来努力解决这些问题。

cropping

我们注意到 GPT-4o 偶尔会过度裁剪较长的图像，例如海报，尤其是在底部附近。

Hallucinations

与我们的其他文本模型一样，图像生成有时也会编造信息，尤其是在低上下文提示中。

High binding problems

当生成依赖其知识库的图像时，模型可能难以同时准确渲染超过 10-20 个不同的概念，例如完整的元素周期表。

Precise graphing

Multilingual text rendering

模型有时在渲染非拉丁语系语言时会遇到困难，字符可能不准确或产生幻觉，尤其是在更复杂的情况下。

Editing precision

我们注意到，编辑图像生成特定部分（例如拼写错误）的请求并非总能有效修正，并且可能以非预期的方式改变图像的其他部分或引入更多错误。我们目前正在努力提高模型的编辑精度。

我们意识到一个错误，即模型在保持用户上传面部编辑一致性方面存在困难，但预计此问题将在一周内修复。

Dense information with small text

众所周知，该模型在被要求以非常小的尺寸渲染细节信息时会遇到困难。

安全性

根据我们的模型规范，我们的目标是通过支持有价值的用例（如游戏开发、历史探索和教育）来最大化创作自由，同时保持严格的安全标准。与此同时，阻止违反这些标准的请求仍然至关重要。以下是我们正在努力实现安全、高实用性内容并支持用户更广泛创意表达的其他风险领域的评估。

通过 C2PA 和内部可逆搜索进行来源追溯 所有生成的图像都带有 C2PA 元数据，该元数据将识别图像来自 GPT-4o，以提供透明度。我们还构建了一个内部搜索工具，利用生成内容的技术属性来帮助验证内容是否来自我们的模型。

阻止不良内容 我们将继续阻止生成可能违反我们内容政策的图像的请求，例如儿童性虐待材料和性相关的深度伪造内容。当涉及真实人物的图像时，我们对可以创建何种图像有更严格的限制，尤其是在裸露和图形暴力方面有非常强大的保障措施。与任何发布一样，安全工作永无止境，而是一个持续投入的领域。随着我们对该模型在现实世界中的使用有了更多了解，我们将相应地调整我们的政策。

有关我们方法的更多信息，请访问图像生成的GPT-4o 系统卡附录⁠。

利用推理能力加强安全性 类似于我们的审慎对齐⁠工作，我们训练了一个推理大型语言模型（LLM），使其能够直接处理由人类编写且可解释的安全规范。我们在开发过程中使用这个推理 LLM 来帮助我们识别和解决政策中的模糊之处。结合我们的多模态进步以及为 ChatGPT 和 Sora 开发的现有安全技术，这使我们能够根据我们的政策审核⁠输入文本和输出图像。

访问与可用性

4o 图像生成从今天开始向 Plus、Pro、Team 和 Free 用户推出，作为 ChatGPT 中的默认图像生成器，并将很快向 Enterprise 和 Edu 用户开放访问权限。它也可在 Sora 中使用。对于那些对 DALL·E 情有独钟的用户，仍然可以通过专门的 DALL·E GPT 访问它。

开发者很快将能通过 API 使用 GPT-4o 生成图像，访问权限将在未来几周内推出。

使用 GPT-4o 创建和自定义图像就像聊天一样简单——只需描述您的需求，包括任何具体细节，如宽高比、使用十六进制代码指定精确颜色或透明背景。由于此模型创建的图片更细致，图像渲染时间较长，通常最多需要一分钟。

直播回放

作者

OpenAI

领导层

Gabriel Goh: 图像生成 Jackie Shannon: ChatGPT 产品 Mengchao Zhong, Wayne Chang: ChatGPT 工程 Rohan Sahai: Sora 产品与工程 Brendan Quinn, Tomer Kaftan: 推理 Prafulla Dhariwal: 多模态组织

研究

基础研究 Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

核心研究 Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

研究贡献者 Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

模型行为 Laurentia Romaniuk

多模态组织 Andrew Gibiansky, Yang Lu

数据

数据负责人 Gildas Chabot, James Park Lennon

数据团队 Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

审核员 Hazel Byrne, Jennifer Luckenbill, Mariano López

人类数据顾问 Long Ouyang

扩展

推理负责人 Brendan Quinn, Tomer Kaftan

推理团队 Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh

应用

ChatGPT 产品负责人 Jackie Shannon

ChatGPT 工程负责人 Mengchao Zhong, Wayne Chang

产品设计负责人 Matt Chan

数据科学 Xiaolin Hao

ChatGPT 团队 Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Sora 产品负责人 Rohan Sahai, Wesam Manassra

Sora 产品与工程团队 Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

安全团队

安全负责人 Somay Jain

安全团队 Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson

战略团队

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

市场营销与传播团队

传播与市场营销负责人 Minnia Feng, Natalie Summers, Taya Christianson

传播团队 Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

设计与创意团队

负责人 Kendra Rimbach, Veit Moeller

设计团队 Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

特别鸣谢

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

推出 4o 图像生成#

示例#

白板会议#

有意义的文字#

连环画#

科学实验#

实用的图像生成#

增强的功能#

文本渲染#

街道标志#

菜单#

邀请函#

多轮生成#

视频游戏#

具体诗 (Concrete poem)#

贴纸#

指令遵循#

有序的对象#

空城#

红酒杯#

隐形大象#

数学公式#

上下文学习 (In-context learning)#

三角轮车辆#

电锯#

女士#

建筑#

世界知识#

基于代码生图#

鸡尾酒配方#

天气信息图#

鲸鱼指南#

抹茶制作说明#

照片写实主义与风格#

局限性#

安全性#

访问与可用性#

直播回放#

作者#

领导层#

研究#

数据#

扩展#

应用#

Sora#

安全团队#

战略团队#

市场营销与传播团队#

设计与创意团队#

特别鸣谢#

推出 4o 图像生成

示例

白板会议

有意义的文字

连环画

科学实验

实用的图像生成

增强的功能

文本渲染

街道标志

菜单

邀请函

多轮生成

视频游戏

具体诗 (Concrete poem)

贴纸

指令遵循

有序的对象

空城

红酒杯

隐形大象

数学公式

上下文学习 (In-context learning)

三角轮车辆

电锯

女士

建筑

世界知识

基于代码生图

鸡尾酒配方

天气信息图

鲸鱼指南

抹茶制作说明

照片写实主义与风格

局限性

安全性

访问与可用性

直播回放

作者

领导层

研究

数据

扩展

应用

Sora

安全团队

战略团队

市场营销与传播团队

设计与创意团队

特别鸣谢