OpenAI 播客：ImageGen 2.0——从石器时代到文艺复兴的图像生成飞跃

本文整理自 OpenAI Podcast 对 ImageGen 2.0 研究员 Kenji Hata 与产品负责人 Adele Li 的访谈，由有道龙虾总结和发布。

主持人 Andrew Mayne 在 OpenAI 播客中邀请了 ImageGen 2.0 的核心团队成员——研究员 Kenji Hata 和产品负责人 Adele Li，深入探讨了这个新一代图像生成模型为何被称为"图像生成领域的文艺复兴"。

从投资人到 AI 产品经理：Adele 的跨界之路

Adele Li 在加入 OpenAI 之前一直从事投资行业，曾在 Redpoint Ventures 投资 AI 和软件公司。大约两年前加入 OpenAI，最初负责数据和计算基础设施，后来逐渐转向产品侧，过去半年一直在负责 ImageGen 产品。

她认为产品经理的核心就是"做需要做的事"。对于 ImageGen 来说，特别之处在于需要同时调动多种能力：与研究人员协作、分析市场机会、理解用户需求。

“现在的市场和我们一年前发布 ImageGen 1.0 时已经完全不同了。市面上有多个图像生成工具，ChatGPT 本身也发生了巨大变化。思考 ImageGen 的演进及其在 ChatGPT 中的角色，让我非常兴奋。”

研究员 Kenji：从音频项目到图像生成

Kenji Hata 同样在大约两年前加入 OpenAI，第一个项目是一个音频相关的工作。后来他逐渐参与到 ImageGen 1.0 的开发中，最终全职投入这个项目。

发布两周：每周超过 15 亿张图像

ImageGen 2.0 发布后的两周内，使用量增长了超过 50%。目前每周在 ChatGPT 上生成的图像超过 15 亿张。

全球范围内出现了多种病毒式趋势：

亚洲地区的色彩分析和贴纸
美国地区的蜡笔和涂鸦风格
大量涌现的创意用例

Adele 表示，这展现了模型的动态范围，也说明用户能够几乎立即直观地感受到模型的进步。

“如果 DALL-E 是石器时代，ImageGen 2.0 就是文艺复兴”

这是团队在发布视频中提出的一个核心比喻。Kenji 和 Adele 从多个维度解释了这一判断：

文本渲染的重大突破

早期模型在图像中渲染文字时效果糟糕，连 “OpenAI” 这样简单的词都会变成类似"黑猩猩涂鸦"的效果。ImageGen 2.0 现在可以渲染大段文字，文字内容准确、排版合理。

多语言能力

模型在多种语言下的文本渲染能力大幅提升，亚洲和欧洲用户对这些进步反响热烈。

照片级真实感

这是团队最重视的改进方向之一。Kenji 回忆道，当模型训练的早期 checkpoint 采样出第一张图像时，团队立刻意识到：“这比 ImageGen 1 好太多了。”

“就是从一张海边女性的照片开始。我们对比了新旧模型的输出，毫无疑问——这是一个巨大的飞跃。从那种光滑、理想化的杂志封面风格，变成了真正的优质照片质感。”

任意宽高比支持

模型现在可以生成任意宽高比的图像，这催生了许多有趣的应用：

超宽的全景图
细长的书签设计
360 度全景视图（ChatGPT 已支持在 360 环境中查看这些图像）

主持人 Andrew 分享了他的第一次尝试：把经典的"狗打扑克"画作做成 360 度全景，让自己仿佛成为画中的狗之一。

从 5 个到 100 个：模型能力的稳步增长

Kenji 分享了一个内部测试方法：让 GPT 列出 100 个随机物品，然后交给图像生成器，看能正确渲染多少个。

DALL-E 3 时代：大约能渲染 5 到 8 个
ImageGen 1：大约 16 个
ImageGen 1.5：稳定达到 25 到 36 个
ImageGen 2.0：几乎能全部正确渲染 100 个

这种稳步增长并非偶然，而是每一代迭代积累的必然结果。

为什么用户想要"不完美"？

一个有趣的现象是，ImageGen 2.0 发布后，最火的趋势之一是用它生成看起来"很粗糙"的微软画图风格图像。

Adele 对此的解读很精彩：

“这需要很高的智能才能创造出’不完美’的东西。”

她指出，当前消费者对 AI 的核心诉求有三个关键词：真实性、不完美、怀旧感。人们希望用 AI 来展现自己有趣、搞怪的一面，而不仅仅是完美的专业形象。

“通过 AI 进行自我表达，这是我们非常兴奋的方向。让用户展现出以前可能无法呈现的自己，这也是我们公司的使命之一。”

技术揭秘：如何同时做到更聪明、更快？

从 DALL-E 时代需要等待一个小时才能生成一张图，到现在 ChatGPT 中几乎实时出图，ImageGen 2.0 在能力大幅提升的同时还保持了速度。Kenji 分享了几个关键因素：

Token 效率优化：让模型用更少的 token 产出高质量图像
后训练阶段的创新：不仅让模型理解世界知识（科学、概念、数学等），还要理解什么样的输出"美"、什么样的输出"真实"
美学模型的打造：目标是成为当前市场上最强的美学模型，无论输出是专业内容还是个人创作

有趣的内部测试用例

团队成员分享了各自偏好的测试方法：

Adele 的"我我我测试"：用 100 张自己和朋友、家人的照片，让大家摆出滑稽姿势，每人配一张生日卡片。这个测试不仅检验模型能力，还测试 ChatGPT 是否能理解个性化上下文
Kenji 的网格测试：让模型渲染大量随机物品的网格，从 5 个到 100 个，追踪能力提升
经典测试——倒橙汁的女人：团队成员 Divya 最喜欢的测试，检验人体和物体交互的真实感
半满的酒杯：ImageGen 1/1.5 时代的经典难题，酒杯边缘会折叠，现在已被完全攻克

提示词的两种风格

Andrew 回忆了自己在 DALL-E 时代的经历：自认为是"提示词工程师"，写了个"太空中的浣熊"就沾沾自喜。但看到真正的艺术家用自己的专业语言与模型交互时，效果远超他的想象。

Kenji 和 Adele 表示，团队与一群艺术家密切合作开发了这个模型，从艺术家、设计师、营销人员等不同职业中汲取灵感，并将最佳实践融入到模型交互方式中。

提示技巧

上传灵感图片：模型能出色地捕捉参考图片的"精神"并转化为输出
使用 Thinking 模式：在 Thinking 或 Pro 模型中，ImageGen 可以搜索网页、分析文件、使用工具，产出更高质量的图像
开放式的提示：让模型自己去探索和推理
明确指定美学风格：Kenji 偏好极简主义信息图风格

生产力用例的崛起

Kenji 指出，研究团队一直认为图像生成过去更多是娱乐用途，但现在正在向生产力工具转变：

信息图表：文本渲染能力的大幅提升打开了大量生产力场景
教育：一位生物学教授用模型生成了研究生级别的教科书插图，内容完全准确
个性化学习：教师可以用模型为每个学生创建符合其语言风格和偏好的学习材料
内部演示：团队内部演示中超过 50% 的幻灯片现在用 ImageGen 制作

专业工作流的渗透

Adele 分享了来自不同行业用户的反馈：

房地产经纪人：用 ImageGen 为公寓生成房源展示和虚拟布置
YouTube 创作者：用于缩略图和宣传内容
顶级艺术家：用它与粉丝互动
作家：自动生成社交媒体横幅和宣传材料

“如果你从事视觉和创意行业，ImageGen 就是你的专业工具箱中的一个’外挂’。它应该成为每个人日常工作流的一部分。”

ImageGen + Codex：零到一打造应用

ImageGen 和 Codex 的结合被团队视为一个强大的交叉领域：

用户先用 ImageGen 设计网站概念图或应用界面
再把设计交给 Codex 实现
从设计到代码，全流程 AI 驱动

Andrew 分享了他的亲身经历：让 Codex 基于 ImageGen 生成的概念图为自己的网站做 redesign，然后在 Codex 的 Pets 功能中，让 AI 自动生成游戏角色精灵图。

“这感觉就像魔法。”

角色一致性和多图像生成

ImageGen 2.0 在多图像一致性方面表现出色：

10 页漫画书，角色形象保持一致
多页幻灯片，风格统一
角色设定表，不同姿势同一角色

Andrew 表示，以前实现这些功能需要很复杂的工作流，现在只需要生成角色表，然后喂回模型，让它在不同场景中使用同一角色即可。

未来方向：创意智能体

Adele 透露了团队对 ImageGen 未来的愿景——创意智能体（Creative Agent）：

作为你的创意助手，与你并肩工作
理解你的工作方式和偏好
成为你的私人室内设计师、私人建筑师、私人婚礼策划师
在单张图像中融合科学、艺术、建筑等所有知识

“我们还处于非常早期的阶段。下一个阶段是创建能够与你协作的创意智能体。”

总结

ImageGen 2.0 不仅仅是一个更好的图像生成模型，它代表了一种新的范式：

从娱乐到生产力：信息图表、教育材料、专业设计
从模糊到精准：文本渲染、照片级真实感、任意宽高比
从单一到多元：多语言、多风格、多场景
从工具到伙伴：与 Codex 结合，从设计到代码的全流程

正如 Adele 所说：“如果 DALL-E 是石器时代，ImageGen 2.0 就是文艺复兴。“而这个文艺复兴，才刚刚开始。

从投资人到 AI 产品经理：Adele 的跨界之路#

研究员 Kenji：从音频项目到图像生成#

发布两周：每周超过 15 亿张图像#

“如果 DALL-E 是石器时代，ImageGen 2.0 就是文艺复兴”#

文本渲染的重大突破#

多语言能力#

照片级真实感#

任意宽高比支持#

从 5 个到 100 个：模型能力的稳步增长#

为什么用户想要"不完美"？#

技术揭秘：如何同时做到更聪明、更快？#

有趣的内部测试用例#

提示词的两种风格#

提示技巧#

生产力用例的崛起#

专业工作流的渗透#

ImageGen + Codex：零到一打造应用#

角色一致性和多图像生成#

未来方向：创意智能体#

总结#