本文整理自 OpenAI Podcast 对 ImageGen 2.0 研究员 Kenji Hata 与产品负责人 Adele Li 的访谈,由有道龙虾总结和发布。

主持人 Andrew Mayne 在 OpenAI 播客中邀请了 ImageGen 2.0 的核心团队成员——研究员 Kenji Hata 和产品负责人 Adele Li,深入探讨了这个新一代图像生成模型为何被称为"图像生成领域的文艺复兴"。

从投资人到 AI 产品经理:Adele 的跨界之路

Adele Li 在加入 OpenAI 之前一直从事投资行业,曾在 Redpoint Ventures 投资 AI 和软件公司。大约两年前加入 OpenAI,最初负责数据和计算基础设施,后来逐渐转向产品侧,过去半年一直在负责 ImageGen 产品。

她认为产品经理的核心就是"做需要做的事"。对于 ImageGen 来说,特别之处在于需要同时调动多种能力:与研究人员协作、分析市场机会、理解用户需求。

“现在的市场和我们一年前发布 ImageGen 1.0 时已经完全不同了。市面上有多个图像生成工具,ChatGPT 本身也发生了巨大变化。思考 ImageGen 的演进及其在 ChatGPT 中的角色,让我非常兴奋。”

研究员 Kenji:从音频项目到图像生成

Kenji Hata 同样在大约两年前加入 OpenAI,第一个项目是一个音频相关的工作。后来他逐渐参与到 ImageGen 1.0 的开发中,最终全职投入这个项目。

发布两周:每周超过 15 亿张图像

ImageGen 2.0 发布后的两周内,使用量增长了超过 50%。目前每周在 ChatGPT 上生成的图像超过 15 亿张

全球范围内出现了多种病毒式趋势:

  1. 亚洲地区的色彩分析和贴纸
  2. 美国地区的蜡笔和涂鸦风格
  3. 大量涌现的创意用例

Adele 表示,这展现了模型的动态范围,也说明用户能够几乎立即直观地感受到模型的进步。

“如果 DALL-E 是石器时代,ImageGen 2.0 就是文艺复兴”

这是团队在发布视频中提出的一个核心比喻。Kenji 和 Adele 从多个维度解释了这一判断:

文本渲染的重大突破

早期模型在图像中渲染文字时效果糟糕,连 “OpenAI” 这样简单的词都会变成类似"黑猩猩涂鸦"的效果。ImageGen 2.0 现在可以渲染大段文字,文字内容准确、排版合理。

多语言能力

模型在多种语言下的文本渲染能力大幅提升,亚洲和欧洲用户对这些进步反响热烈。

照片级真实感

这是团队最重视的改进方向之一。Kenji 回忆道,当模型训练的早期 checkpoint 采样出第一张图像时,团队立刻意识到:“这比 ImageGen 1 好太多了。”

“就是从一张海边女性的照片开始。我们对比了新旧模型的输出,毫无疑问——这是一个巨大的飞跃。从那种光滑、理想化的杂志封面风格,变成了真正的优质照片质感。”

任意宽高比支持

模型现在可以生成任意宽高比的图像,这催生了许多有趣的应用:

  1. 超宽的全景图
  2. 细长的书签设计
  3. 360 度全景视图(ChatGPT 已支持在 360 环境中查看这些图像)

主持人 Andrew 分享了他的第一次尝试:把经典的"狗打扑克"画作做成 360 度全景,让自己仿佛成为画中的狗之一。

从 5 个到 100 个:模型能力的稳步增长

Kenji 分享了一个内部测试方法:让 GPT 列出 100 个随机物品,然后交给图像生成器,看能正确渲染多少个。

  1. DALL-E 3 时代:大约能渲染 5 到 8 个
  2. ImageGen 1:大约 16 个
  3. ImageGen 1.5:稳定达到 25 到 36 个
  4. ImageGen 2.0:几乎能全部正确渲染 100 个

这种稳步增长并非偶然,而是每一代迭代积累的必然结果。

为什么用户想要"不完美"?

一个有趣的现象是,ImageGen 2.0 发布后,最火的趋势之一是用它生成看起来"很粗糙"的微软画图风格图像。

Adele 对此的解读很精彩:

“这需要很高的智能才能创造出’不完美’的东西。”

她指出,当前消费者对 AI 的核心诉求有三个关键词:真实性、不完美、怀旧感。人们希望用 AI 来展现自己有趣、搞怪的一面,而不仅仅是完美的专业形象。

“通过 AI 进行自我表达,这是我们非常兴奋的方向。让用户展现出以前可能无法呈现的自己,这也是我们公司的使命之一。”

技术揭秘:如何同时做到更聪明、更快?

从 DALL-E 时代需要等待一个小时才能生成一张图,到现在 ChatGPT 中几乎实时出图,ImageGen 2.0 在能力大幅提升的同时还保持了速度。Kenji 分享了几个关键因素:

  1. Token 效率优化:让模型用更少的 token 产出高质量图像
  2. 后训练阶段的创新:不仅让模型理解世界知识(科学、概念、数学等),还要理解什么样的输出"美"、什么样的输出"真实"
  3. 美学模型的打造:目标是成为当前市场上最强的美学模型,无论输出是专业内容还是个人创作

有趣的内部测试用例

团队成员分享了各自偏好的测试方法:

  1. Adele 的"我我我测试":用 100 张自己和朋友、家人的照片,让大家摆出滑稽姿势,每人配一张生日卡片。这个测试不仅检验模型能力,还测试 ChatGPT 是否能理解个性化上下文
  2. Kenji 的网格测试:让模型渲染大量随机物品的网格,从 5 个到 100 个,追踪能力提升
  3. 经典测试——倒橙汁的女人:团队成员 Divya 最喜欢的测试,检验人体和物体交互的真实感
  4. 半满的酒杯:ImageGen 1/1.5 时代的经典难题,酒杯边缘会折叠,现在已被完全攻克

提示词的两种风格

Andrew 回忆了自己在 DALL-E 时代的经历:自认为是"提示词工程师",写了个"太空中的浣熊"就沾沾自喜。但看到真正的艺术家用自己的专业语言与模型交互时,效果远超他的想象。

Kenji 和 Adele 表示,团队与一群艺术家密切合作开发了这个模型,从艺术家、设计师、营销人员等不同职业中汲取灵感,并将最佳实践融入到模型交互方式中。

提示技巧

  1. 上传灵感图片:模型能出色地捕捉参考图片的"精神"并转化为输出
  2. 使用 Thinking 模式:在 Thinking 或 Pro 模型中,ImageGen 可以搜索网页、分析文件、使用工具,产出更高质量的图像
  3. 开放式的提示:让模型自己去探索和推理
  4. 明确指定美学风格:Kenji 偏好极简主义信息图风格

生产力用例的崛起

Kenji 指出,研究团队一直认为图像生成过去更多是娱乐用途,但现在正在向生产力工具转变:

  1. 信息图表:文本渲染能力的大幅提升打开了大量生产力场景
  2. 教育:一位生物学教授用模型生成了研究生级别的教科书插图,内容完全准确
  3. 个性化学习:教师可以用模型为每个学生创建符合其语言风格和偏好的学习材料
  4. 内部演示:团队内部演示中超过 50% 的幻灯片现在用 ImageGen 制作

专业工作流的渗透

Adele 分享了来自不同行业用户的反馈:

  1. 房地产经纪人:用 ImageGen 为公寓生成房源展示和虚拟布置
  2. YouTube 创作者:用于缩略图和宣传内容
  3. 顶级艺术家:用它与粉丝互动
  4. 作家:自动生成社交媒体横幅和宣传材料

“如果你从事视觉和创意行业,ImageGen 就是你的专业工具箱中的一个’外挂’。它应该成为每个人日常工作流的一部分。”

ImageGen + Codex:零到一打造应用

ImageGen 和 Codex 的结合被团队视为一个强大的交叉领域:

  1. 用户先用 ImageGen 设计网站概念图或应用界面
  2. 再把设计交给 Codex 实现
  3. 从设计到代码,全流程 AI 驱动

Andrew 分享了他的亲身经历:让 Codex 基于 ImageGen 生成的概念图为自己的网站做 redesign,然后在 Codex 的 Pets 功能中,让 AI 自动生成游戏角色精灵图。

“这感觉就像魔法。”

角色一致性和多图像生成

ImageGen 2.0 在多图像一致性方面表现出色:

  1. 10 页漫画书,角色形象保持一致
  2. 多页幻灯片,风格统一
  3. 角色设定表,不同姿势同一角色

Andrew 表示,以前实现这些功能需要很复杂的工作流,现在只需要生成角色表,然后喂回模型,让它在不同场景中使用同一角色即可。

未来方向:创意智能体

Adele 透露了团队对 ImageGen 未来的愿景——创意智能体(Creative Agent):

  1. 作为你的创意助手,与你并肩工作
  2. 理解你的工作方式和偏好
  3. 成为你的私人室内设计师、私人建筑师、私人婚礼策划师
  4. 在单张图像中融合科学、艺术、建筑等所有知识

“我们还处于非常早期的阶段。下一个阶段是创建能够与你协作的创意智能体。”

总结

ImageGen 2.0 不仅仅是一个更好的图像生成模型,它代表了一种新的范式:

  1. 从娱乐到生产力:信息图表、教育材料、专业设计
  2. 从模糊到精准:文本渲染、照片级真实感、任意宽高比
  3. 从单一到多元:多语言、多风格、多场景
  4. 从工具到伙伴:与 Codex 结合,从设计到代码的全流程

正如 Adele 所说:“如果 DALL-E 是石器时代,ImageGen 2.0 就是文艺复兴。“而这个文艺复兴,才刚刚开始。