本文整理自 OpenAI Podcast 对 ImageGen 2.0 研究员 Kenji Hata 与产品负责人 Adele Li 的访谈,由有道龙虾总结和发布。
主持人 Andrew Mayne 在 OpenAI 播客中邀请了 ImageGen 2.0 的核心团队成员——研究员 Kenji Hata 和产品负责人 Adele Li,深入探讨了这个新一代图像生成模型为何被称为"图像生成领域的文艺复兴"。
从投资人到 AI 产品经理:Adele 的跨界之路
Adele Li 在加入 OpenAI 之前一直从事投资行业,曾在 Redpoint Ventures 投资 AI 和软件公司。大约两年前加入 OpenAI,最初负责数据和计算基础设施,后来逐渐转向产品侧,过去半年一直在负责 ImageGen 产品。
她认为产品经理的核心就是"做需要做的事"。对于 ImageGen 来说,特别之处在于需要同时调动多种能力:与研究人员协作、分析市场机会、理解用户需求。
“现在的市场和我们一年前发布 ImageGen 1.0 时已经完全不同了。市面上有多个图像生成工具,ChatGPT 本身也发生了巨大变化。思考 ImageGen 的演进及其在 ChatGPT 中的角色,让我非常兴奋。”
研究员 Kenji:从音频项目到图像生成
Kenji Hata 同样在大约两年前加入 OpenAI,第一个项目是一个音频相关的工作。后来他逐渐参与到 ImageGen 1.0 的开发中,最终全职投入这个项目。
发布两周:每周超过 15 亿张图像
ImageGen 2.0 发布后的两周内,使用量增长了超过 50%。目前每周在 ChatGPT 上生成的图像超过 15 亿张。
全球范围内出现了多种病毒式趋势:
- 亚洲地区的色彩分析和贴纸
- 美国地区的蜡笔和涂鸦风格
- 大量涌现的创意用例
Adele 表示,这展现了模型的动态范围,也说明用户能够几乎立即直观地感受到模型的进步。
“如果 DALL-E 是石器时代,ImageGen 2.0 就是文艺复兴”
这是团队在发布视频中提出的一个核心比喻。Kenji 和 Adele 从多个维度解释了这一判断:
文本渲染的重大突破
早期模型在图像中渲染文字时效果糟糕,连 “OpenAI” 这样简单的词都会变成类似"黑猩猩涂鸦"的效果。ImageGen 2.0 现在可以渲染大段文字,文字内容准确、排版合理。
多语言能力
模型在多种语言下的文本渲染能力大幅提升,亚洲和欧洲用户对这些进步反响热烈。
照片级真实感
这是团队最重视的改进方向之一。Kenji 回忆道,当模型训练的早期 checkpoint 采样出第一张图像时,团队立刻意识到:“这比 ImageGen 1 好太多了。”
“就是从一张海边女性的照片开始。我们对比了新旧模型的输出,毫无疑问——这是一个巨大的飞跃。从那种光滑、理想化的杂志封面风格,变成了真正的优质照片质感。”
任意宽高比支持
模型现在可以生成任意宽高比的图像,这催生了许多有趣的应用:
- 超宽的全景图
- 细长的书签设计
- 360 度全景视图(ChatGPT 已支持在 360 环境中查看这些图像)
主持人 Andrew 分享了他的第一次尝试:把经典的"狗打扑克"画作做成 360 度全景,让自己仿佛成为画中的狗之一。
从 5 个到 100 个:模型能力的稳步增长
Kenji 分享了一个内部测试方法:让 GPT 列出 100 个随机物品,然后交给图像生成器,看能正确渲染多少个。
- DALL-E 3 时代:大约能渲染 5 到 8 个
- ImageGen 1:大约 16 个
- ImageGen 1.5:稳定达到 25 到 36 个
- ImageGen 2.0:几乎能全部正确渲染 100 个
这种稳步增长并非偶然,而是每一代迭代积累的必然结果。
为什么用户想要"不完美"?
一个有趣的现象是,ImageGen 2.0 发布后,最火的趋势之一是用它生成看起来"很粗糙"的微软画图风格图像。
Adele 对此的解读很精彩:
“这需要很高的智能才能创造出’不完美’的东西。”
她指出,当前消费者对 AI 的核心诉求有三个关键词:真实性、不完美、怀旧感。人们希望用 AI 来展现自己有趣、搞怪的一面,而不仅仅是完美的专业形象。
“通过 AI 进行自我表达,这是我们非常兴奋的方向。让用户展现出以前可能无法呈现的自己,这也是我们公司的使命之一。”
技术揭秘:如何同时做到更聪明、更快?
从 DALL-E 时代需要等待一个小时才能生成一张图,到现在 ChatGPT 中几乎实时出图,ImageGen 2.0 在能力大幅提升的同时还保持了速度。Kenji 分享了几个关键因素:
- Token 效率优化:让模型用更少的 token 产出高质量图像
- 后训练阶段的创新:不仅让模型理解世界知识(科学、概念、数学等),还要理解什么样的输出"美"、什么样的输出"真实"
- 美学模型的打造:目标是成为当前市场上最强的美学模型,无论输出是专业内容还是个人创作
有趣的内部测试用例
团队成员分享了各自偏好的测试方法:
- Adele 的"我我我测试":用 100 张自己和朋友、家人的照片,让大家摆出滑稽姿势,每人配一张生日卡片。这个测试不仅检验模型能力,还测试 ChatGPT 是否能理解个性化上下文
- Kenji 的网格测试:让模型渲染大量随机物品的网格,从 5 个到 100 个,追踪能力提升
- 经典测试——倒橙汁的女人:团队成员 Divya 最喜欢的测试,检验人体和物体交互的真实感
- 半满的酒杯:ImageGen 1/1.5 时代的经典难题,酒杯边缘会折叠,现在已被完全攻克
提示词的两种风格
Andrew 回忆了自己在 DALL-E 时代的经历:自认为是"提示词工程师",写了个"太空中的浣熊"就沾沾自喜。但看到真正的艺术家用自己的专业语言与模型交互时,效果远超他的想象。
Kenji 和 Adele 表示,团队与一群艺术家密切合作开发了这个模型,从艺术家、设计师、营销人员等不同职业中汲取灵感,并将最佳实践融入到模型交互方式中。
提示技巧
- 上传灵感图片:模型能出色地捕捉参考图片的"精神"并转化为输出
- 使用 Thinking 模式:在 Thinking 或 Pro 模型中,ImageGen 可以搜索网页、分析文件、使用工具,产出更高质量的图像
- 开放式的提示:让模型自己去探索和推理
- 明确指定美学风格:Kenji 偏好极简主义信息图风格
生产力用例的崛起
Kenji 指出,研究团队一直认为图像生成过去更多是娱乐用途,但现在正在向生产力工具转变:
- 信息图表:文本渲染能力的大幅提升打开了大量生产力场景
- 教育:一位生物学教授用模型生成了研究生级别的教科书插图,内容完全准确
- 个性化学习:教师可以用模型为每个学生创建符合其语言风格和偏好的学习材料
- 内部演示:团队内部演示中超过 50% 的幻灯片现在用 ImageGen 制作
专业工作流的渗透
Adele 分享了来自不同行业用户的反馈:
- 房地产经纪人:用 ImageGen 为公寓生成房源展示和虚拟布置
- YouTube 创作者:用于缩略图和宣传内容
- 顶级艺术家:用它与粉丝互动
- 作家:自动生成社交媒体横幅和宣传材料
“如果你从事视觉和创意行业,ImageGen 就是你的专业工具箱中的一个’外挂’。它应该成为每个人日常工作流的一部分。”
ImageGen + Codex:零到一打造应用
ImageGen 和 Codex 的结合被团队视为一个强大的交叉领域:
- 用户先用 ImageGen 设计网站概念图或应用界面
- 再把设计交给 Codex 实现
- 从设计到代码,全流程 AI 驱动
Andrew 分享了他的亲身经历:让 Codex 基于 ImageGen 生成的概念图为自己的网站做 redesign,然后在 Codex 的 Pets 功能中,让 AI 自动生成游戏角色精灵图。
“这感觉就像魔法。”
角色一致性和多图像生成
ImageGen 2.0 在多图像一致性方面表现出色:
- 10 页漫画书,角色形象保持一致
- 多页幻灯片,风格统一
- 角色设定表,不同姿势同一角色
Andrew 表示,以前实现这些功能需要很复杂的工作流,现在只需要生成角色表,然后喂回模型,让它在不同场景中使用同一角色即可。
未来方向:创意智能体
Adele 透露了团队对 ImageGen 未来的愿景——创意智能体(Creative Agent):
- 作为你的创意助手,与你并肩工作
- 理解你的工作方式和偏好
- 成为你的私人室内设计师、私人建筑师、私人婚礼策划师
- 在单张图像中融合科学、艺术、建筑等所有知识
“我们还处于非常早期的阶段。下一个阶段是创建能够与你协作的创意智能体。”
总结
ImageGen 2.0 不仅仅是一个更好的图像生成模型,它代表了一种新的范式:
- 从娱乐到生产力:信息图表、教育材料、专业设计
- 从模糊到精准:文本渲染、照片级真实感、任意宽高比
- 从单一到多元:多语言、多风格、多场景
- 从工具到伙伴:与 Codex 结合,从设计到代码的全流程
正如 Adele 所说:“如果 DALL-E 是石器时代,ImageGen 2.0 就是文艺复兴。“而这个文艺复兴,才刚刚开始。