图像生成 | FisherAI

OpenAI 于 2025年 3 月 25日发布了 GPT-4o 的原生生图能力。与以往的生成模型不同，GPT-4o 专注于生成能够有效沟通和传递信息的图像，例如标志、图表和信息图。其核心优势在于精确的文本渲染、准确理解并执行用户指令，以及充分利用 GPT-4o 的知识库和对话上下文。通过对在线图像和文本的联合分布进行训练，并结合积极的后训练，GPT-4o 具备了出色的视觉流畅性，能够生成实用、连贯且符合语境的图像。此外，GPT-4o 还支持通过自然对话进行图像优化，并能从用户上传的图像中学习，实现更智能和高效的图像生成。实用性: GPT-4o 图像生成旨在超越装饰性应用，成为一种实用的沟通工具，适用于创建标志、图表等信息类图像。文本渲染: GPT-4o 能够精确地在图像中渲染文本，实现有效的视觉沟通，这得益于其将精确符号与图像融合的能力。上下文连贯性: 由于图像生成是 GPT-4o 的原生功能，用户可以通过自然对话来优化图像，并在对话上下文中保持图像的一致性，例如在设计视频游戏角色时，角色外观可以在多次迭代中保持连贯。细节处理: GPT-4o 能够处理更复杂的提示，可以处理 10-20 个不同的对象，而其他系统通常只能处理 5-8 个对象。情境学习: GPT-4o 可以分析和学习用户上传的图像，并将这些细节融入到图像生成过程中。照片写实性和风格: 模型在反映各种图像风格的图像上进行训练，使其能够创建或转换具有说服力的图像。局限性: 当前模型在编辑图像的特定部分（如错别字）时效果不佳，并且在保持面部编辑的一致性方面存在 bug，但 OpenAI 正在努力解决这些问题。安全性: 所有生成的图像都带有 C2PA 元数据，以标识图像来自 GPT-4o，并提供透明度。OpenAI 还构建了一个内部搜索工具，以验证内容是否来自其模型。同时，系统会阻止违反内容政策的图像生成请求，并对涉及真实人物的图像施加更严格的限制。访问和可用性: GPT-4o 图像生成功能已开始向 Plus、Pro、Team 和 Free 用户推出，作为 ChatGPT 中的默认图像生成器，Enterprise 和 Edu 用户也将很快获得访问权限。开发者也将在未来几周内通过 API 使用 GPT-4o 生成图像。生成图像可能需要长达一分钟的时间，因为模型会创建更细致的图片。推出 4o 图像生成通过一个原生多模态模型解锁实用且有价值的图像生成，该模型能够产出精确、准确、照片般真实的输出。在 OpenAI，我们一直认为图像生成应成为我们语言模型的一项主要能力。因此，我们将我们迄今为止最先进的图像生成器内置到了 GPT-4o 中。其结果是——图像生成不仅美观，而且实用。...