本文翻译了OpenAI发布的有关Sora的技术报告,原文戳Video generation models as world simulators

我们研究了在视频数据上进行生成式模型的大规模训练。更具体地说,我们对不同时长、分辨率和宽高比的视频及图片进行了文本条件下的扩散模型联合训练。我们采用了一种 Transformer 架构,这种架构可以处理视频和图像潜在编码的时空片段。我们开发的最大型号模型,Sora,具备生成一分钟长的高质量视频的能力。我们的研究成果显示,扩展视频生成模型的规模是向着创建能模拟物理世界的通用工具迈进的一个充满希望的方向。

这份技术报告主要关注于:

(1)我们将各类视觉数据转化为统一表示的方法,该方法使得生成模型的大规模训练成为可能;

(2)对Sora能力和限制的定性评估。模型和实现的细节没有包含在这份报告中。

众多先前的研究通过各种方式探索了视频数据的生成模型,涉及方法包括循环网络[1,2,3]、生成对抗网络[4,5,6,7]、自回归 Transformer[8,9] 以及扩散模型[10,11,12]。这些研究往往专注于特定种类的视觉数据、时长较短的视频,或者是固定尺寸的视频。而 Sora 是一个对视觉数据具有广泛适用性的模型——它能够创造出在持续时间、纵横比和分辨率上多样化的视频和图片,甚至能生成长达一分钟的高清视频。

把视觉数据分割成补丁

我们受到大语言模型的启发,这类模型通过在互联网大规模的数据集上进行训练,获得了通用的能力[13,14]。大语言模型成功的关键之一在于使用了能够优雅地统一不同文本形态(如代码、数学公式以及多种自然语言)的tokens。在这项工作中,我们探讨了视觉数据的生成模型如何借鉴此类优势。与大语言模型使用文本令牌不同,Sora 使用的是视觉补丁。先前的研究已经证明,对于视觉数据模型而言,补丁Patches是一种有效的表现形式[15,16,17,18]。我们发现,补丁是一种高度可扩展且有效的方式,适用于训练多样化视频和图片的生成模型。

alt text

从宏观角度来看,我们将视频转换成补丁的过程首先是将视频压缩到一个低维度的潜在空间[19],接着将这种表示分解为时空补丁。

视频压缩网络

我们开发了一个能够降低视觉数据维度的网络[20]。这个网络接受原始视频作为输入,输出一个在时间和空间维度上均进行了压缩的潜在表示。Sora 就是在这种压缩的潜在空间中接受训练,并能够在其中生成视频。此外,我们还设计了一个对应的解码模型,用于将生成的潜在数据重新映射到像素空间。

时空补丁

对于一个被压缩的输入视频,我们会提取一系列的时空补丁,它们在此过程中充当 Transformer 的令牌。这一方法同样适用于图片,因为从本质上讲,图片就是单帧的视频。我们采用的基于补丁的表示方法,使得 Sora 能够处理不同分辨率、时长和纵横比的视频和图片。在生成视频的推理阶段,我们可以通过按照适当的大小排列随机初始化的补丁,来控制最终视频的尺寸。

用于视频生成的扩展Transformer

Sora 属于扩散模型[21,22,23,24,25];它能够接受带有噪声的补丁(以及如文本提示这样的条件信息)作为输入,并被训练以预测出原始的“干净”补丁。值得注意的是,Sora 实际上是一个diffusion Transformer[26]。在多个领域,包括语言模型[13,14]、计算机视觉[15,16,17,18]以及图像生成[27,28,29],Transformer 都展现出了令人瞩目的扩展能力。

在本研究中,我们还发现diffusion transformers 同样能够在视频模型方面有效扩展。接下来,我们将展示一个比较:随着训练进程的推进,使用固定种子和输入条件的视频样本展示。可以明显看到,随着训练计算量的增加,样本的质量有了显著的提升。

基础计算

4倍计算

32倍计算

持续时间、分辨率、纵横比的可变性

以往在图像和视频生成领域,常见的做法是将视频调整至标准尺寸——比如,4秒长的视频以256x256的分辨率呈现。然而,我们发现直接在视频的原始尺寸上进行训练能够带来多重好处。

采样灵活性

Sora 能够生成各种尺寸的视频,包括宽屏的1920x1080p、竖屏的1080x1920,以及这两者之间的任何尺寸。这让 Sora 能够直接针对不同设备的原生纵横比制作内容。此外,这还使我们能够在进行全分辨率输出之前,先以较低分辨率快速制作出原型内容——所有这些都可以通过同一个模型完成。

构图与构成的改进

我们的实验发现,在视频的原生纵横比上进行训练能显著改进视频的构图和画面布局。我们比较了 Sora 和另一个版本的模型,这个版本将所有训练用的视频裁剪成正方形——这是训练生成模型的一种常规做法。结果显示,那些在正方形视频上训练的模型(左侧)有时会生成主体只部分出现在画面中的视频。相比之下,Sora 生成的视频(右侧)在画面布局上有了明显的提升。

语言理解

训练文本生成视频的系统需依赖大量配有对应文字说明的视频。我们采用了 DALL·E 3[30] 中介绍的重新标注技术,将其应用于视频。首先,我们训练了一个能够生成高度描述性文字说明的模型,然后利用这个模型为我们训练集中的全部视频生成文本说明。我们的发现表明,使用这些高度描述性的视频说明进行训练,不仅能提高文本的准确度,也能显著提升视频的整体品质。

与 DALL·E 3 类似,我们也采用 GPT 技术将用户的简短提示转化为更加详尽的描述,然后这些描述会被送到视频生成模型中。这一策略使得 Sora 能够根据用户的具体提示生成高质量且内容准确的视频。

通过图像和视频进行提示

我们网站上的示例,主要展示了从文本到视频的生成样本。然而,Sora 也能接受其他形式的输入,比如已有的图片或视频。这项能力让 Sora 能够完成多种图像和视频编辑任务,如制作完美循环的视频、为静态图片添加动效、以及在时间线上前后扩展视频等。

DALL·E 图像动画化

Sora 可以根据给定的图片和文本提示生成视频。以下是我们展示的,基于 DALL·E 2[31] 和 DALL·E 3[30] 生成的图片,Sora 制作的示例视频。


图像说明

一只戴着贝雷帽和黑色高领毛衣的柴犬。


图像说明

以扁平设计风格绘制的怪兽家族插画,展现了形态各异的怪兽们。家族成员包括一只毛发浓密的棕色怪兽、一只身躯光滑、头顶长着天线的黑色怪兽、一只覆盖着斑点的绿色怪兽,以及一只小巧、满身圆点的怪兽,它们在一个欢乐的场景中相互玩耍。


图像说明

一张图像,展示了形成“SORA”字样的逼真云彩。


图像说明

在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机,熟练地驾驭海浪。

扩展生成的视频

Sora 同样具备在时间线上向前或向后扩展视频的能力。以下展示了四个视频示例,它们均从同一生成视频的某段开始,向时间的反向扩展。因此,尽管这四个视频的开头各不相同,但最终都汇聚于同一个结尾。

通过这种方式,我们能够将视频同时向前和向后扩展,创造出一个无缝的无限循环视频。

视频到视频编辑

扩散模型开启了利用文本提示进行图像和视频编辑的众多方法。接下来,我们将其中一种方法,即 SDEdit[32],应用于 Sora。这项技术让 Sora 能够在零样本学习的情况下,改变输入视频的风格和环境。

视频拼接

我们还可以利用 Sora 在两个输入视频之间进行渐进式插值,实现在完全不同主题和场景构成的视频之间的平滑过渡。在以下示例中,中间的视频实现了左右两侧视频之间的无缝连接。





图像生成能力

Sora 同样具备生成图片的能力。这是通过在一个时长仅为一帧的空间网格中排列高斯噪声补丁来实现的。该模型能够生成各种尺寸的图片,最高分辨率可达 2048x2048。

图片描述1

秋季女性特写肖像照,极其细节,浅景深

图片描述2

充满活力的珊瑚礁,充满色彩缤纷的鱼类和海洋生物


图片描述1

苹果树下一只小老虎的数字艺术,采用哑光绘画风格,细节华丽

图片描述2

雪山村庄,拥有舒适的小屋和北极光显示屏,高细节和逼真的数码单反相机,50 毫米 f/1.2

涌现的模拟能力

我们发现大规模训练视频模型时,会出现一些有趣的涌现能力。这些能力使得 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性对 3D、物体等没有明显的归纳偏差——它们纯粹是大规模训练带来的现象。

3D 一致性:Sora 可以生成具有动态摄像机运动的视频。当摄像机移动和旋转时,人物和场景元素在三维空间中始终保持一致的运动。


长期连贯性和物体持久性:长视频采样时保持时间一致性一直是视频生成系统的重大挑战。我们发现 Sora 通常 (但不总是) 能够有效地模拟短期和长期依赖关系。例如,我们的模型可以保留人物、动物和物体,即使它们被遮挡或离开画面。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。


与世界互动:Sora 有时可以模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。


模拟数字世界:Sora 还能够模拟人工过程,例如电子游戏。它能同时用基本策略控制《我的世界》中的玩家,并高保真渲染游戏世界和动态。这些能力可以通过零样本学习实现,只需向 Sora 提到与《我的世界》相关的提示即可。


这些能力表明,持续扩展视频模型是开发高性能模拟器以模拟物理世界和数字世界,以及其中存在的物体、动物和人物的一个很有前景的途径。

讨论


目前,Sora 作为模拟器仍存在不少局限性。例如,它无法精确模拟许多基本物理交互,比如玻璃破碎。另外,像吃东西这样的行为也无法总是准确地反映物体状态的变化。有关模型的其他常见失效模式,例如长时间片段出现不一致性或物体凭空出现等,您可以在我们的 落地页 中找到详细说明。


我们相信,当前 Sora 所展现的能力证明,随着视频模型的持续发展,它们将会成为构建强大物理和数字世界模拟器的有力工具,最终能够精确模拟生活在这些世界中的物体、动物和人物。