这篇文章翻译了微软研究院基于已发表的Sora技术报告和逆向工程发表的一篇论文Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models，本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。

摘要

Sora 是一款由 OpenAI 在 2024 年 2 月推出的文本转视频生成式 AI 模型。这款模型能够把文字指令转化为现实或虚构场景的视频，展现了在模拟现实世界方面的巨大潜力。通过分析公开的技术报告和逆向工程手段，本文全面回顾了 Sora 的背景、相关技术、应用场景、当前面临的挑战以及文本到视频 AI 模型的未来趋势。文章首先回顾了 Sora 的开发历程，探讨了构建这一“世界模拟器”的关键技术。接着，我们详尽介绍了 Sora 在电影制作、教育、市场营销等多个领域的应用及其潜在的行业影响。文中还讨论了为了让 Sora 得到广泛应用需要克服的主要挑战，比如确保视频生成的安全性和公正性。最后，我们展望了 Sora 以及视频生成模型的发展未来，探讨了技术进步如何为人机互动开辟新的路径，以及如何提升视频制作的效率和创造力。

图 1：Sora：人工智能驱动的视觉生成的突破

1 简介

自2022年11月ChatGPT发布以来，AI技术的出现标志着一场重大变革，重塑了交互方式并深度融入日常生活和行业的各个方面 [1, 2]。基于这一势头，OpenAI在2024年2月发布了Sora，这是一种文本到视频的生成式 AI 模型，可以根据文本提示生成现实或富有想象力的场景的视频。与以前的视频生成模型相比，Sora 的特点是能够生成长达 1 分钟的高质量视频，同时保持对用户文本指令的遵守 [3]。Sora 的这种进步体现了长期以来 AI 研究的使命，即让 AI 系统（或 AI Agents）具备理解和与物理世界动态交互的能力。这包括开发不仅能够理解复杂的指令，还能将这种理解运用于通过动态且富含场景信息的模拟，来解决现实世界的问题的 AI 模型。

图 2：Sora 文本到视频生成的示例。向 OpenAI 的 Sora 模型提供了文本指令，模型根据这些指令生成了三个视频。

如图 2 所示，Sora 能够出色地理解并执行复杂的指令，展现出令人印象深刻的能力。该模型可以生成包含多个角色执行特定动作、拥有复杂背景的详细场景。研究人员将 Sora 的熟练技能归因于其不仅能够处理用户给出的文本提示，还能辨别场景中元素之间复杂的相互作用。

Sora 最引人注目的方面之一在于它能够生成长达一分钟的视频，同时保持高质量的视觉效果和令人信服的视觉连贯性。与只能生成短视频片段的早期模型不同，Sora 的一分钟视频创作具有“发展”和“视觉一致性”，从第一帧到最后一帧都形成了一个完整的视觉旅程。

此外，Sora 的进步还体现在其能够生成具有细微动作和互动描绘的 extended video sequences（长视频序列），克服了早期视频生成模型短片段和简单视觉渲染的限制。这项能力代表了 AI 驱动创作工具的飞跃，允许用户将文本叙述转换成丰富的视觉故事。

总而言之，这些进步展示了 Sora 作为“世界模拟器”的潜力，可以提供对所描绘场景的物理和上下文动态的细致洞察。

技术核心。Sora 的核心是一款预训练好的扩散 Transformer 模型[4]。Transformer 模型在众多自然语言处理任务中已证明其可扩展性和有效性。与 GPT-4 等强大的大语言模型类似，Sora 能够解读文本并理解用户的复杂指令。为了让视频生成更加计算高效，Sora 采用了时空潜在补丁作为其基础构建块。具体来说，Sora 将原始视频压缩为一个潜在的时空表征，再从这个压缩视频中提取一系列潜在时空补丁，捕捉短时间内的视觉外观和运动动态。这些补丁，相当于语言模型中的词 token，为 Sora 提供了构建视频所需的详细视觉短语。Sora 的文本到视频生成过程是通过一个扩散 Transformer 模型来完成的，它从一个充满视觉噪点的帧开始，迭代地去除噪声，并根据文本提示添加特定的细节。总的来说，通过多步精细的过程，生成的视频逐渐显现，越来越接近期望的内容和质量。

Sora 的特点。Sora 在多个方面的能力具有深远的影响：

改善模拟能力：Sora 能够在大规模上训练，这归功于它在模拟物理世界各方面的出色能力。即便没有明确的3D建模，Sora 也能展现出具有动态相机运动的3D一致性和长期连贯性，包括对象持久性及模拟简单的世界互动。更有趣的是，Sora 能模拟 Minecraft 这样的数字环境，同时保持视觉真实性。这些能力表明，扩大视频模型的规模是创建能够模拟物理和数字世界复杂性的 AI 模型的有效方法。
激发创造力：想象一下，通过文本简述一个概念，无论是简单的物体还是完整的场景，几秒钟内就能看到一个逼真或高度风格化的视频呈现出来。Sora 加速了设计流程，使得快速探索和细化想法成为可能，极大地提高了艺术家、电影制作人和设计师的创造力。
推进教育创新：视觉辅助工具长期以来对于理解教育中的重要概念至关重要。利用 Sora，教育工作者可以轻松将课程计划从文本转化为视频，吸引学生注意力，提高学习效率。从科学模拟到历史重现，其应用无界限。
提升可访问性：提升视觉领域的可访问性至关重要。Sora 将文本描述转换为视觉内容的能力，为包括视觉障碍人士在内的所有人提供了参与内容创作和有效互动的机会。因此，它创造了一个更加包容的环境，让每个人都有机会通过视频表达自己的想法。
催生新应用：Sora 的应用范围极广。例如，市场营销人员可以使用它根据特定受众描述创建动态广告；游戏开发者可以用它根据玩家的叙述生成定制化的视觉效果或角色动作。

局限性与机遇。尽管 Sora 的成就标志着 AI 领域的重大进步，但还存在挑战。提升模型在描绘复杂动作或捕捉细腻面部表情上的能力是一方面；另一方面，需要关注伦理问题，比如减少生成内容的偏见和避免产生有害视觉输出，这强调了开发者、研究人员及更广泛社群负责任使用的重要性。确保 Sora 产出的内容持续安全和无偏见是一个主要挑战。视频生成领域正快速进展，学术和行业研究团队正不断取得进步。新的文本到视频模型的出现表明，Sora 可能很快就会成为一个充满活力的生态系统的一部分。这种合作与竞争的环境促进了创新，带来了视频质量的提升和新应用的开发，有助于提高工作效率和丰富人们的生活。

我们的贡献。本文基于已发布的技术报告和我们的逆向工程，首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前局限性和未来机遇。

2 背景

2.1历史

在计算机视觉（CV）的世界里，深度学习革命之前，传统的图像生成技术主要依赖于像纹理合成[5]和纹理映射[6]这样的方法，这些都是基于手工制定的特征。然而，这些方法在生成复杂和细腻图像方面存在限制。生成对抗网络（GANs）[7]和变分自编码器（VAEs）[8]的引入，由于其在多种应用场景下展示出的卓越能力，标志着一个重要的转变。随后的发展，比如流模型[9]和扩散模型[10]，进一步提升了图像生成的细节和质量。人工智能生成内容（AIGC）技术的最新进展使得内容创作变得更加民主化，允许用户通过简单的文本指令来创造所需内容[11]。

过去十年间，生成式计算机视觉模型的发展采取了多种路径，如图 3 所展示。这一领域的变革尤其在成功将 Transformer 架构[12]应用于自然语言处理（NLP），如 BERT [13]和 GPT [14]所示时开始显著。在计算机视觉领域，研究人员进一步将 Transformer 架构与视觉组件结合，使其能够应用于下游的计算机视觉任务，例如视觉 Transformer（ViT）[15]和 Swin Transformer [16]。与此同时，扩散模型在图像和视频生成方面也取得了显著进展[10]。扩散模型提供了一种数学上可行的框架，通过 U-Net [17]将噪声转换成图像，U-Net 通过学习在每一步减少噪声来促进这一过程。从 2021 年开始，AI 研究的一个重点是开发能够解读人类指令的生成式语言和视觉模型，也就是多模态模型。例如，CLIP [18]是一个开创性的视觉-语言模型，它结合了 Transformer 架构和视觉元素，使其能够在大规模的文本和图像数据集上进行训练。通过从一开始就融合视觉和语言知识，CLIP 能够作为多模态生成框架中的图像编码器功能。另一个值得注意的例子是 Stable Diffusion [19]，这是一个多功能的文本到图像 AI 模型，以其适应性和易用性而闻名。它利用 Transformer 架构和潜在扩散技术，将文本输入解码成各种风格的图像，进一步展示了多模态 AI 的进展。图 3: 视觉领域内生成式 AI 的发展历程。

随着 2022 年 11 月 ChatGPT 的发布，我们在 2023 年见证了商业文本到图像产品的兴起，例如 Stable Diffusion[19]、Midjourney[20]和 DALL-E 3[21]。这些工具让用户能够仅通过简单的文字提示就创造出高分辨率、高质量的新图像，展示了 AI 在创意图像生成领域的巨大潜力。然而，从文本到图像再到文本到视频的转变因视频的时间复杂性而变得更加具有挑战性。尽管工业界和学术界做出了众多尝试，但大部分现有的视频生成工具，如 Pika[22]和 Gen-2[23]，仅能制作几秒钟的短视频。在这种背景下，Sora 的出现象征着一个重大的突破，与 ChatGPT 在自然语言处理领域的影响相似。Sora 是首个能够根据人类指令生成长达一分钟视频的模型，标志着对生成式 AI 研究和开发产生深刻影响的一个里程碑。为了便于获取最新的视觉生成模型进展，我们在附录和 GitHub 上提供了最新的作品汇编。

2.2 高级概念

视觉模型的规模化定律。在大语言模型的规模化定律已经建立的情况下，人们自然会好奇视觉模型的发展是否遵循类似的定律。最近，Zhai 等人[24]展示了，有足够训练数据的视觉 Transformer（ViT）模型的性能-计算前沿大致遵循一个（趋于饱和的）幂律。紧接着，谷歌研究[25]提出了一种高效稳定训练 22 亿参数 ViT 的方法。结果表明，通过使用冻结模型生成嵌入，然后在其上训练薄层可以实现优异的性能。作为一个大型视觉模型（LVM），Sora 遵循这些规模化原则，展现了在文本到视频生成方面的几种新兴能力。这一显著进展强调了 LVM 实现类似 LLM 所见成就的可能性。

涌现能力。大语言模型中的涌现能力指的是在某些规模上—通常与模型参数的大小相关—显现出来的复杂行为或功能，这些并非开发者显式编程或预期的。这些能力之所以被称为“涌现”，是因为它们源自模型在各种数据集上的全面训练以及庞大的参数量。这种组合使得模型能够形成连接并做出推理，超越了简单的模式识别或机械记忆。通常，这些能力的出现不能通过从小规模模型的性能推断来直接预测。虽然许多大语言模型，如 ChatGPT 和 GPT-4，展示了涌现能力，但直到 Sora 的出现，具有可比能力的视觉模型还很少。根据 Sora 的技术报告，它是首个展现出确认的涌现能力的视觉模型，这在计算机视觉领域标志着一个重要的里程碑。

除了涌现能力之外，Sora 还展现了包括遵循指令、视觉提示工程和视频理解在内的其他显著能力。Sora 这些功能方面的进展代表了视觉领域的重大进步，并将在后续部分进一步探讨和讨论。

3 技术

3.1 Sora 概述

图 4：逆向工程：Sora 框架概述

核心，Sora 是一种扩散 Transformer 模型[4]，具备灵活的采样维度，如图 4 所示。它由三部分组成：（1）一个时空压缩器首先将原始视频映射到潜在空间。（2）接着，一个 ViT 对这些 token 化的潜在表示进行处理，并输出去噪后的潜在表示。（3）一个类似 CLIP[26] 的调节机制接受经过大语言模型增强的用户指令和可能的视觉提示，指导扩散模型生成具有特定风格或主题的视频。经过多次去噪步骤，就能得到生成视频的潜在表示，然后通过相应的解码器将其转换回像素空间。本节的目标是逆向工程 Sora 所采用的技术，并探讨一系列相关的工作。

3.2 数据预处理

3.2.1 时长、分辨率、宽高比的变化

Sora 的一个显著特点是它能够在视频和图像的原始大小上进行训练、理解和生成，如图 5 所展示的。传统方法往往需要调整视频的大小、裁剪或修改宽高比，使其符合一个统一的标准——通常是低分辨率、正方形帧的短视频片段[27][28][29]。这些样本通常在更大的时间跨度上生成，并且依赖于单独训练的帧插入和分辨率渲染模型作为最后步骤，这导致了视频质量的不一致。通过采用扩散 Transformer 架构[4]（参见 3.2.4 节），Sora 成为了第一个能够接纳视觉数据多样性的模型，能够处理从宽屏 1920x1080p 到垂直 1080x1920p 以及之间所有类型的视频和图像格式，同时保持其原始尺寸不变。

图 5: Sora 能够灵活生成各种尺寸或分辨率的图像，范围从 1920x1080p 到 1080x1920p 及其间的任何大小。

图 6: 将 Sora（右侧）与其修改版本（左侧）进行比较，修改版本将视频裁剪为正方形——这是模型训练中的一种常规做法，这一对比突出了 Sora 的优势。

在原始尺寸上进行数据训练显著提升了生成视频的构图和画面布局。实践证明，保持视频的原始宽高比能让 Sora 实现更自然、更连贯的视觉叙事效果。正如图 6 所展示的，Sora 与那些在统一剪裁为正方形视频上训练的模型相比，展现了明显的优势。Sora 生成的视频具有更好的画面布局，确保场景中的主体被完整捕捉，避免了正方形剪裁导致的画面截断问题。

这种对原始视频和图像特征的深入理解和保留，标志着在生成模型领域取得的重大进步。Sora 的方法不仅展示了生成更真实、更引人入胜视频的潜力，还强调了训练数据多样性对于实现高质量生成式 AI 成果的重要性。Sora 的训练策略与 Richard Sutton 的《苦涩的教训》[30]的核心理念相契合，即利用计算优势而非人工设计的特征，可以构建更高效、更灵活的 AI 系统。就如扩散 Transformer 的设计初衷是追求简洁和可扩展性[31]，Sora 在原生尺寸数据上的训练方法摒弃了传统 AI 对人工抽象概念的依赖，转而采用一种随着计算能力增长而扩展的泛用方法。在本节剩余部分，我们将尝试逆向工程 Sora 的架构设计，并探讨实现这一显著特性的相关技术。

3.2.2 统一视觉表征

为了有效处理包括不同持续时间、分辨率和宽高比的图像和视频在内的多样化视觉输入，采取将所有视觉数据转换为统一表征的方法至关重要，这有助于生成模型的大规模训练。具体而言，Sora 通过首先将视频压缩至低维潜在空间，进而将其分解为时空补丁来实现视频的打补丁化。然而，Sora 的技术报告[3]只给出了一个高层次的概念，这对研究社区来说复现颇具挑战。在这一节中，我们试图逆向解析可能的组成元素和技术途径。此外，我们还将探讨可能模仿 Sora 功能的可行替代方法，这一部分将借鉴现有文献中的洞见。

图 7: 从宏观角度看，Sora 首先将视频压缩进一个低维度的潜在空间，接着把这一表示分解成时空补丁，以此方式将视频转化为补丁。来源：Sora 技术报告 [3]。

3.2.3 视频压缩网络

图 8: ViT 把一张图像切割成固定尺寸的补丁，对每一个补丁进行线性嵌入，加入位置嵌入，然后把这些处理过的向量序列送入标准的 Transformer 编码器进行处理。

Sora 的视频压缩网络（也称为视觉编码器）的目标是降低输入数据的维度，尤其是原始视频，并输出一个同时在时间和空间上压缩的潜在表示，如图 7 所示。根据技术报告中的引用，这个压缩网络是基于 VAE 或向量量化 VAE（VQ-VAE）[32] 构建的。然而，技术报告指出，如果不采用调整尺寸和裁剪，VAE 难以将任何尺寸的视觉数据映射到一个统一且固定大小的潜在空间。我们概括了两种解决此问题的不同实现方式：

空间补丁压缩。这一过程涉及将视频帧转换成固定大小的补丁，类似于 ViT[15] 和 MAE[33] 所采用的方法（见图 8），然后将它们编码进潜在空间。这种方法特别适用于处理不同分辨率和宽高比的视频，因为它通过处理单独的补丁来编码整个帧。然后，这些空间 token 按时间顺序组织，形成空间-时间潜在表示。这种技术强调了几个关键的考虑因素：由于训练视频持续时间的不同，潜在空间表示的时间维度不能固定。解决方法包括选取特定数量的帧（对于更短的视频可能需要填充或时间插值[34]）或定义一个超长的统一输入长度以供后续处理（详见 3.2.4 节）；利用预训练的视觉编码器 - 对于处理高分辨率视频，大多数研究者建议利用现有的预训练视觉编码器，例如 Stable Diffusion[19] 中的 VAE 编码器，而 Sora 团队则预计将从头开始训练自己的压缩网络及解码器（视频生成器），采用与训练潜在扩散模型[19, 35, 36] 相似的方法。这些编码器可以高效压缩大尺寸补丁（例如，256×256），便于处理大规模数据；时间信息的聚合 - 由于这种方法主要关注空间补丁压缩，因此需要额外的机制在模型中聚合时间信息。这对于捕捉随时间变化的动态至关重要，将在后续章节进一步讨论（详见 3.2.6 节和图 14）。

空间-时间补丁压缩。这种技术旨在同时封装视频数据的空间和时间维度，提供一个全面的表示。该技术不仅分析静态帧，还考虑帧间的运动和变化，从而捕获视频的动态特性。采用 3D 卷积是实现这种整合的一种直接而有效的方法[37]。该技术的图形说明及其与纯空间补丁化的比较展示在图 9 中。与空间补丁压缩类似，采用空间-时间补丁压缩并预设卷积核参数（如固定的核大小、步长和输出通道）会因视频输入的不同特性而导致潜在空间维度的变化。这种可变性主要由处理视频的不同持续时间和分辨率引起。为了缓解这一挑战，采用空间补丁化的方法同样适用并有效。

图 9: 对视频压缩中不同补丁化方法的比较。来源：ViViT [38]。（左侧）空间补丁化方法简单地选取 $n_t$ 帧，并独立地根据 ViT 的方式对每个 2D 帧进行嵌入。（右侧）空间-时间补丁化方法则是提取并线性嵌入那些跨越空间和时间输入体积的、有重叠或无重叠的小管状片段。

总结来说，我们通过逆向工程基于 VAE 或其变种如 VQ-VQE 的两种补丁级压缩方法，因为补丁操作在处理不同类型视频时更加灵活。鉴于 Sora 的目标是生成高保真度的视频，因此采用了较大的补丁尺寸或核尺寸以实现有效的压缩。这里，我们预期采用固定大小的补丁，这样做便于简化、扩展性及训练稳定性。但也可以采用不同大小的补丁[39]，以保持潜在空间中整个帧或视频的维度一致性。然而，这可能会导致位置编码失效，给解码器生成具有不同大小潜在补丁的视频带来挑战。

3.2.4 时空潜在补丁

压缩网络部分还有一个关键问题未解决：如何处理潜在空间维度的变化性（即，不同视频类型的潜在特征块或补丁的数量）再将补丁送入扩散 Transformer 的输入层。这里，我们探讨了几种解决方案。

根据 Sora 的技术报告及相关参考文献，补丁打包（PNP）[40]可能是一种解决方案。PNP 将来自不同图像的多个补丁打包成一个序列，如图 10 所展示。这种方法受到了自然语言处理中示例打包技术的启发[41]，该技术通过丢弃 token 来适应可变长度输入的高效训练。此处，补丁化和 token 嵌入步骤需在压缩网络中完成，但 Sora 可能进一步对潜在表示进行补丁化以适配 Transformer token，如扩散 Transformer 所作[4]。不管是否进行第二轮补丁化，我们需要解决两个问题：如何紧凑地打包这些 token，以及如何控制应丢弃哪些 token。对于第一个问题，采用了一种简单的贪心策略，将示例添加到有足够剩余空间的序列中。一旦没有更多示例可以适配，就用填充 token 填充序列，以获得批量操作所需的固定序列长度。这种简单的打包算法可能会因为输入长度的分布而导致大量的填充。另一方面，我们可以通过调整采样的分辨率和帧数来确保有效打包，通过调整序列长度和限制填充。对于第二个问题，一个直观的方法是丢弃相似的 token [42, 43, 33, 44]或像 PNP 那样应用丢弃率调度器。但值得注意的是，3D 一致性是 Sora 的一大优势。在训练过程中丢弃 token 可能会忽略掉细节。因此，我们认为 OpenAI 很可能采用一个超长的上下文窗口并打包视频中的所有 token，尽管这样做在计算上代价高昂，例如，多头注意力[45, 46]操作的成本与序列长度成二次方关系。具体来说，来自长视频的时空潜在补丁可以打包成一个序列，而来自多个短视频的补丁则在另一个序列中串联。

图 10: 补丁打包允许处理保持宽高比的不同分辨率的图像或视频。在一定程度上，token 的丢弃可以视作一种数据增强的手段。来源：NaViT [40]。

3.2.5 讨论

我们探讨了 Sora 可能采用的两种数据预处理技术方案。鉴于灵活性和可扩展性的考虑，这两种方案均在补丁级别执行。与先前需要将视频调整尺寸、裁剪或剪辑至标准大小的做法不同，Sora 直接在数据的原生尺寸上进行训练。虽然这样做有多个优点（详见 3.2.1 节的分析），但也带来了一些技术挑战，其中最显著的挑战之一是神经网络天然难以处理具有不同持续时间、分辨率和宽高比的视觉数据。通过逆向工程，我们认为 Sora 首先将视觉补丁压缩为低维度的潜在表示，并将这些潜在补丁或进一步补丁化的潜在补丁排成序列，然后在喂给扩散 Transformer 的输入层之前，对这些潜在补丁进行噪声注入。Sora 选择空间-时间补丁化是因为其实施简单，并且能够有效地通过高信息密度 token 减少上下文长度，降低后续模型对时间信息建模的复杂度。

针对研究社区，我们推荐使用成本效益高的视频压缩和表示替代方案，包括利用预训练检查点（如压缩网络）[47]，缩短上下文窗口长度，采用轻量级建模机制如（分组）多查询注意力[48, 49]或高效架构（如 Mamba[50]），必要时对数据进行下采样和丢弃 token。在视频建模中寻找效率与效果之间的平衡是一个值得深入探索的重要研究话题。

3.2.6 扩散 Transformer

图 11: 扩散 Transformer (DiT)（左侧）与 U型视觉 Transformer (U-ViT)（右侧）的总体架构

3.3 建模

图像扩散 Transformer。传统扩散模型[51, 52, 53]主要依赖于包括下采样和上采样模块的卷积 U-Net 作为去噪网络的核心。然而，近期研究显示，U-Net 架构并非扩散模型优秀性能的唯一关键。通过融入更为灵活的 Transformer 架构，基于 Transformer 的扩散模型能够利用更多训练数据和更大的模型参数。在这一方向上，DiT[4]和 U-ViT[54]是首次将视觉 Transformer 应用于潜在扩散模型的开创性工作。DiT 采用了多头自注意力层和点对点前馈网络，中间夹杂了层归一化和缩放层，与 ViT 相似。更进一步，如图 11 所示，DiT 通过带有额外 MLP 层的自适应层归一化（AdaLN）引入条件化，该层用于零初始化，使每个残差块初始为恒等函数，极大地稳定了训练过程。DiT 的可扩展性和灵活性已得到实证验证，并成为扩散模型的新标杆。在 U-ViT 中，如图 11 所展示，将包括时间、条件和噪声图像补丁在内的所有输入视为 token，并提出了在浅层和深层 Transformer 层之间的长跳连接。结果显示，CNN 基础的 U-Net 中的下采样和上采样步骤并非必需，U-ViT 在图像及文到图生成方面达到了创纪录的 FID 分数。

像掩码自编码器（MAE）[33]一样，掩码扩散 Transformer（MDT）[55]将掩码潜在建模引入到扩散过程中，以显式增强图像合成中对象语义部分之间的上下文关系学习。具体来说，如图 12 所示，MDT 在训练期间使用侧插值来进行额外的掩码 token 重建任务，以提高训练效率并学习强大的上下文感知位置嵌入以用于推断。与 DiT[4]相比，MDT 实现了更好的性能和更快的学习速度。Hatamizadeh 等人[56]引入了扩散视觉 Transformer（DiffiT），它使用一个时间依赖的自注意力（TMSA）模块来模拟采样时间步骤上的动态去噪行为，而不是使用 AdaLN（即，移位和缩放）进行时间条件建模。此外，DiffiT 使用了两种混合层次架构，分别在像素空间和潜在空间中进行高效去噪，并在各种生成任务中实现了新的最先进结果。总的来说，这些研究在使用视觉 Transformer 进行图像潜在扩散方面展示了有希望的结果，为未来其他模态的研究铺平了道路。

图 12: 掩码扩散 Transformer（MDT）的总体架构。实线/虚线分别表示训练/推理阶段的每一时间步骤。掩码和侧向插值仅在训练阶段使用，在推理阶段则被去除。

视频扩散 Transformer。在文本到图像（T2I）扩散模型的基础上，最近的研究聚焦于探索扩散 Transformer 在文本到视频（T2V）生成任务中的潜力。考虑到视频的时序特性，应用 DiTs 到视频领域面临的关键挑战包括：i) 如何高效地在空间和时间上将视频压缩至潜在空间进行去噪；ii) 如何将压缩后的潜在表示转换成补丁并输入到 Transformer 中；以及 iii) 如何处理长时间跨度和空间依赖，保证内容连贯性。关于第一个挑战的更多细节，请参见 3.2.3 节。在本节，我们专注讨论旨在空间和时间压缩的潜在空间内工作的基于 Transformer 的去噪网络架构。我们将详细审视 OpenAI Sora 技术报告引用列表中提及的两个重要成果：Imagen Video[29] 和 Video LDM[36]。

Imagen Video[29] 是谷歌研究开发的文本到视频生成系统，它采用了一系列扩散模型，包括执行文本条件视频生成、空间超分辨率和时间超分辨率的 7 个子模型，将文本提示转化为高清视频。如图 13 所展示，首先，一个冻结的 T5 文本编码器从输入的文本提示中生成上下文嵌入。这些嵌入对齐生成视频与文本提示至关重要，并被注入到级联的所有模型中，基础模型也不例外。接着，这些嵌入输入到基础模型中生成低分辨率视频，然后通过级联扩散模型进行精细化处理以提升分辨率。基础视频模型和超分辨率模型采用了 3D U-Net 架构，以空间-时间分离的方式工作。此架构融合了时间注意力层和卷积层及其空间对应部分，有效捕捉帧间依赖性。它采用 v-预测参数化来增强数值稳定性，并通过条件增强支持模型间的并行训练。整个过程涵盖了图像和视频的联合训练，把每幅图像当作一帧来利用更大的数据集，并使用无分类器引导[57]来增强提示的忠实度。逐步蒸馏[58]被应用于简化采样过程，显著减少计算负担的同时保持感知质量。结合这些方法和技术，Imagen Video 不仅能生成高保真度的视频，还展现了卓越的可控性，如生成多样化视频、文字动画和各种艺术风格内容。

图 13: Imagen Video 总体架构图。来源：Imagen Video [29]。

(a)增加的时间层。通过加入能够学习把多帧整合成时间上一致的序列的时间层，一个预先训练好的LDM转化为视频生成器。在其优化阶段，图像的基础结构 Θ 保持不变，仅训练时间层 $ l_Φ^i $ 的参数 φ。

图 14: Video LDM 总体架构图。来源：Video LDM [36]。

(b)视频LDM架构。视频LDM首先生成稀疏的关键帧，接着利用相同的潜在扩散模型进行两次时间插值处理，从而达到高帧速率。最终，将潜在视频解码成像素级视频，还可以选择性地使用视频上采样扩散模型进行进一步处理。

图 14: Video LDM 总体架构图。来源：Video LDM [36]。

Blattmann等人[36]提出了一种方法，将二维潜在扩散模型转换为视频潜在扩散模型（Video LDM）。这一转换通过在U-Net骨干和VAE解码器的现有空间层中加入后期的时间层实现，从而使解码器学习如何对齐视频帧。这些时间层针对编码后的视频数据进行训练，而空间层则保持不变，使模型能够利用庞大的图像数据集进行预训练。通过对LDM解码器进行微调，提高了其在像素空间的时间连贯性，并对扩散模型的上采样器进行了时间对齐，以提升空间分辨率。为了生成极长的视频，模型被训练以预测在给定若干上下文帧的情况下的未来帧，这一过程中允许在采样时不使用分类器进行引导。为了实现高时间分辨率，视频合成过程被分为关键帧的生成和这些关键帧之间的插值。通过采用级联LDMs的方法，使用一个DM将Video LDM的输出放大4倍，既保证了高空间分辨率，又保持了时间上的连贯性。这种方法能够以计算效率高的方式生成全局一致的长视频。此外，作者还展示了如何将预训练的图像LDMs（例如Stable Diffusion）转化为文本到视频模型，仅通过训练时间对齐层，实现了高达1280×2048分辨率的视频合成。

3.3.1 讨论

通过级联扩散模型进行空间和时间上采样，Sora能够生成高分辨率视频。根据我们对现有工作的回顾和逆向工程分析，我们推测Sora采用了级联扩散模型架构[59]，该架构包括一个基础模型和多个时空细化模型。鉴于在基础扩散模型和低分辨率扩散模型中使用注意力机制的高计算成本和有限的性能提升，这些模型不太可能大量使用注意力模块。为了实现空间和时间上的场景一致性，以往的研究表明，与空间一致性相比，时间一致性对于视频/场景生成更为重要，因此Sora很可能采用了一种有效的训练策略，即使用分辨率较低的长视频来提高时间一致性。此外，Sora可能采用了v-参数化扩散模型[58]，因其性能优于其他预测原始潜变量$x$或噪声$ε$的模型变体。

关于潜编码器。为了提高训练效率，大多数现有研究利用了Stable Diffusions[60, 61]的预训练VAE编码器作为模型初始化的检查点。然而，这些编码器缺乏处理时间信息的能力。尽管有研究提出仅对解码器进行微调以处理时间信息，但在压缩潜空间中处理视频时间数据的性能仍有待提高。根据技术报告，我们的逆向工程发现，相比使用现有的预训练VAE编码器，Sora很可能采用了一种从头开始针对视频数据训练的时空VAE编码器，其在处理视频压缩潜空间数据方面的性能超过了现有的编码器。

3.4 语言指令遵循

用户通常通过称为文本提示的自然语言指令与生成式AI模型进行交互[62, 63]。模型指令调整的目的是提高AI模型精确遵循指令的能力。通过改善模型的指令遵循能力，可以使模型生成的输出更接近于对自然语言查询的人类反应。我们从大语言模型（LLMs）和DALL·E 3等文本到图像模型的指令遵循技术的回顾开始讨论。为了提升文本到视频模型遵循文本指令的能力，Sora采取了与DALL·E 3类似的方法。这一方法通过训练一个描述性字幕生成器，并使用该生成器生成的数据进行微调来实现。由于指令调整，Sora能够响应各种用户请求，精确关注指令中的细节，并生成准确满足用户需求的视频。

3.4.1 大语言模型

大语言模型遵循指令的能力已经得到了广泛的研究[64, 65, 66]。这种能力使得大语言模型能够读取、理解并适当地响应描述一个未见任务的指令，而不需要示例。通过对大语言模型进行指令调整，即在作为指令格式化的任务混合上进行微调，可以获得并增强这种提示遵循能力[64, 66]。Wei等人[65]展示了经过指令调整的大语言模型在未见任务上的性能显著优于未调整的模型。指令遵循能力将大语言模型转变为通用任务解决器，这标志着AI发展历史上的一个范式转变。

3.4.2 文本到图像

DALL·E 3中的指令遵循问题通过一个假设来解决，即模型训练中使用的文本-图像对的质量决定了最终文本到图像模型的性能[67]。数据质量不佳，尤其是噪声数据的普遍存在和省略大量视觉信息的简短标题，导致了许多问题，如忽略关键词和词序，误解用户意图[21]。通过用详细、描述性的字幕重新标注现有图像来解决这些问题。这种方法首先训练一个能生成精确描述性图像字幕的视觉-语言模型，然后使用这些描述性字幕来微调文本到图像模型。DALL·E 3采用对比字幕生成器（CoCa）[68]的策略，共同训练一个图像字幕生成器和CLIP[26]架构及一个语言模型目标。这个图像字幕生成器结合了图像编码器、用于提取语言信息的单模态文本编码器和多模态文本解码器。首先采用单模态图像和文本嵌入之间的对比损失，随后是多模态解码器输出的字幕损失。这种方法使得图像字幕生成器能够为图像生成详细描述性的字幕。文本到图像模型的训练数据集是由图像字幕生成器生成的重新标注数据集和真实人类编写的数据混合而成，以确保模型能够捕获用户输入。这种图像字幕改进方法引入了实际用户提示与训练数据中的描述性图像描述之间不匹配的潜在问题。DALL·E 3通过上采样来解决这个问题，其中大语言模型被用来将简短的用户提示重写为详细而长的指令，确保了模型在推理时接收到的文本输入与训练时的输入一致。

3.4.3 文本到视频

为了增强指令遵循能力，Sora采取了类似的字幕改进方法。这一方法首先训练一个能够为视频生成详细描述的视频字幕生成器，然后将这个视频字幕生成器应用于训练数据中的所有视频，生成高质量的（视频，描述性字幕）对，这些对用于微调Sora，以提升其指令遵循能力。

Sora的技术报告[3]没有具体说明视频字幕生成器的训练细节。鉴于视频字幕生成器是一个视频到文本的模型，构建它的方法有很多种。一种直接的方法是利用CoCa架构进行视频字幕制作，通过将视频的多个帧输入到图像编码器[68]，称为VideoCoCa[69]。VideoCoCa在CoCa的基础上建立，重用了图像编码器的预训练权重，并独立地应用于采样的视频帧。得到的帧token嵌入被展平并连成一个长序列的视频表示，这些展平的帧tokens随后经过一个生成池器和对比池器的处理，这些池器与对比损失和字幕损失一起进行训练。构建视频字幕生成器的其他替代方法包括mPLUG-2[70]、GIT[71]、FrozenBiLM[72]等。为了确保用户提示与训练数据中的描述性字幕格式一致，Sora进行了一个额外的提示扩展步骤，其中使用GPT-4V将用户输入扩展为详细的描述性提示。

3.4.4 讨论

指令遵循能力对于Sora生成长达一分钟、场景复杂且忠实于用户意图的视频至关重要。根据Sora的技术报告[3]，这种能力是通过开发一个能生成长而详细字幕的字幕生成器获得的，然后使用这些字幕来训练模型。然而，收集用于训练这种字幕生成器的数据的过程是未知的，并可能需要大量劳动，因为可能需要对视频进行详细描述。此外，描述性视频字幕生成器可能会虚构视频的重要细节。我们认为，改进视频字幕生成器的方法值得进一步探索，并且对于提升文本到图像模型的指令遵循能力至关重要。

3.5 提示工程学

提示工程学涉及精心设计和优化提供给AI系统的输入的过程，尤其是在生成模型领域，目的是为了获得特定或更优化的输出[73, 74, 75]。这一领域的艺术与科学在于如何巧妙构建输入，以指导模型生成尽可能准确、相关且连贯的回应。

3.5.1 文本提示

在引导文本到视频模型（如Sora [3]）生成既视觉上引人入胜又精确符合用户需求的视频方面，文本提示工程至关重要。这包括编写详尽的描述，以指导模型有效地弥合人类创造力与AI执行能力之间的差距[76]。Sora的提示覆盖了各种场景。最近的研究（如VoP [77]、Make-A-Video [28]、Tune-A-Video [78]）展示了提示工程如何利用模型的自然语言理解能力，解码复杂指令并将其转化为连贯、生动且高质量的视频叙事。例如图15所示，“一位穿着时尚的女士走在东京的霓虹灯下街道上……”就是一个精心构造的文本提示，确保Sora生成的视频与预期视觉紧密对应。优质的提示工程依赖于对词汇的慎重选择、提供细节的具体性，以及对这些因素如何影响模型输出的理解。比如，图15中的提示详细描述了动作、环境、角色外观，乃至期望的情绪和氛围。

图15：展示了文本到视频生成的提示工程案例研究，通过颜色编码来展示创造过程。蓝色高亮的文本描述了Sora生成的元素，如时尚女性的形象；而黄色高亮的文本则突出了模型如何理解动作、环境和角色外观，展示了如何将精心构造的提示转化为生动动态的视频叙事。

3.5.2 图像提示

图像提示作为即将生成的视频内容及其元素（如角色、背景、情绪等）的视觉锚点[79]。此外，文本提示还可以指导模型为这些元素添加运动层、互动和叙事进展，使静态图像活跃起来[27, 80, 81]。通过利用视觉和文本信息，图像提示使Sora能够将静态图像转换成动态的、以叙事为驱动的视频。如图16所展示的，我们展示了AI生成的视频，包括“一个戴贝雷帽和高领衫的柴犬”、“一个独特的怪物家庭”、“形成‘SORA’字样的云”以及“在历史长河中冲浪的冲浪者”。这些例子展示了通过DALL·E生成的图像提示Sora可以达到的效果。

图16：此例展示了图像提示如何指导Sora的文本到视频模型进行生成。红色框标出了每个场景的关键元素——不同设计的怪物、拼写“SORA”的云朵以及在装饰华丽的大厅面对巨大潮浪的冲浪者。

3.5.3 视频提示

视频提示也被用于视频生成，如[82, 83]中所示。最新研究（例如，Moonshot [84]和Fast-Vid2Vid [85]）指出，有效的视频提示需要具体而灵活，确保模型对特定目标，如特定物体的描绘和视觉主题的呈现，有明确的指导，同时也允许最终输出中有创造性的变化。例如，在视频扩展任务中，提示可以具体指明方向（时间向前或向后）以及扩展的上下文或主题。图17(a)中，视频提示指导Sora向时间的反方向扩展视频，以探索导致初始起点的事件。在图17(b)中展示的视频到视频编辑中，通过视频提示进行时，模型需要清晰理解所需转变的内容，如视频风格、场景或氛围的变化，或是细微的光照或情绪调整。图17(c)中的提示指导Sora连接视频，同时确保不同场景中的物体在视频间平滑过渡。

图17：这些示例展示了Sora模型的视频提示技术：(a) 视频扩展，这里模型将序列向后推到原始镜头；(b) 视频编辑，根据文本提示改变特定元素如场景；(c) 视频连接，两个独特的视频提示被无缝融合，创造出连贯的叙事。每个过程都由视觉锚点（红色框）引导，确保生成视频内容的连续性和准确性。

3.5.4 讨论

提示工程使用户能够引导AI模型生成与其意图一致的内容。例如，文本、图像和视频提示的综合使用让Sora能创作出不仅视觉上吸引人，而且与用户期望和意图紧密相连的内容。尽管之前的提示工程研究主要集中在LLMs和LVMs的文本和图像提示上[86, 87, 88]，但我们预计，对视频生成模型的视频提示将会逐渐受到更多关注。

3.6 信任度问题

随着ChatGPT [89]、GPT4-V [90]和Sora [3]等先进模型的迅速进步，这些模型的能力显著提高。这些进展不仅极大地提高了工作效率，也推动了技术进步。然而，这些进步也引发了对这些技术潜在滥用的担忧，包括制造假新闻[91, 92]、侵犯隐私[93]和伦理困境[94, 95]。因此，大模型的信任度问题引起了学术界和工业界的广泛关注，成为当前研究讨论的重点。

3.6.1 安全关切

模型的安全性是关注的主要领域，尤其是其对滥用和所谓的“越狱”攻击的抵抗能力，用户试图利用漏洞生成禁止或有害内容[96, 97, 98, 99, 100, 101, 102, 103, 104, 105]。例如，AutoDAN[103]引入了一种基于梯度技术的新型、可解释的对抗攻击方法，以实现系统绕过。最近的研究探讨了LLMs难以抵抗越狱攻击的两个原因：目标冲突和泛化不匹配[106]。除了文本攻击，视觉越狱也威胁到了多模态模型（如GPT-4V[90]和Sora[3]）的安全。最近的研究发现[107]，大型多模态模型由于额外的视觉输入的连续性和高维性，更容易受到对抗攻击的影响，扩大了攻击面。

3.6.2 其他滥用

由于大型基础模型（如ChatGPT[89]和Sora[3]）的训练数据集和训练方法的大规模性，增强这些模型的真实性变得十分必要，因为像幻觉这样的问题已经被广泛讨论[108]。在这里，幻觉指的是模型倾向于生成看似令人信服但实际上毫无根据或虚假的回答[96]。这一现象对模型输出的可靠性和信任度提出了关键性质疑，需要采取全面方法来评估和解决这一问题。大量研究致力于从不同角度解析幻觉问题，包括评估不同模型和情境中幻觉的程度和性质[109, 96, 110, 111]，为减少幻觉发生率制定策略奠定了基础。同时，大量研究专注于设计和实施减少这些大模型中幻觉的方法[112, 113, 114]。

公平性和偏见是信任度的另一个重要方面。开发不会传播或加剧社会偏见的模型至关重要，这源于认识到这些模型中的偏见可能强化现有的社会不平等，导致歧视性结果。如Gallegos等人[115]、Zhang等人[116]、Liang等人[117]和Friedrich等人[118]的研究所示，这一领域的工作致力于精确识别和纠正这些内在偏见。目标是培养公平操作的模型，公平对待所有个体，不对种族、性别或其他敏感属性产生偏见。这涉及检测和减轻数据集中的偏见，并设计能主动对抗这种偏见传播的算法[119, 120]。

隐私保护成为部署这些模型时的另一基石。在数据隐私问题日益增加的时代，保护用户数据的重要性空前突出。公众对个人数据处理方式的关注和担忧促使对大模型进行了更严格的评估，这些评估关注模型保护用户数据的能力，确保个人信息保密，不会意外泄露。Mireshghallah等人[121]、Plant等人[122]和Li等人[123]的研究代表了保护隐私的方法和技术的进步。

3.6.3 对齐

在应对这些挑战时，确保大模型的信任度成为研究者的主要关切之一[124, 96, 99, 125]。其中最重要的技术之一是模型对齐[125, 126]，旨在确保模型的行为和输出与人类设计者的意图和伦理标准一致。这关系到技术发展、其道德责任和社会价值。在大语言模型领域，采用了人类反馈强化学习（RLHF）[127, 128]方法进行模型对齐。这种方法结合了强化学习与直接人类反馈，使模型更好地与人类期望和标准对齐。

3.6.4 讨论

从Sora（特别是其技术报告）中，我们总结出一些有启发性的发现，为未来的工作提供了有价值的指导：

（1）模型与外部安全的综合保护：随着模型，尤其是在内容生成方面变得更强大，确保它们不被滥用来生成有害内容（如仇恨言论[129]和虚假信息[92, 91]）变得极其重要。除了模型自身的对齐外，外部安全措施同样重要，包括内容过滤和审查机制、使用权限和访问控制、数据隐私保护，以及透明度和可解释性的提升。例如，OpenAI现在使用检测分类器来判断视频是否由Sora[130]生成，并部署了文本分类器来检测潜在的有害文本输入[130]。

（2）多模态模型的安全挑战：像Sora这样的多模态模型，由于其理解和生成多种类型内容的能力，给安全带来了额外的复杂性。这些模型能以多种形式产生内容，增加了滥用和版权问题的可能性。由于多模态模型生成的内容更加复杂多样，传统的内容验证和真实性方法可能不再有效，需要开发新技术和方法来识别和过滤有害内容。

（3）跨学科合作的必要性：确保模型安全不仅是技术问题，还需要跨学科合作。解决这些挑战需要来自法律[131]、心理学[132]等领域的专家共同合作，制定适当的规范、政策和技术解决方案，这显著增加了解决这些问题的复杂性。

4 应用领域

随着视频扩散模型，特别是Sora这样的代表技术的出现，它们在各研究领域和行业中的应用正迅速扩展。这项技术的意义远超视频创作，它为从自动内容生成到复杂决策过程等任务开辟了变革性的新途径。本节将深入探讨视频扩散模型当前的应用情况，特别强调Sora不仅展现了其强大的能力，还彻底改变了我们解决复杂问题的方法。我们旨在提供一个关于实际应用场景的广阔视角（见图18）。

图 18：Sora 的应用

4.1 电影制作

传统的电影制作过程耗时长、成本高，需要数十年的时间、尖端设备和巨额投资。然而，先进的视频生成技术的出现，标志着电影制作新时代的到来，简单的文本输入即可自主制作电影的梦想正在变为现实。研究者已经开始探索利用视频生成模型来创造电影，例如MovieFactory[133]利用扩散模型从ChatGPT[89]产生的复杂剧本生成电影风格的视频，标志着重大进步。紧随其后，MobileVidFactory[134]能够仅通过用户提供的简单文本自动生成适用于移动设备的垂直视频。Vlogger[135]使用户能够制作长达一分钟的视频博客。这些进展，尤其是Sora轻松生成引人入胜电影内容的能力，标志着电影制作民主化的转折点。它们预示着一个任何人都能成为电影制作者的未来，大大降低了进入电影行业的门槛，为电影制作引入了将传统叙事与AI创造力结合的新维度。

4.2 教育

长期以来，教育内容主要由静态资源主导，这些资源虽有价值，但往往不能满足当代学生多样化的需求和学习风格。视频扩散模型引领着教育领域的一场革命，提供了前所未有的机会来定制和动态化教育材料，显著提高了学习者的参与度和理解力。这些先进技术使教育者能够将文本描述或课程大纲转化为动态、吸引人的视频内容，定制化地满足学习者的特定风格和兴趣[136, 137, 138, 139]。此外，图像到视频编辑技术[140, 141, 142]为将静态教育资源转换为互动视频开辟了创新途径，支持各种学习偏好，有潜力提高学生参与度。通过将这些模型整合到教育内容创作中，教育工作者可以生产关于各种主题的视频，使复杂概念更容易为学生所理解和吸引。Sora在教育领域的应用展示了这些技术的变革潜力，标志着向个性化、动态教育内容的重大转变。

4.3 游戏

游戏行业不断探索推动现实感和沉浸感的界限，但传统游戏开发常常受到预渲染环境和脚本事件限制的束缚。扩散模型能够实时生成动态、高保真视频内容和逼真的声音，有望克服现有限制，为开发者提供创造反应玩家行为和游戏事件的动态游戏环境的工具[143, 144]。这可能包括生成变化的天气状况、变换的景观，甚至即时创造全新场景，使游戏世界变得更加沉浸式和响应式。一些方法[145, 146]还能从视频输入合成逼真的碰撞声，增强游戏音效体验。通过将Sora融入游戏领域，可以创造出前所未有的沉浸式体验，吸引和投入玩家。这将革新游戏的开发、玩法和体验方式，同时为叙事、互动和沉浸开辟新的可能性。

4.4 医疗保健

尽管具有生成能力，视频扩散模型在理解和生成复杂视频序列方面表现出色，特别适用于识别身体内的动态异常，如早期细胞凋亡[147]、皮肤病变进展[148]和不规则人体运动[149]，这对早期疾病检测和干预策略至关重要。例如，MedSegDiff-V2[150]等模型利用变压器技术，以前所未有的精确度分割医学图像，使临床医生能够在各种成像方式中精确标定感兴趣区域。将Sora集成到临床实践不仅有望改善诊断过程，还能提供基于精确医学成像分析的个性化患者护理。然而，技术的整合也带来了自身的挑战，包括强化数据隐私保护措施和解决医疗保健中的伦理考虑。

4.5 机器人学

视频扩散模型在机器人学中扮演了重要角色，开启了一个新时代，在这个时代，机器人能够生成和解释复杂视频序列，以增强感知[152, 153]和决策能力[154, 155, 156]。这些模型为机器人解锁了新的能力，使它们能够与环境互动并执行前所未有的复杂和精确任务。引入网络规模的扩散模型到机器人学[152]展示了利用大规模模型增强机器人视觉和理解的潜力。潜在扩散模型用于语言指导的视频预测[157]，使机器人通过预测视频格式的动作结果来理解和执行任务。此外，通过能够创建高度真实视频序列的视频扩散模型，创新地解决了对模拟环境进行机器人研究的依赖[158, 159]。这使得为机器人生成多样化的训练场景成为可能，克服了真实世界数据稀缺的限制。我们相信，将Sora等技术整合到机器人学领域，将带来突破性的发展。利用Sora的力量，机器人学的未来将迎来前所未有的进步，机器人能够无缝地导航和与环境互动。

5 探讨

Sora在准确理解和执行人类的复杂指令方面展示出了显著的能力。这个模型擅长创作细节丰富、角色众多、场景精心设计的视频。Sora最引人注目的特点之一是它能够制作长达一分钟的视频，同时确保故事讲述连贯且引人入胜。这标志着相较于之前集中于制作较短视频片段的尝试，Sora的长序列视频在保持清晰叙事流动和从头到尾的视觉一致性方面的显著改进。此外，Sora通过生成更长的视频序列，捕捉复杂的动作和互动，超越了早期模型只能处理短片段和基本图像的限制。这一进步标志着AI驱动创意工具向前的一大步，使用户能够以前所未有的细节和复杂度将文字故事转化为生动的视频。

5.1 限制

物理真实性挑战。作为一个模拟平台，Sora展现了一系列限制，这些限制削弱了其准确呈现复杂场景的能力。其中最重要的是它对复杂场景中物理原则的处理不一致，导致未能准确复制特定因果示例的问题。例如，吃掉饼干的一部分可能不会留下相应的咬痕，显示出系统偶尔与物理可能性脱节。这一问题扩展到运动的模拟，Sora生成的运动挑战了真实的物理建模，如物体的不自然变形或刚性结构（如椅子）的不正确模拟，导致不真实的物理互动。在模拟对象和角色之间的复杂互动时，挑战进一步增加，偶尔产生倾向于幽默的结果。

空间和时间复杂性。Sora有时会误解与对象和角色在给定提示中的放置或排列相关的指令，导致方向混淆（例如，左右混淆）。此外，它在保持事件的时间准确性方面面临挑战，特别是在遵循指定的摄像机移动或序列方面。这可能导致场景的预期时间流动偏离。在涉及多个角色或元素的复杂场景中，Sora倾向于插入不相关的动物或人物。这种插入可能显著改变最初设想的场景构成和氛围，背离计划的叙事或视觉布局。这不仅影响模型准确再现特定场景或叙事的能力，还影响其生成内容与用户期望和生成结果的连贯性紧密对齐的可靠性。

人机交互（HCI）限制。Sora在视频生成领域展现出潜力，但在HCI方面存在显著限制。这些限制主要表现在用户系统交互的连贯性和效率上，特别是在对生成内容进行详细修改或优化时。例如，用户可能难以精确指定或调整视频中特定元素的展示，如动作细节和场景过渡。此外，Sora在理解复杂的语言指令或捕捉微妙的语义差异方面的限制可能导致视频内容未能完全符合用户的期望或需求。这些缺点限制了Sora在视频编辑和增强方面的应用潜力，也影响了用户体验的总体满意度。

使用限制。关于使用限制，OpenAI尚未为Sora向公众开放设定具体的发布日期，强调在广泛部署之前对安全性和准备情况采取谨慎态度。这表明Sora可能还需要在安全、隐私保护和内容审查等领域进行进一步改进和测试。此外，目前Sora只能生成长达一分钟的视频，且根据发布的案例，大多数生成的视频仅有几十秒长。这一限制减少了Sora在需要长时间内容展示的应用中的使用，如详细的教学视频或深入叙述。这一限制减少了Sora内容创作的灵活性。

5.2 机遇

学术界。（1）OpenAI引入Sora标志着向鼓励更广泛AI社区深入探索文本到视频模型、利用扩散和 Transfomer 技术的战略转变。这一举措旨在将重点转向直接从文本描述创建高度复杂和细腻视频内容的潜力，这是一个有望革命性改变内容创作、叙事和信息分享的前沿。（2）通过在其原生大小上训练Sora，而不是传统的调整大小或裁剪方法，为学术界提供了开创性的灵感。这一方法强调利用未修改的数据集的好处，开辟了新途径，导致更先进的生成模型的创建。

行业。（1）Sora目前的能力预示了视频模拟技术发展的有希望的路径，突出了在物理和数字领域显著增强真实性的潜力。Sora通过文本描述使创建高度真实环境成为可能的前景，为内容创作提供了光明的未来。这一潜力扩展到游戏开发的革新，展现了一个未来的视角，其中沉浸式生成的世界可以以前所未有的易用性和准确性被创造。（2）公司可以利用Sora制作快速适应市场变化的广告视频，创建定制化的营销内容。这不仅降低了生产成本，还增强了广告的吸引力和有效性。Sora仅从文本描述生成高度真实视频内容的能力可能会革命性地改变品牌与观众的互动方式，允许创造沉浸式和引人入胜的视频，以前所未有的方式捕捉他们的产品或服务的精髓。

社会。（1）虽然利用文本到视频技术取代传统电影制作的前景尚远，但Sora和类似平台对社交媒体内容创作的变革潜力巨大。当前视频长度的限制并未减少这些工具在使高质量视频制作对每个人都可访问方面的影响，使个人能够生产引人入胜的内容，而无需昂贵的设备。这代表了向赋予TikTok和Reels等平台的内容创作者更大能力的重大转变，带来了创意和参与的新时代。（2）编剧和创意专业人士可以使用Sora将书面剧本转换成视频，帮助他们更好地展示和分享他们的创意概念，甚至制作短片和动画。从剧本创造详细、生动的视频的能力可以从根本上改变电影制作和动画的前期制作过程，为未来的叙述者如何提案、开发和完善他们的叙述提供了一个窥视。（3）记者和新闻机构也可以利用Sora快速生成新闻报道或解释性视频，使新闻内容更生动和吸引人。这可以显著增加新闻报道的覆盖范围和观众参与度。通过提供一个可以模拟真实环境和场景的工具，Sora为视觉叙事提供了一个强大的解决方案，使记者能够通过引人入胜的视频传达以前难以或昂贵制作的复杂故事。总之，Sora在营销、新闻和娱乐方面革命性地改变内容创作的潜力巨大。

6 结论

我们提供了对Sora的全面审查，旨在帮助开发者和研究者了解Sora的能力和相关工作。这篇综述基于我们对已发布的技术报告和基于现有文献的逆向工程的调查。当Sora的API可用且有关Sora的更多细节被揭示时，我们将继续更新这篇论文。我们希望这篇综述论文对开源研究社区证明是一个宝贵的资源，并为社区未来共同开发Sora的开源版本奠定基础，在AIGC时代实现视频自动创建的民主化。为了实现这一目标，我们邀请在各个方面的讨论、建议和合作。

摘要#

1 简介#

2 背景#

2.1历史#

2.2 高级概念#

3 技术#

3.1 Sora 概述#

3.2 数据预处理#

3.2.1 时长、分辨率、宽高比的变化#

3.2.2 统一视觉表征#

3.2.3 视频压缩网络#

3.2.4 时空潜在补丁#

3.2.5 讨论#

3.2.6 扩散 Transformer#

3.3 建模#

3.3.1 讨论#

3.4 语言指令遵循#

3.4.1 大语言模型#

3.4.2 文本到图像#

3.4.3 文本到视频#

3.4.4 讨论#

3.5 提示工程学#

3.5.1 文本提示#

3.5.2 图像提示#

3.5.3 视频提示#

3.5.4 讨论#

3.6 信任度问题#

3.6.1 安全关切#

3.6.2 其他滥用#

3.6.3 对齐#

3.6.4 讨论#

4 应用领域#

4.1 电影制作#

4.2 教育#

4.3 游戏#

4.4 医疗保健#

4.5 机器人学#

5 探讨#

5.1 限制#

5.2 机遇#

6 结论#

摘要