Sora | FisherAI

"Road to Sora" 论文阅读清单

鉴于 Sora 的官方文献尚未发布，本文的目标是寻找 OpenAI 发布的 Sora 技术报告中的线索。原文来戳这里。 Sora 是什么 Sora 以其从自然语言提示中生成高清视频的能力，在生成式 AI 领域引起了巨大轰动。如果你还没见过相关示例，这儿有一个生成的视频供你欣赏——视频展示了一只海龟在珊瑚礁中游泳的场景。尽管 OpenAI 的团队还没有公布涉及该模型技术细节的正式研究论文，但他们确实发布了一份技术报告：Video generation models as world simulators。这份报告概述了他们应用的一些高级技术和一些定性的研究成果。 Sora 架构概述在读过下列论文之后，你会开始理解这里所述的架构。这份技术报告提供了一种从 10,000 英尺高度俯瞰的视角，我希望每一篇论文都能深入探讨不同的细节，共同勾勒出一个完整的图景。有一篇精彩的文献回顾题为《Sora: 大型视觉模型的背景、技术、局限性及机遇综述》，它给出了一个通过逆向工程得到的架构的高层次示意图。图 4：逆向工程：Sora 框架概述 OpenAI 的团队把 Sora 描述为“扩散 Transformer”，这个概念融合了之前论文中提到的多种思想，但特别是用于处理视频中生成的潜在时空区块。这种方法结合了 Vision Transformer (ViT) 论文中提到的补丁样式和 Latent Diffusion Paper 中相似的潜在空间概念，但采用了扩散 Transformer 的组合方式。这不仅包括图像的宽度和高度方向上的补丁，还拓展到了视频的时间维度。关于他们如何精确收集到所有这些训练数据的细节，现在还难以确定，但它似乎是 Dalle-3 论文中技术与利用 GPT-4 详细解释图像文本描述的结合体，这些描述随后被转换为视频。训练数据可能是此处的核心秘密，因此技术报告中关于此的细节最为欠缺。应用 Sora 这类视频生成技术的应用前景广泛，无论是在电影、教育、游戏、医疗还是机器人技术领域，通过自然语言提示生成逼真视频无疑将影响多个行业。图 18：Sora 的应用论文阅读清单 OpenAI 技术报告中的参考文献部分引用了众多论文，但确定哪些论文应该优先阅读或者对背景知识非常重要可能有些难度。我们已经仔细筛选并挑选出了我们认为最具影响力和最值得阅读的论文，并按类别进行了整理。背景论文从 2015 年开始，生成图像和视频的质量持续提升。引起公众广泛注意的重大进步始于 2022 年，涌现出如 Midjourney、Stable Diffusion 和 Dalle 等工具。本节包含了一些被反复引用的基础论文和模型架构。虽然这些论文不全部直接关联 Sora 架构，但它们为理解艺术和技术水平如何随时间演进提供了重要的背景。...

Sora：大视觉模型的背景、技术、局限性和机遇回顾

这篇文章翻译了微软研究院基于已发表的Sora技术报告和逆向工程发表的一篇论文Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models，本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。摘要 Sora 是一款由 OpenAI 在 2024 年 2 月推出的文本转视频生成式 AI 模型。这款模型能够把文字指令转化为现实或虚构场景的视频，展现了在模拟现实世界方面的巨大潜力。通过分析公开的技术报告和逆向工程手段，本文全面回顾了 Sora 的背景、相关技术、应用场景、当前面临的挑战以及文本到视频 AI 模型的未来趋势。文章首先回顾了 Sora 的开发历程，探讨了构建这一“世界模拟器”的关键技术。接着，我们详尽介绍了 Sora 在电影制作、教育、市场营销等多个领域的应用及其潜在的行业影响。文中还讨论了为了让 Sora 得到广泛应用需要克服的主要挑战，比如确保视频生成的安全性和公正性。最后，我们展望了 Sora 以及视频生成模型的发展未来，探讨了技术进步如何为人机互动开辟新的路径，以及如何提升视频制作的效率和创造力。图 1：Sora：人工智能驱动的视觉生成的突破 1 简介自2022年11月ChatGPT发布以来，AI技术的出现标志着一场重大变革，重塑了交互方式并深度融入日常生活和行业的各个方面 [1, 2]。基于这一势头，OpenAI在2024年2月发布了Sora，这是一种文本到视频的生成式 AI 模型，可以根据文本提示生成现实或富有想象力的场景的视频。与以前的视频生成模型相比，Sora 的特点是能够生成长达 1 分钟的高质量视频，同时保持对用户文本指令的遵守 [3]。Sora 的这种进步体现了长期以来 AI 研究的使命，即让 AI 系统（或 AI Agents）具备理解和与物理世界动态交互的能力。这包括开发不仅能够理解复杂的指令，还能将这种理解运用于通过动态且富含场景信息的模拟，来解决现实世界的问题的 AI 模型。图 2：Sora 文本到视频生成的示例。向 OpenAI 的 Sora 模型提供了文本指令，模型根据这些指令生成了三个视频。如图 2 所示，Sora 能够出色地理解并执行复杂的指令，展现出令人印象深刻的能力。该模型可以生成包含多个角色执行特定动作、拥有复杂背景的详细场景。研究人员将 Sora 的熟练技能归因于其不仅能够处理用户给出的文本提示，还能辨别场景中元素之间复杂的相互作用。...

作为世界模拟器的视频生成模型 • OpenAI

本文翻译了OpenAI发布的有关Sora的技术报告，原文戳Video generation models as world simulators 。我们研究了在视频数据上进行生成式模型的大规模训练。更具体地说，我们对不同时长、分辨率和宽高比的视频及图片进行了文本条件下的扩散模型联合训练。我们采用了一种 Transformer 架构，这种架构可以处理视频和图像潜在编码的时空片段。我们开发的最大型号模型，Sora，具备生成一分钟长的高质量视频的能力。我们的研究成果显示，扩展视频生成模型的规模是向着创建能模拟物理世界的通用工具迈进的一个充满希望的方向。这份技术报告主要关注于：（1）我们将各类视觉数据转化为统一表示的方法，该方法使得生成模型的大规模训练成为可能；（2）对Sora能力和限制的定性评估。模型和实现的细节没有包含在这份报告中。众多先前的研究通过各种方式探索了视频数据的生成模型，涉及方法包括循环网络[1,2,3]、生成对抗网络[4,5,6,7]、自回归 Transformer[8,9] 以及扩散模型[10,11,12]。这些研究往往专注于特定种类的视觉数据、时长较短的视频，或者是固定尺寸的视频。而 Sora 是一个对视觉数据具有广泛适用性的模型——它能够创造出在持续时间、纵横比和分辨率上多样化的视频和图片，甚至能生成长达一分钟的高清视频。把视觉数据分割成补丁我们受到大语言模型的启发，这类模型通过在互联网大规模的数据集上进行训练，获得了通用的能力[13,14]。大语言模型成功的关键之一在于使用了能够优雅地统一不同文本形态（如代码、数学公式以及多种自然语言）的tokens。在这项工作中，我们探讨了视觉数据的生成模型如何借鉴此类优势。与大语言模型使用文本令牌不同，Sora 使用的是视觉补丁。先前的研究已经证明，对于视觉数据模型而言，补丁Patches是一种有效的表现形式[15,16,17,18]。我们发现，补丁是一种高度可扩展且有效的方式，适用于训练多样化视频和图片的生成模型。从宏观角度来看，我们将视频转换成补丁的过程首先是将视频压缩到一个低维度的潜在空间[19]，接着将这种表示分解为时空补丁。视频压缩网络我们开发了一个能够降低视觉数据维度的网络[20]。这个网络接受原始视频作为输入，输出一个在时间和空间维度上均进行了压缩的潜在表示。Sora 就是在这种压缩的潜在空间中接受训练，并能够在其中生成视频。此外，我们还设计了一个对应的解码模型，用于将生成的潜在数据重新映射到像素空间。时空补丁对于一个被压缩的输入视频，我们会提取一系列的时空补丁，它们在此过程中充当 Transformer 的令牌。这一方法同样适用于图片，因为从本质上讲，图片就是单帧的视频。我们采用的基于补丁的表示方法，使得 Sora 能够处理不同分辨率、时长和纵横比的视频和图片。在生成视频的推理阶段，我们可以通过按照适当的大小排列随机初始化的补丁，来控制最终视频的尺寸。用于视频生成的扩展Transformer Sora 属于扩散模型[21,22,23,24,25]；它能够接受带有噪声的补丁（以及如文本提示这样的条件信息）作为输入，并被训练以预测出原始的“干净”补丁。值得注意的是，Sora 实际上是一个diffusion Transformer[26]。在多个领域，包括语言模型[13,14]、计算机视觉[15,16,17,18]以及图像生成[27,28,29]，Transformer 都展现出了令人瞩目的扩展能力。在本研究中，我们还发现diffusion transformers 同样能够在视频模型方面有效扩展。接下来，我们将展示一个比较：随着训练进程的推进，使用固定种子和输入条件的视频样本展示。可以明显看到，随着训练计算量的增加，样本的质量有了显著的提升。基础计算 4倍计算 32倍计算持续时间、分辨率、纵横比的可变性以往在图像和视频生成领域，常见的做法是将视频调整至标准尺寸——比如，4秒长的视频以256x256的分辨率呈现。然而，我们发现直接在视频的原始尺寸上进行训练能够带来多重好处。采样灵活性 Sora 能够生成各种尺寸的视频，包括宽屏的1920x1080p、竖屏的1080x1920，以及这两者之间的任何尺寸。这让 Sora 能够直接针对不同设备的原生纵横比制作内容。此外，这还使我们能够在进行全分辨率输出之前，先以较低分辨率快速制作出原型内容——所有这些都可以通过同一个模型完成。构图与构成的改进我们的实验发现，在视频的原生纵横比上进行训练能显著改进视频的构图和画面布局。我们比较了 Sora 和另一个版本的模型，这个版本将所有训练用的视频裁剪成正方形——这是训练生成模型的一种常规做法。结果显示，那些在正方形视频上训练的模型（左侧）有时会生成主体只部分出现在画面中的视频。相比之下，Sora 生成的视频（右侧）在画面布局上有了明显的提升。语言理解训练文本生成视频的系统需依赖大量配有对应文字说明的视频。我们采用了 DALL·E 3[30] 中介绍的重新标注技术，将其应用于视频。首先，我们训练了一个能够生成高度描述性文字说明的模型，然后利用这个模型为我们训练集中的全部视频生成文本说明。我们的发现表明，使用这些高度描述性的视频说明进行训练，不仅能提高文本的准确度，也能显著提升视频的整体品质。与 DALL·E 3 类似，我们也采用 GPT 技术将用户的简短提示转化为更加详尽的描述，然后这些描述会被送到视频生成模型中。这一策略使得 Sora 能够根据用户的具体提示生成高质量且内容准确的视频。通过图像和视频进行提示我们网站上的示例，主要展示了从文本到视频的生成样本。然而，Sora 也能接受其他形式的输入，比如已有的图片或视频。这项能力让 Sora 能够完成多种图像和视频编辑任务，如制作完美循环的视频、为静态图片添加动效、以及在时间线上前后扩展视频等。...