实现:We leverage a transformer architecture that operates on spacetime patches of video and image latent codes 我们利用一个 transformer 架构,该架构对视频和图像潜在编码的时空块进行操作。
意义:Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world. 我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
At a high level,我们首先将视频压缩到低维潜在空间,然后将representation分解为时空patches,从而将视频转换为patches.
4.
Video compression network 视频压缩网络
我们训练了一个降低视觉数据维度的网络VAE(Auto-Encoding Variational Bayes)。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。 Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型,将生成的latents映射回像素空间。
5.
Spacetime latent patches 时空潜在斑块
给定一个压缩的输入视频,我们提取一系列时空patch,充当transformer token。该方案也适用于图像,因为图像只是具有单帧的视频。我们基于patch的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的patch来控制生成视频的大小。
6.
Scaling transformers for video generation用于视频生成的缩放变压器
在这项工作中,我们发现diffusion transformers也可以有效地缩放为视频模型。下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显著提高。(Sample quality improves markedly as training compute increases.)