OPAI发了一篇:
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
大意为:
我们正在探索对生成模型进行大规模训练的方法,该模型基于视频数据。具体而言,我们在变化时长、分辨率和长宽比的视频和图像上,联合训练了文本条件扩散模型。我们利用了一种变换器架构,该架构可以在视频和图像的潜在编码的时空补丁上进行操作。我们最大的模型名为Sora,能够生成一分钟的高保真度视频。我们的研究结果表明,扩展视频生成模型是构建通用物理世界模拟器的有希望的途径。
官方介绍:
我们正在教授AI理解和模拟物理世界的运动,目标是训练能帮助人们解决需要真实世界交互的问题的模型。
现在介绍一下我们的文本到视频模型,名为Sora。Sora可以生成长达一分钟的视频,同时保持视觉质量,并与用户的指令保持一致。
今天,我们将Sora提供给红队成员,以评估可能存在危害或风险的关键领域。我们还将授予一些视觉艺术家、设计师和电影制作人访问权限,以获得他们对如何推进该模型以使其对创意专业人士最有帮助的反馈。
我们提前分享我们的研究进展,与OpenAI以外的人合作并获得他们的反馈,以让公众对即将到来的AI能力有所了解。
研究技术
Sora是一个扩散模型,通过从一个看起来像静态噪声的视频开始,并逐步地在多个步骤中去除噪声,生成视频。
Sora能够一次性生成完整的视频,或者扩展生成的视频以使其变得更长。通过让模型能够同时预测多个帧,我们解决了一个具有挑战性的问题,即确保主体即使暂时脱离视野也保持不变。
与GPT模型类似,Sora使用了变换器架构,具有出色的扩展性能。
我们将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于GPT中的一个标记。通过统一我们表示数据的方式,我们可以训练扩散变换器处理比以前更广泛的视觉数据,涵盖不同的持续时间、分辨率和长宽比。
Sora借鉴了DALL·E和GPT模型的先前研究。它使用了来自DALL·E 3的重新描述技术,即为视觉训练数据生成高度描述性的字幕。因此,模型能够更加忠实地遵循用户的文本指令来生成视频。
除了能够仅通过文本指令生成视频,该模型还能够获取现有的静态图像,并根据它生成视频,准确地注重细节的动画展示图像内容。该模型还可以获取现有的视频并进行扩展或填充丢失的帧。更多详细信息请参阅我们的技术报告。
Sora为能够理解和模拟现实世界的模型奠定了基础,我们相信这是实现人工智能通用智能(AGI)的重要里程碑。