OpenAI首个AI文生视频模型“Sora”正式发布

人阅读 2024-03-13 08:15:54AI

　　近日，美国人工智能研究公司OpenAI推出了一款文生视频模型“Sora”。通过简短或详细的提示词描述，或一张静态图片，“Sora”就能生成类似电影的逼真场景，涵盖多个角色、不同类型动作和背景细节等，最高能生成1分钟左右的1080P高清视频。

　　OpenAI的官网介绍称，如果给定一段简短或详细的描述或一张静态图片，“Sora”就能生成类似电影的1080P场景，包含多个角色、不同类型的动作和背景细节。使用这款模型可以用文本生成长达一分钟的视频。开发这一模型旨在教会人工智能理解和模拟运动中的物理世界，并训练其帮助人们解决需要现实世界互动的问题。“Sora是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现通用人工智能（AGI）的重要里程碑。”

　　OpenAI表示，当前的模型存在弱点，可能难以准确地模拟复杂场景的物理表现，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。也可能无法理解因果关系的具体实例，并举例称，视频很可能会出现“一个人咬了一口饼干，但饼干上没有咬痕。”

　　“Sora”不仅能模拟真实世界，而且能学习摄影师和导演的表达手法，并在AI视频中展现出来。“我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。”OpenAI表示。整体来看，“Sora”生成的视频噪音比较少，原始的训练数据比较“干净”，而且基于ChatGPT、DALL·E文生图技术能力，“Sora”视频生成技术更加高超。

　　“Sora”已经成为了目前最强的AI视频生成类模型。