Sora-OpenAI发布的人工智能文生视频大模型

前言

Sora是OpenAI于2024年2月15号发布的人工智能文生视频大模型。它可以根据用户输入的文本快速创建出逼真的视频。

Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。

其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。

Sora官方地址:
https://openai.com/sora

功能

功能综述

Sora可快速制作最长一分钟、准确反应用户提示、可一镜到底的视频,视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景”。

静态图生成视频

Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。

视频扩展与缺失帧填充

Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善。

连接视频

可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。

其他能力

图像生成、3D一致、远距离连贯性、物体持久性、互动性、模拟数字世界、多机位等。

缺点

Sora也存在以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件。

OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。

最后修改于:2024年03月19日 01:38

添加新评论