Sora是什么
Sora 是由 OpenAI 开发的首个文生视频模型,它能够根据文本指令创建长达60秒的视频,这些视频不仅逼真,而且包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。据Sora 技术报告介绍,Sora不仅能够理解用户在提示中所要求的内容,还理解这些内容在物理世界中的存在方式。 Sora的横空出世,不仅颠覆了生成式AI在视频领域的市场格局,更预示着AGI(通用人工智能)将提前到来。
Sora的工作原理
Sora 的工作原理是使用扩散模型,它从一个看起来像静态噪声的视频开始,然后通过多个步骤逐渐去除噪声,最终生成视频。它使用类似于 GPT 模型的变换器架构,这使得它能够处理更广泛的视觉数据,包括不同的持续时间、分辨率和宽高比。Sora 还使用了 DALL·E 3 中的重述技术,为视觉训练数据生成高度描述性的字幕,从而使模型能够更忠实地遵循用户在生成视频中的文本指令。
文本提示词:几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,
午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。
Sora的核心能力
文本到视频生成能力
Sora能根据用户提供的文本描述生成长达60秒的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示词。而在Sora发布之前,市面上的AI视频模型大多只能生成3或4秒长的视频,不仅 角色形象扭曲,还得用户输入图片,而Sora则将AI生成视频长度扩展到了60秒。这意味着Sora生成的视频,能承载更多的信息、内容更为丰富,甚至达到了许多短视频平台发布内容的要求,
文本提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。
她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
复杂场景和角色生成能力
Sora不仅能够呈现提示词包含的元素,还理解这些元素在物理世界中的运动方式。此前的AI视频生成工具如Pika、runway等尝试过镜头和动作的处理,但相较之下,它们生成的视频运动生硬,且遇到大幅度动作的场景就会变形,导致很多AI视频看起来像PPT电影一样。然而,Sora对视频动态的处理已经非常接近现实了。例如Sora官网展示的这个视频案例,无论是动作的连贯性还是顺畅读度,Sora都处理得很好。
文本提示词:动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。
这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。
暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。
多镜头生成能力
目前,常见的AI视频工作流程是使用AI生成图片,然后再用这些图片生成视频。而Sora 具有创建多个镜头的能力,可以在同一视频中保持角色和视觉风格的准确度。此外,Sora 不仅能够从文本指令生成视频,还能够从现有的静态图像生成视频,或者扩展现有视频,填充缺失的帧。
文本提示词:赛博朋克背景下机器人的生活故事。
从静态图像生成视频能力
Sora 不仅能够仅从文本指令生成视频,还能够从现有的静态图像生成视频,或者扩展现有视频,填充缺失的帧。这些能力使得 Sora 成为理解现实世界并模拟其运动的基础,这对于实现通用人工智能(AGI)是一个重要的里程碑。
物理世界模拟能力
Sora展示了人工智能在理解真实世界场景并与之互动的能力,能够模拟真实物理世界的运动,如物体的移动和相互作用,这是实现通用人工智能(AGI)的重要里程碑。
文本提示词:无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。
远处有一座小岛,岛上有一座灯塔,悬崖边长满了绿色的灌木丛。
从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。
弱点
尽管 Sora 在生成视频方面表现出色,但它也存在一些弱点,比如在模拟复杂场景的物理规律时可能会遇到困难,可能无法理解特定事件的因果关系,例如,一个老奶奶产生了吹蜡烛的动作,但蜡烛没有熄灭。此外,模型可能会混淆提示中的空间细节,比如左右混淆,或者在描述随时间发生的事件时可能会有困难。
Sora将改变哪些行业
技术浪潮下,重塑与变革必然势不可挡。Sora 凭借高度还原能力,可能会对多个行业产生显著影响,包括但不限于以下几个领域:
✅ 内容创作与媒体产业:电影、广告、动画制作等行业可以利用Sora快速产出预览或初步版本的内容,节省大量的制作时间和成本。同时,Sora的多模态特性使得视频内容的创作更加灵活,创作者可以更容易地实现创意想法。
✅ 影视制作行业:Sora可以用于制作电影预告片、音乐视频、游戏预告等,提供更加丰富和吸引人的视觉体验。它还可以用于虚拟现实(VR)和增强现实(AR)内容的创作,为用户带来更加沉浸式的体验。
✅ 营销与广告:广告公司可以利用Sora快速生成符合品牌定位的视频内容,减少拍摄和后期制作的成本。同时,Sora可以根据市场反馈快速调整视频内容,提高广告的针对性和效果。
✅ 游戏设计开发:游戏开发者可以利用Sora生成游戏场景和角色动画,减少3D模型和动画制作的成本和时间。这将使得游戏开发更加高效,同时也能够快速迭代和更新游戏内容。
✅ 教育和培训:Sora 可以生成教育视频,帮助学生更好地理解复杂的概念,或者模拟实验和操作过程,提高学习效果。

浙公网安备 33010602011771号