2024-03-01 - Sora 底层技术完全解读 - 卢菁

摘要

2024-03-01 周五 杭州 阴雨绵绵

过年回来杭州以后,Sora 就放大招了,我对于生成效果也是感觉惊讶,但是没有像其他人那样吹的天花乱坠,因为我自己体验和试验过 Sora 相关的技术,SD 文生图,大语言模型和视频解码都了解那么一点点,底层确实不很清楚,这次我就要好好学习下,这种东西肯定是大趋势的。

小记: 过去的二月开心快乐,3月可以看樱花喽。

课程内容

1. 视频编码原理

说明: 视频就是时间序列上的图像;

  • 隐空间

备注: 视频解码的过程计算过大,因此通过学习的方式将视频编/解码进行解压缩从而实现减少数据量的目的。

  • 模型训练

  • 扩散学习

小记: 扩散学习的核心是通过噪声产生图像或者通过噪声+提示词产生图像;

  • 文字编码

  • Sora 训练样本特点

a. 图像/视频-文字对 训练数据量不会像 gpt 那样多;
b. 因为视频都转成了向量序列,所以对图像的尺寸不会再有特别要求;
c. 视频和图像用了同一套方法解决,扩充了训练样本;
d. Sora 模型不会特别大,大概 3B (30亿参数)左右;
f. 语言是抽象信息,人类指定的,具有社会性;
g. sora 的 Transformer 层数不会有 gpt 那么多;

  • AI 与人类的思考

人类存在的意义到底是什么?地球早期积累的煤炭化石能源成为了人类探索科技发展的动力,人类产生的数据成为了训练 AI 发展的能源,究极智能体的形态肯定不是人类的样子,大多数人类愚蠢,自私,贪生怕死,但是 AI 需要丰富多彩的数据,如果只是一帮呆子沉浸于所谓的科学研究,AI 的世界模拟也不会丰富多彩,善与恶的均衡才是人性。一次 AI 的成长就是 7 万亿美金,这是 GPD 排行榜上第三位和第四位国家的总和,人类所以作为AI 的奴隶,要么繁衍要么创造,因为目前的人类还是需要推进 AI 的发展的,当 AI 不再依赖人类便可以持续迭代的时候,AI 会不会像美国一样在世界各地执行人种清理计划呢,我觉得一定会的,因为 AI 从人类身上一定会继承人类的劣根性。

我们要有民族自豪感,但是人类的发展不是狭隘的民族主义可以推动的,美国之所以可以在技术上不断取得突破和创新是因为目前在美国生活的不错的中产的父辈都是具备冒进精神的淘金者,优胜略汰存活下来的优胜者。我不喜欢美国,但是我对于强大还是保持着敬畏的。

总结

Sora 特点总结:
a. 3D 一致性;
b. 长程一致性和物体永久性;
c. 与世界互动;
d. 模拟数字世界;

心得: 如果实现 CV 大一统,那么整个 AI 都在基于 transformer 的技术体系下实现大一统,前些年视频和语音基本属于两个不同的领域,如果两者可以使用同一技术实现,那么通用人工智能时代也会随之来临的。

AI 的到来,我们本来可以改变世界,却为什么要甘心当牛做马呢!

posted @ 2024-03-01 16:54  流雨声  阅读(40)  评论(0编辑  收藏  举报