生成的策略
生成式人工智能的概念

文字由 Token 构成:
https://platform.openai.com/tokenizer


影像由像素(Pixel)所构成:
https://zh.wikipedia.org/zh-tw/%E5%83%8F%E7%B4%A0#/media/File:Pixel-example.png

每一个像素可以有多少顏色取決于 BPP (Bit per Pixel)
8 BPP → 256 色
16 BPP → 65536 色
24 BPP → 1670 万色
声音由取样点(Sample)所构成:
https://web.archive.org/web/20211027193750/
https://deepmind.com/blog/article/wavenet-generative-model-raw-audio

取样率 (Sampling Rate) 16KHz:每一秒有 16,000 个点 (不过现在基本上每秒钟要40000个点我们听着才比较悦耳):
研究人员通常避免对原始音频进行建模,因为其采样速度非常快:通常每秒 16,000 个样本或更多,并且在许多时间尺度上都包含重要的结构。构建一个完全自回归模型,其中每个样本的预测都会受到所有先前样本的影响(用统计学的术语来说,每个预测分布都以所有先前的观测结果为条件),这显然是一项艰巨的任务。
生成式人工智能的本质


生成的策略
Autoregressive Generation (AR)
Autoregressive Generation (AR) :自回归模型 (Autoregressive Model,简称AR模型)是统计领域用于处理时间序列数据的方法,通过自身历史数据预测未来趋势。
在文本上的表现:

在视频上的表现:

(2016 年《机器学习》秋季班上课录影) :https://youtu.be/YNUek8ioAJk?t=537

https://openai.com/blog/image-gpt/
在声音上的表现:
WavNet :https://arxiv.org/abs/1609.03499
https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/

上面的动画展示了 WaveNet 的结构。它是一个全卷积神经网络,其中卷积层具有各种扩张因子,使其感受野随深度呈指数增长,并覆盖数千个时间步。
在训练时,输入序列是从人类说话者录制的真实波形。训练完成后,我们可以对网络进行采样,生成合成语音。采样过程中的每一步,都会从网络计算的概率分布中提取一个值。然后,该值会被反馈到输入中,并对下一步进行新的预测。像这样一步一步地构建样本计算成本很高,但我们发现,这对于生成复杂、逼真的音频至关重要。
本质上的限制

https://www.eslite.com/product/1001110932518887 :
- 假设要生成 1024x1024解析度的图片,要做约100万次接龙!
等于每生一张图片都要写一部红楼梦:https://www.eslite.com/product/1001110932518887

- 假设要生成取样率22K的语音1分钟,要做约132万次接龙!
Non-autoregressive Generation
Autoregressive Generation (AR)

Non-autoregressive Generation (NAR)
Survey paper: https://arxiv.org/pdf/2204.09269

Non-Autoregressive Generation 的品质问题
生成往往需要AI自行脑补,给定条件仍有很多不同可能输出
“multi-modality problem”




让所有位置都脑补一样的内容 :

影像常用生成模型 VAE, GAN, Flow-based Model, Diffusion Model 都有这样的设计 :

Autoregressive + Non-autoregressive
先用 Autoregressive 生成一個精简的版本,再用 Non-autoregressive 生成产生精细的版本

https://arxiv.org/abs/2202.04200 :

上面不仅压缩像素点个数,还压缩了颜色种类(全彩色上千万个颜色压缩为1024个颜色)


https://arxiv.org/html/2402.13236v1 :


多次 Non-Autoregressive Generation

由小图到大图
https://arxiv.org/abs/2205.11487
https://arxiv.org/pdf/1710.10196

从有噪音到无噪音
Diffusion Model :https://arxiv.org/abs/2006.11239

每次把生不好的地方涂掉 :https://arxiv.org/abs/2202.04200


小结:
| 自回归(Autoregressive, AR) | 非自回归(Non - autoregressive, NAR) | |
|---|---|---|
| 特性 | 按部就班、各个击破 | 齐头并进、一次到位 |
| 速度 | 胜 | |
| 品质 | 胜 | |
| 应用 | 常用于文字 | 常用于影像 |
有很多方法让两种策略可以取长补短

浙公网安备 33010602011771号