生成的策略

生成式人工智能的概念

文字由 Token 构成：

https://platform.openai.com/tokenizer

影像由像素(Pixel)所构成：

https://zh.wikipedia.org/zh-tw/%E5%83%8F%E7%B4%A0#/media/File:Pixel-example.png

每一个像素可以有多少顏色取決于 BPP (Bit per Pixel)

8 BPP → 256 色

16 BPP → 65536 色

24 BPP → 1670 万色

声音由取样点(Sample)所构成：

https://web.archive.org/web/20211027193750/

https://deepmind.com/blog/article/wavenet-generative-model-raw-audio

取样率 (Sampling Rate) 16KHz：每一秒有 16,000 个点（不过现在基本上每秒钟要40000个点我们听着才比较悦耳）：

研究人员通常避免对原始音频进行建模，因为其采样速度非常快：通常每秒 16,000 个样本或更多，并且在许多时间尺度上都包含重要的结构。构建一个完全自回归模型，其中每个样本的预测都会受到所有先前样本的影响（用统计学的术语来说，每个预测分布都以所有先前的观测结果为条件），这显然是一项艰巨的任务。

生成式人工智能的本质

生成的策略

Autoregressive Generation (AR)

Autoregressive Generation (AR) ：自回归模型（Autoregressive Model，简称AR模型）是统计领域用于处理时间序列数据的方法，通过自身历史数据预测未来趋势。

在文本上的表现：

在视频上的表现：

(2016 年《机器学习》秋季班上课录影) ：https://youtu.be/YNUek8ioAJk?t=537

https://openai.com/blog/image-gpt/

在声音上的表现：

WavNet ：https://arxiv.org/abs/1609.03499

https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/

上面的动画展示了 WaveNet 的结构。它是一个全卷积神经网络，其中卷积层具有各种扩张因子，使其感受野随深度呈指数增长，并覆盖数千个时间步。

在训练时，输入序列是从人类说话者录制的真实波形。训练完成后，我们可以对网络进行采样，生成合成语音。采样过程中的每一步，都会从网络计算的概率分布中提取一个值。然后，该值会被反馈到输入中，并对下一步进行新的预测。像这样一步一步地构建样本计算成本很高，但我们发现，这对于生成复杂、逼真的音频至关重要。

本质上的限制

https://www.eslite.com/product/1001110932518887 ：

假设要生成 1024x1024解析度的图片，要做约100万次接龙!

等于每生一张图片都要写一部红楼梦：https://www.eslite.com/product/1001110932518887

假设要生成取样率22K的语音1分钟，要做约132万次接龙!

Non-autoregressive Generation

Autoregressive Generation (AR)

Non-autoregressive Generation (NAR)

Survey paper: https://arxiv.org/pdf/2204.09269

Non-Autoregressive Generation 的品质问题

生成往往需要AI自行脑补，给定条件仍有很多不同可能输出

“multi-modality problem”

让所有位置都脑补一样的内容：

影像常用生成模型 VAE, GAN, Flow-based Model, Diffusion Model 都有这样的设计：

Autoregressive + Non-autoregressive

先用 Autoregressive 生成一個精简的版本，再用 Non-autoregressive 生成产生精细的版本

https://arxiv.org/abs/2202.04200 ：

上面不仅压缩像素点个数，还压缩了颜色种类（全彩色上千万个颜色压缩为1024个颜色）

https://arxiv.org/html/2402.13236v1 ：

多次 Non-Autoregressive Generation

由小图到大图

https://arxiv.org/abs/2205.11487

https://arxiv.org/pdf/1710.10196

从有噪音到无噪音

Diffusion Model ：https://arxiv.org/abs/2006.11239

每次把生不好的地方涂掉：https://arxiv.org/abs/2202.04200

小结：

	自回归（Autoregressive, AR）	非自回归（Non - autoregressive, NAR）
特性	按部就班、各个击破	齐头并进、一次到位
速度		胜
品质	胜
应用	常用于文字	常用于影像

有很多方法让两种策略可以取长补短

posted @ 2025-07-28 16:38 指尖下的世界阅读(20) 评论(0) 收藏举报

刷新页面返回顶部

指尖下的世界

今日事今日毕,今日无事早休息.

生成的策略

生成式人工智能的概念

生成式人工智能的本质

生成的策略

Autoregressive Generation (AR)

Non-autoregressive Generation

Autoregressive + Non-autoregressive

多次 Non-Autoregressive Generation