全部文章

生成的策略

生成式人工智能的概念

文字由 Token 构成:

https://platform.openai.com/tokenizer 

影像由像素(Pixel)所构成: 

https://zh.wikipedia.org/zh-tw/%E5%83%8F%E7%B4%A0#/media/File:Pixel-example.png 

每一个像素可以有多少顏色取決于 BPP (Bit per Pixel) 

8 BPP → 256 色

16 BPP → 65536 色

24 BPP → 1670 万色

声音由取样点(Sample)所构成:

https://web.archive.org/web/20211027193750/

https://deepmind.com/blog/article/wavenet-generative-model-raw-audio 

取样率 (Sampling Rate) 16KHz:每一秒有 16,000 个点 (不过现在基本上每秒钟要40000个点我们听着才比较悦耳):

研究人员通常避免对原始音频进行建模,因为其采样速度非常快:通常每秒 16,000 个样本或更多,并且在许多时间尺度上都包含重要的结构。构建一个完全自回归模型,其中每个样本的预测都会受到所有先前样本的影响(用统计学的术语来说,每个预测分布都以所有先前的观测结果为条件),这显然是一项艰巨的任务。

生成式人工智能的本质

生成的策略

Autoregressive Generation (AR) 

Autoregressive Generation (AR) :自回归模型 (Autoregressive Model,简称AR模型)是统计领域用于处理时间序列数据的方法,通过自身历史数据预测未来趋势。

在文本上的表现:

在视频上的表现:

(2016 年《机器学习》秋季班上课录影) :https://youtu.be/YNUek8ioAJk?t=537 

https://openai.com/blog/image-gpt/ 

在声音上的表现:

WavNet :https://arxiv.org/abs/1609.03499 

https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/

上面的动画展示了 WaveNet 的结构。它是一个全卷积神经网络,其中卷积层具有各种扩张因子,使其感受野随深度呈指数增长,并覆盖数千个时间步。

在训练时,输入序列是从人类说话者录制的真实波形。训练完成后,我们可以对网络进行采样,生成合成语音。采样过程中的每一步,都会从网络计算的概率分布中提取一个值。然后,该值会被反馈到输入中,并对下一步进行新的预测。像这样一步一步地构建样本计算成本很高,但我们发现,这对于生成复杂、逼真的音频至关重要。

本质上的限制

https://www.eslite.com/product/1001110932518887 :

  • 假设要生成 1024x1024解析度的图片,要做约100万次接龙!

等于每生一张图片都要写一部红楼梦:https://www.eslite.com/product/1001110932518887

  • 假设要生成取样率22K的语音1分钟,要做约132万次接龙!

Non-autoregressive Generation  

Autoregressive Generation (AR)  

Non-autoregressive Generation (NAR)  

Survey paper: https://arxiv.org/pdf/2204.09269 

Non-Autoregressive Generation 的品质问题 

生成往往需要AI自行脑补,给定条件仍有很多不同可能输出 

“multi-modality problem” 

让所有位置都脑补一样的内容 :

影像常用生成模型 VAE, GAN, Flow-based Model, Diffusion Model 都有这样的设计 :

Autoregressive + Non-autoregressive 

先用 Autoregressive 生成一個精简的版本,再用 Non-autoregressive 生成产生精细的版本 

https://arxiv.org/abs/2202.04200 :

上面不仅压缩像素点个数,还压缩了颜色种类(全彩色上千万个颜色压缩为1024个颜色)

https://arxiv.org/html/2402.13236v1 :

多次 Non-Autoregressive Generation 

由小图到大图 

https://arxiv.org/abs/2205.11487

https://arxiv.org/pdf/1710.10196 

从有噪音到无噪音 

Diffusion Model :https://arxiv.org/abs/2006.11239 

每次把生不好的地方涂掉 :https://arxiv.org/abs/2202.04200 

小结:

  自回归(Autoregressive, AR) 非自回归(Non - autoregressive, NAR)
特性 按部就班、各个击破 齐头并进、一次到位
速度  
品质  
应用 常用于文字 常用于影像

有很多方法让两种策略可以取长补短

 

 

posted @ 2025-07-28 16:38  指尖下的世界  阅读(20)  评论(0)    收藏  举报