Image and Video Compression with Neural Networks: A Review

基于神经网络视频和图形压缩技术的发展

简介压缩方法的发展，然后分别讲述了图像压缩和视频压缩的技术发展。

图像压缩方法的发展

早期直接使用熵编码减少图像的统计冗余(例如哈弗曼编码)。
1960s 提出变换编码，通过对空间频率进行编码来压缩图像，(例如傅里叶变换)。
1974离散余弦变换(Discrete Cosine Transform,DCT)在低频域压缩图像能量，从而使频域压缩变得更有效。
除了通过熵编码和变换技术减少统计冗余外，预测和量化技术也被提出来减少图像的空间冗余和

两个成熟的压缩标准

JPEG压缩标准集成之前的技术成为一个成功的图像压缩系统。
- 首先他将图形分为若干个块，然后将这些块转化到DCT域。
- 对每个块的直流分量采用差分脉冲编码调制 (DPCM)，从而压缩相邻 DCT 块之间直流分量的预测残差，而不是直接压缩直流值。
- 因为人的视觉对类似噪声的高频细节损失不太敏感，所以设计了一种特殊的量化表(special quantization table)保留低频信息，舍弃更多的高频信息。
JPEG 2000 则使用二维小波变换代替DCT变换，用紧凑的格式表示图像，并使用算术编码方法EBCOT来减少小波系数中的统计冗余。

视频压缩

由于短时间内捕捉到的连续帧之间存在高度相关性，可以通过帧间预测消除时间冗余(temporal redundancy)
为了有效获得帧间预测，1970s 提出了基于块的运动预测。
1979年，提出运功补偿变换框架，就是著名的 hybrid prediction/transform coder，此后发展出了，高级运动矢量预测（AMVP）和合并模式用于运动矢量预测编码，以及2000年提出的环路滤波器(loop filters)

近年来，基于视频和图像局部相关性传统混合视频编码框架越来越难以提升编码效率。

神经网络在图像压缩中的应用

CNN 可作为特征提取器，将图像和视频转化到紧凑表示的特征空间。(这篇文章着重将CNN网络的应用，应该也有其他类型网络在视频压缩中的应用)

多层感知机：

在1988年, Chua and Lin利用神经网络提出端到端的图像压缩框架将传统的压缩步骤——“变换，量化以及二进制编码” 表述为一个综合优化问题，然而，这种策略将神经网络参数固定为特定数量的二进制编码，难以适应最佳状态下的压缩率变化。
还有人提出使用降维神经网络来压缩图像，并将量化和熵编码作为单独的模块。但该模型泛化能力有限。
通过使用空间上下文信息，提出基于MLP的的预测图像编码算法。如图6所示，利用像素ABC来预测像素X，这种非线性预测可以将误差熵(error entropy) 降为 3.9 bits per pixel (bpp)。
1996 年，基于 MLP 的图像压缩技术提出了分层神经网络及其嵌套训练算法 (NTA)，缩短了训练时间。

随机神经网络(Random Neural Network based Image Coding)

随机神经网络的信号是空间域信号，通过梯度反向传播进行优化。有人讲随机神经网络用于图像压缩，使用自适应的逐块随机神经网络进行压缩/解压缩（有多个不同的压缩网络，以实现不同的压缩级别）

卷积神经网络 (Convolutional Neural Network based Coding)

CNN 采用卷积操作来表征相邻像素之间的相关性，级联卷积(cascaded convolution)则很好地符合自然图像的层次统计特性。
然而CNN在用于端到端图像压缩面临着一个问题：CNN的训练依赖反向传播和梯度下降算法，这两种算法要求损失函数对权重和偏置等参数几乎处处可微。而量化后的数据几乎处处产生0梯度
Balle´ 等人于 2016 年首次提出了一种在标量量化假设下用于图像压缩的端到端优化 CNN 框架，为解决以上0梯度问题，采用独立同分布的均匀加性噪声来模拟量化器来实现随机梯度下降。......

循环神经网络(Recurrent Neural Network based Coding)

Toderici 等提出了一种基于 RNN 的图像压缩方案，利用比例加成编码框架来限制编码位数，支持渐进式变比特率压缩，重建图像片段之间的残余信号可在下一次迭代中进一步压缩。

生成对抗网络(Generative Adversarial Network based Coding)

图像压缩任务中，一些研究工作侧重于解码图像的感知质量，并利用 GAN 提高编码性能。代表性作品之一是ripel和Bourdev在2017年提出基于GAN的图像压缩，不仅实现了惊人的压缩比提升，而且可以利用GPU的大量并行计算核实现实时运行。GAN生成的内容比特定的纹理更符合原始内容的语义。

神经网络在视频压缩中的应用

现在已经提出许多基于神经网络的图像压缩方法，可将其视为视频压缩的编码内策略，但其性能仅超过JPEG和JPEG2000，但是仍然低于HEVC。Cui 等提出预测内卷积神经网络（IPCNN）来提高预测内效率，是 CNN 集成到 HEVC 预测内的工作
Li 等人没有使用 CNN 来提高最佳 HEVC 内部预测的质量，而是提出了一种使用全连接网络的新内部预测模式（IPFCN）

posted @ 2023-10-18 21:10 浪矢-CL 阅读(25) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部