Image and Video Compression with Neural Networks: A Review

基于神经网络视频和图形压缩技术的发展

简介压缩方法的发展,然后分别讲述了图像压缩和视频压缩的技术发展。

图像压缩方法的发展

  • 早期直接使用熵编码减少图像的统计冗余(例如哈弗曼编码)。
  • 1960s 提出变换编码,通过对空间频率进行编码来压缩图像,(例如傅里叶变换)。
  • 1974离散余弦变换(Discrete Cosine Transform,DCT)在低频域压缩图像能量,从而使频域压缩变得更有效。
  • 除了通过熵编码和变换技术减少统计冗余外,预测和量化技术也被提出来减少图像的空间冗余和

两个成熟的压缩标准

  • JPEG压缩标准 集成之前的技术成为一个成功的图像压缩系统。
    • 首先他将图形分为若干个块,然后将这些块转化到DCT域。
    • 对每个块的直流分量采用差分脉冲编码调制 (DPCM),从而压缩相邻 DCT 块之间直流分量的预测残差,而不是直接压缩直流值。
    • 因为人的视觉对类似噪声的高频细节损失不太敏感,所以设计了一种特殊的量化表(special quantization table)保留低频信息,舍弃更多的高频信息。
  • JPEG 2000 则使用二维小波变换代替DCT变换,用紧凑的格式表示图像, 并使用算术编码方法EBCOT来减少小波系数中的统计冗余。

视频压缩

  • 由于短时间内捕捉到的连续帧之间存在高度相关性,可以通过帧间预测消除时间冗余(temporal redundancy)
  • 为了有效获得帧间预测,1970s 提出了基于块的运动预测。
  • 1979年,提出运功补偿变换框架,就是著名的 hybrid prediction/transform coder,此后发展出了,高级运动矢量预测(AMVP)和合并模式用于运动矢量预测编码,以及2000年提出的环路滤波器(loop filters)

近年来,基于视频和图像局部相关性 传统混合视频编码框架越来越难以提升编码效率。

神经网络在图像压缩中的应用

  • CNN 可作为特征提取器,将图像和视频转化到 紧凑表示的特征空间。(这篇文章着重将CNN网络的应用,应该也有其他类型网络在视频压缩中的应用)

多层感知机:

  • 在1988年, Chua and Lin利用神经网络提出端到端的图像压缩框架 将传统的压缩步骤——“变换,量化以及二进制编码” 表述为一个综合优化问题,然而,这种策略将神经网络参数固定为特定数量的二进制编码,难以适应最佳状态下的压缩率变化。
  • 还有人提出使用降维神经网络来压缩图像,并将量化和熵编码作为单独的模块。但该模型泛化能力有限。
  • 通过使用空间上下文信息,提出基于MLP的的预测图像编码算法。如图6所示,利用像素ABC来预测像素X,这种非线性预测可以将误差熵(error entropy) 降为 3.9 bits per pixel (bpp)。
    image
  • 1996 年,基于 MLP 的图像压缩技术提出了分层神经网络及其嵌套训练算法 (NTA),缩短了训练时间。

随机神经网络(Random Neural Network based Image Coding)

  • 随机神经网络的信号是空间域信号,通过梯度反向传播进行优化。有人讲随机神经网络用于图像压缩,使用自适应的逐块随机神经网络进行压缩/解压缩(有多个不同的压缩网络,以实现不同的压缩级别)

卷积神经网络 (Convolutional Neural Network based Coding)

  • CNN 采用卷积操作来表征相邻像素之间的相关性,级联卷积(cascaded convolution)则很好地符合自然图像的层次统计特性。
  • 然而CNN在用于端到端图像压缩面临着一个问题:CNN的训练依赖反向传播和梯度下降算法,这两种算法要求损失函数对权重和偏置等参数几乎处处可微。 而量化后的数据几乎处处产生0梯度
  • Balle´ 等人于 2016 年首次提出了一种在标量量化假设下用于图像压缩的端到端优化 CNN 框架,为解决以上0梯度问题,采用独立同分布的均匀加性噪声来模拟量化器 来实现随机梯度下降。......

循环神经网络(Recurrent Neural Network based Coding)

  • Toderici 等提出了一种基于 RNN 的图像压缩方案,利用比例加成编码框架来限制编码位数,支持渐进式变比特率压缩,重建图像片段之间的残余信号可在下一次迭代中进一步压缩。

生成对抗网络(Generative Adversarial Network based Coding)

  • 图像压缩任务中,一些研究工作侧重于解码图像的感知质量,并利用 GAN 提高编码性能。代表性作品之一是ripel和Bourdev在2017年提出基于GAN的图像压缩,不仅实现了惊人的压缩比提升,而且可以利用GPU的大量并行计算核实现实时运行。GAN生成的内容比特定的纹理更符合原始内容的语义。

神经网络在视频压缩中的应用

  • 现在已经提出许多基于神经网络的图像压缩方法,可将其视为视频压缩的编码内策略,但其性能仅超过JPEG和JPEG2000,但是仍然低于HEVC。Cui 等提出预测内卷积神经网络(IPCNN)来提高预测内效率,是 CNN 集成到 HEVC 预测内的工作
  • Li 等人没有使用 CNN 来提高最佳 HEVC 内部预测的质量,而是提出了一种使用全连接网络的新内部预测模式(IPFCN)
posted @ 2023-10-18 21:10  浪矢-CL  阅读(25)  评论(0编辑  收藏  举报