Learning Content-Weighted Deep Image Compression
Abstruct 基于学习的像压缩 通常涉及rate-distortion的联合优化,并应对图像内容的空间变化和学习编码间的上下文依赖。大多数深度上下文模型计算成本高,无法有效的对并行符号解码。该文章提出了内容加权的编码器-解码器模型,量化器中采用信道多值量化技术对解码器特征进行离散化,并引入重要性映射自我来生成用于空间变换代码剪枝的重要性掩码。为了压缩编码,文章提出上三角掩蔽卷积网络(triuMCN),用于大上下文模型。
内容加权图形压缩网络(CWIC)包括三个部分:
- 编码器子网络 (包括共享部分和特定编码部分)
- 重要性映射子网络
- 解码器子网络

为了生成离散编码,编码器和重要性映射子网络的输出进行了量化操作。
编码器子网和解码器子网
- 编码器子网E(x)由两部分组成:共享部分\(E_s\)和特点编码部分\(E_p\)组成
- 解码子网为编码子网的镜像
![image]()
重要性子网
- 一般来说,图像传递的信息内容在空间上是有差异的。从图 3 中可以看出,有房子的区域比较突出,内容密集,而有天空的区域比较简单,信息含量少。在较低的比特率下,编码器特征图的通道数通常不应过多,以满足比特率限制。
- 因此,这可能会导致在保留突出结构和精细细节方面表现不佳,我们引入了重要性图子网来生成重要性图,以指导空间变化编码剪枝。在重要性图的指导下,为区域房屋分配更多比特、为区域天空分配更少比特是合理的。为此,我们采用了一种空间变化代码剪枝方法,即重要性图值越高,存储的量化表示通道越多
- 如图2所示,他将中间特征图\(E_s(x)\)作为输入,包括两个残差块和sigmoid的卷积层。重要性图p和编码器特征图e具有相同的大小为\(h \times w\),值为(0,1).
量化
- 对于e,使用通道多值量化Q,参数\(\theta_k\)={\(s_{k,0}\),\(s_{k,1}\),...,\(s_{k,T-1}\)} \(s_{k,t}\)表示第k个信道,第t个量化区间的大小.其中T是量化等级。第k个信道,第t个量化中心表示为
$ q_{k,t}=$ \(\textstyle\sum_{t'=0}^{t} {s_{k,t'}}\)
第k个信道的元素\(e_{kij}\)的量化等级....
整体来说,图像X输入后,得到\(E_s(x)\) -> e和p,特征图e被映射为Q(e),重要性图被映射为二元变量M(p)(重要则为1,不重要则为0),最终编码的结果为z=Q(e)* M(p). z作为解码子网络的输入,最终可将图形重构。
模型学习的量化宽松
如何解决量化带来的0梯度问题?提出两种宽松方法
- 为了放宽特征图的量化,引入基于直通估计的代理函数。
- 为了放宽重要性图的量化,采用两阶段放宽方法。


浙公网安备 33010602011771号