Master笔记 22-6-27 @GAN@汉字生成

2022-6-28 11:47:49

Paddle 生成对抗网络七日打卡营 GAN发展介绍

DCGAN
顾名思义,DCGAN主要讨论 CNN 与 GAN 如何结合使用并给出了一系列建议。由于卷积神经网络(Convolutional neural network, CNN)比MLP有更强的拟合与表达能力,并在判别式模型中取得了很大的成果。因此,Alec等人将CNN引入生成器和判别器,称作深度卷积对抗神经网络(Deep Convolutional GAN, DCGAN)。另外还讨论了 GAN 特征的可视化、潜在空间插值等问题。

ImprovedGAN
Ian Goodfellow 等人提供了诸多训练稳定 GAN 的建议,包括特征匹配、mini-batch 识别、历史平均、单边标签平滑以及虚拟批标准化等技巧。讨论了 GAN 不稳定性的最佳假设。

PACGAN
PACGAN讨论的是的如何分析 model collapse,以及提出了 PAC 判别器的方法用于解决 model collapse。思想其实就是将判别器的输入改成多个样本,这样判别器可以同时看到多个样本可以从一定程度上防止 model collapse。

WGAN
WGAN首先从理论上分析了原始 GAN 模型存在的训练不稳定、生成器和判别器的 loss 无法只是训练进程、生成样本缺乏多样性等问题,并通过改进算法流程针对性的给出了改进要点。

CycleGAN
CycleGAN讨论的是 image2image 的转换问题,提出了 Cycle consistency loss 来处理缺乏成对训练样本来做 image2image 的转换问题。Cycle Consistency Loss 背后的主要想法,图片 A 转化得到图片 B,再从图片 B 转换得到图片 A’,那么图片 A 和图片 A’应该是图一张图片。

Vid2Vid
Vid2Vid通过在生成器中加入光流约束,判别器中加入光流信息以及对前景和背景分别建模重点解决了视频转换过程中前后帧图像的不一致性问题。

PGGAN
PGGAN创造性地提出了以一种渐进增大(Progressive growing)的方式训练 GAN,利用逐渐增大的 PGGAN 网络实现了效果令人惊叹的生成图像。“Progressive Growing” 指的是先训练 4x4 的网络,然后训练 8x8,不断增大,最终达到 1024x1024。这既加快了训练速度,又大大稳定了训练速度,并且生成的图像质量非常高。

StackGAN
StackGAN是由文本生成图像,StackGAN 模型与 PGGAN 工作的原理很像,StackGAN 首先输出分辨率为 64×64 的图像,然后将其作为先验信息生成一个 256×256 分辨率的图像。

BigGAN
BigGAN模型是基于 ImageNet 生成图像质量最高的模型之一。该模型很难在本地机器上实现,而且 有许多组件,如 Self-Attention、 Spectral Normalization 和带有投影鉴别器的 cGAN 等。

StyleGAN
StyleGAN应该是截至目前最复杂的 GAN 模型,该模型借鉴了一种称为自适应实例标准化 (AdaIN) 的机制来控制潜在空间向量 z。虽然很难自己实现一个 StyleGAN,但是它提供了很多有趣的想法。

2022-6-28 11:47:49

Paddle 生成对抗网络七日打卡营 深度学习的发展历程

1981年的诺贝尔将颁发给了David Hubel和Torsten Wiesel,以及Roger Sperry。他们发现了人的视觉系统处理信息是分级的。
从视网膜(Retina)出发,经过低级的V1区提取边缘特征,到V2区的基本形状或目标的局部,再到高层的整个目标(如判定为一张人脸),以及到更高层的PFC(前额叶皮层)进行分类判断等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表达越来越抽象和概念化,也即越来越能表现语义或者意图。
深度学习,恰恰就是通过组合低层特征形成更加抽象的高层特征(或属性类别)。

人工智能是计算机科学的一个分支,研究计算机中智能行为的仿真。
机器学习是人工智能的一个分支,是实现人工智能的一种手段,通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。
深度学习是一种机器学习方法,给定一组它允许输入我们训练人工智能来预测输出

必备数学知识:https://aistudio.baidu.com/aistudio/projectdetail/4284421 (高数、线性代数和概率论的一些基础公式定理)

基于生成对抗网络的手写汉字生成技术研究 吕圣贵

判别模型达到最优的时候生成模型无法学习:
当判别模型 D 取最优时,生成模型损失函数等价于 \(2JS(P_r || P_g) - 2 \log 2\)
而用于衡量两个分布之间距离的 JS 散度有一个致命的缺点,就是当生成数据分布与真实数据分布的相关性不是很强时,JS 散度完全无法指导两者之间的距离,而是直接变为一个常数 0,用于指导生成模型 G 训练的依据也会随之变为一个定值,导致梯度变为 0。
[注]:Least Square GAN(LSGAN) 的东西

\(KL(P_g || P_r) - 2JS(P_r || P_g)\)作为损失函数的不合理之处:

  1. 左半部分表示的是生成数据分布与真实分布的一种距离衡量方法——KL散度,右半部分表示的是真实数据分布与生成数据分布之间的
    一种距离衡量方法——JS散度,二者矛盾,不可能同时取得最小,因此生成模型G在训练时梯度不稳定
  2. KL散度不满足对称性,\(KL(P_g || P_r) \ne KL(P_r || P_g)\),使得生成模型 G 宁愿生成种类较少的数据,也不愿生成错误的数据

总结:
先使用DC-GAN,然后做点小改动(W-GAN的EM距离)变成FEMD-GAN,再加点trick又换了个名字叫FMR-GAN。
总体来说不是很有意思,主要就是结合前人已有的方法,对GAN研究现状概括也不够新,全文透露着水字数的氛围,简单的一个东西重复解释多遍,
难一点的公式却没有推导也没有说明,直接用“可推导”带过,合理推测他自己并没有搞清楚原理。还有错别字等错误。
最后与zi2zi的对比有不公平的嫌疑,且不说zi2zi实际效果很不错:https://kaonashi-tyc.github.io/2017/04/06/zi2zi.html
作者根本没有明确zi2zi的环境配置是否与自己的模型一致,毕竟根据作者的模型一共训练了20000个epoch,batchsize=128,效果却不太好
而zi2zi在我自己训练来看,同样是由字体文件提取的数据集,同样batchsize,我仅仅训练了100个epoch就明显成效
同时根据作者的对比图,生成的汉字似乎都是灰度图,显得很淡,实际上没有必要吧,处理成黑白二值就可以

2022-6-30 10:33:25

基于生成式对抗网络的汉字风格迁移方法 牛一

来自《信息与电脑》杂志
公式中存在拼写错误,影响阅读

LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子;它具有旋转不变性(改进后具备)和灰度不变性(对光照具有鲁棒性)等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出,用于纹理特征提取,提取的特征是图像的局部的纹理特征。

LBP特征向量提取步骤

  1. 首先将检测窗口划分为16×16的小区域(cell);
  2. 对于每个cell中的一个像素,将其与周围相邻8个像素进行比较,周围像素大于中心则记1否则记0,按固定顺序排列产生的8个二进制数,其对应十进制数作为中心像素的LBP值
  3. 计算每个cell的直方图,即每个数字(假定是十进制数LBP值)出现的频率;然后对该直方图进行归一化处理。
  4. 最后将得到的每个cell的统计直方图进行连接成为一个特征向量,也就是整幅图的LBP纹理特征向量;

内存为 8 GB,双核 Inter CPU I7,图形处理器为 NVIDIA GTX950M。使用训练集中的全部样本训练 40 次,最大迭代次数设置为1000 次,每次训练的样本数目设置为 16 个。实验数据集从经典宋体以及经典书法楷体两种字体中各随机抽取 1000 个字组成,从两种字体各随机选出 900 个字作为训练数据来进行模型训练,另外 100 个字作为测试数据。

硬件不强,数据集也小,但是根据放出来的图效果却很好,吊打上面那个FMR-GAN,可惜没有放出数据集制作跟训练细节。
只是实验太简洁,模型也没有讲解,看起来就是用LBP算法提取字体图片特征作为Cycle-GAN输入,不是很有趣,但LBP看起来确实很有用。

结构相似性(SSIM, Structural Similarity Index Measure): 一种衡量两张图像相似性的常用指标,其基于两张图的
索引计算来表达图像的相似度

作者使用SSIM比较Cycle-GAN输入是否为LBP特征下生成字体与目标字体的相似度
结语提到"训练网络时耗时较长",不知道实验结果图里的字是否存在训练集中,好奇对于数据及之外的字是否能保持良好的生成效果。

【论文阅读】DCFont: An End-To-End Deep Chinese Font Generation System

https://blog.csdn.net/weixin_45740118/article/details/118700465
从用户书写的少量(例如775个)字符中自动生成由6763个汉字组成的整个GB2312字库
将汉字信息分为Content、Style和Category三个部分,使用GAN的思路来训练
使用20种不同的字体对网络进行预训练,每种字体有2000个常用汉字。在一个GPU上进行预训练大约需要三天时间。当学习一种特定手写风格时,该网络可以在不到两个小时内从预训练模型中微调出来。
光看结果似乎比zi2zi好了不少,但找不到代码实现(github上同名仓库却是韩语,用的tensorflow),难以判断

用GAN生成自己的手写字体

https://zhuanlan.zhihu.com/p/164881436
W-Net: One-Shot Arbitrary-Style Chinese Character Generation with Deep Neural Networks
号称One-Shot,只需要一个字就能生成一套字体,比zi2zi(2000),DCFont(700)方便很多
但是论文难以入手,代码仓库,代码基于tensorflow跟py2.7,文件夹一大堆,文件也很乱,缺少注释,commit注释居然是提交日期,让人没有细看的欲望
文章作者用pytorch实现,但未完成,也难以与其他模型比较

基于深度学习的中文字体风格转换研究综述

提及数据集:可直接从网上获取的有 CASIA-HWDB、FlexiFont 手写字体库、兰亭数据集、中国书法文字图像库
评价指标:内容识别准确率、风格分类准确率、交并比、均方误差、结构相似性、FID、豪斯多夫距离

现有方法中,大多数模型已经能够生成结构正确的中文字符,但是这些模型大多有同样的缺陷,即生成字符的风格与目标字体的风格只是略有相似,而不是完全一致
提及的几个问题:

  1. 深度神经网络的不可解释性,难以改动网络学习到的风格特征
  2. 缺少规范的评价标准,审美评价难以量化,没有对汉字的客观标准
  3. 手写字体风格的个性化差异,同一个人多次书写同一个字,字形通常也存在一定的差异,这并非是不同风格的字形,而是同一风格下的个性化差异
  4. 少样本学习的研究,仅有W-Net能用单样本进行转换,但网络性能不理想
  5. 书法字体风格的学习,书法相比手写字体更少被研究,而其中草书的风格特征更是难以学习

结语:利用深度神经网络学习字体风格特征比传统方法手动设计特征更加高效准确,但现有方法
的生成结果达不到手写的水平

2022年7月1日11:44:11

基于残差生成对抗网络的书法字体生成方法 赵静

又是以zi2zi为基础,加了一些残差连接,说什么三要素损失函数,就是对抗损失、L1损失和一个重构损失之和,
还不如zi2zi的复杂,真能比zi2zi效果好?而且那个重构损失是 \(G(z|G(z|y))和G(z|y)\) 的均方差,
跟zi2zi中考虑生成图片跟真实图片之间的const_loss很像。但这个能够改进L1损失造成的生成图片模糊?

数据集同样是类似zi2zi的字体文件得来,更倾向于书法

本文实验使用的操作系统为Ubuntu16.06,图像处理器(GPU)采用 NVIDIAGTX1080Ti,网 络 框 架 使 用 基 于 GPU 版 本 的 Tensor-flow1.2深度学习框架。实验数据从制作的数据集中随机选取900个作为训练样本,设置图片大小为256×256像素,迭代次数为500,批处理大小设为16,初始化学习率为0.001。基于本文的网络结构对4种不同风格字体进行训练学习

作为2021年的论文这实验环境真是谨慎,训练比基于生成式对抗网络的汉字风格迁移方法更加粗糙,数据集一样地小,但是1080ti为什么只设置batchsize=16,这也太小了。实测zi2zi在16GB显存的P100能塞128+个样本。

一会"骨干网络",一会"骨干网路"?光看效果倒是比zi2zi好很多,而且残差连接确实使得生成的字体更加清晰

骨干网络 Zi2zi在特征提取中仅使用普通的卷积网络,存在对字体特征细节描述不准确,生成字体模糊的问题。
看这描述似乎真就是比zi2zi多了个残差连接

评价指标引入了个MOS(Mean Opinion Score),平均主观意见分。
似乎多用于通信系统语音质量的评价,在国际标准中,统一使用MOS值来评价系统接收到的经过压缩后的话音质量。
但这里似乎就是一个各评委评分的平均值而已

最后也没有明确生成的同一个字是否会有多样性,应该是不具备。

基于改进生成对抗网络的汉字字体生成算法 王江江

在训练过程中使用了四个损失函数: 对抗损失、像素损失、类别损失和感知损失
除了不知道是什么东西的感知损失“而感知损失从感知方面衡量它们之间的差异”,真的跟zi2zi好像

本文从字体设计网站上选择了江南手书、刻石录颜体、刻石录钢笔鹤体三种字体构建本文多风格汉字字体数据集。每种字体使用 ImageFont模块转为图像,每种字体的包含大约 4000 张汉字图像,同时本文将图像大小统一为 256 × 256 × 3。数据集中部分汉字字体图像如图 2 所。采用源字体为黑体。训练集分别由 2000 个源字符图像和2 000 个对应的来自其他风格的目标字符图像组成。源字体中剩余的字符图像用于测试。汉字字体图像均为灰度图像,同时本文也对不同风格的汉字字体图像进行了中心对齐。

大小为2000的训练集,图像大小256,灰度图,对齐,就是用的字体远比zi2zi少

实验采用 3 种不同风格字体进行对比实验,字体数量选择 500、1 000、1500、2 000、2 500、3 000。采用 RMSE 定性指标进行评价。
总之根据这个RMSE指标,训练集大小定为2000比较有性价比,再大的话对字体生成没有明显贡献。

同样的网络架构,跟基于残差生成对抗网络的书法字体生成方法一样的残差连接
公式观感非常差,用的不是常见的符号,也不进行解释

感知损失探索了从训练有素的 CNN 提取的图像的高维表示之间的差异。
本文在汉字字体生成中,要求生成的汉字字体图像与目标字体图像在汉字的形状结构方面保持一致性,这样的一致性可以用感知损失函数来进行权衡
似乎就是zi2zi里面的l1_loss

采用了均方根误差( Root Mean Square Error,RMSE) 和像素差异率(Pixel Disagreement Ratio,APDR) 这两个定量值作为评价标准

采用 Adam[23]优化方法对所提模型进行训练,并将学习率设置为 0. 000 1,判别器 D 先训练,生成器 G 次之,交替进行训练。在本文构建的多风格汉字字体数据集上训练 40 轮,每轮次 10 000 次,批次大小设置为 1。学习率遵循 StepLR 策略,每 50 次迭代降 低一次。本文所有的实验都是在 Ubuntu18. 04 系统,Intel(R) Core(TM) i7 - 7700K CPU,英伟达 GeForce GTX TITAN XP GPU 上进行的。

batchsize=1??这么奢侈,而且lr=0.0001,究竟花了多久时间。再者"训练 40 轮,每轮次 10 000 次",
可是学习率“每 50 次迭代降低一次”,如果是epoch那明显不对,epoch才40,要是step这也太频繁了,究竟是如何训练难度?

生成结果看来效果也很好,但是部分汉字似乎颜色跟别的不一样,也没有解释

本文提出的 U-Net 网络结构以及感知损失函数,能够保留笔画的重要信息特征,做到了一致性
真好意思啊,明明是zi2zi先用的

通过与 Pix2pix、Zi2zi、HGAN 三种经典模型在同一风格生成效果分析,可以看出本文模型无论在简单还是复杂的字体结构中均取得比较好的生成效果;
pix2pix每次都被拉出来垫底,明明不是专门用于汉字生成的。就对比来看本文的方法并没有很明显的优势。
这么多篇论文都跟多年前的zi2zi比较,这些互相之间也不比较一下,zi2zi到底养活了多少论文,令人感叹
主要是这些都说效果好,每一个能离开zi2zi,也没有开源代码,难以验证

基于生成对抗网络的汉字自动生成方法研究 陈琪

汉字自动生成任务还可以运用到书法作品生成、艺术字体生成、手写字体生成和签名鉴定等多种实际应用中
这些任务之间差别还挺大的

第三章主要介绍了一种基于笔画编码的单风格汉字生成模型;第四章主要介绍了一种基于“田字格”的单风格汉字生成模型;第五章主要介绍了基于“StarGAN”的多风格的汉字生成模型
并非同一模型的改进,而是完全不同的方法实现

StarGAN 沿用了 CycleGAN的循环一致性损失,将生成的图片再次通过生成器得到重构图片,并通过缩小输入图片和重构图片的距离来保持内容一致性。
那么同理不断将生成器输出喂回输入,最终的输出仍要与输入接近,比较先不论风格,内容应当一致,这点保证了生成的汉字内容能够用输入的源汉字限制

StarGAN 的生成器的输入信息是输入图片和需要输出图片所属的域信息标签,输出为目标域的假图片,判别器除了需要判断输入图片是真实图片还是生成器生成的假图片之外,还需要判断输入图片属于哪一个域并输出相应的域信息标签。
听起来跟zi2zi的category_loss蛮像的,似乎也是用于约束生成特定的汉字

但这论文也太啰嗦了,从人工神经网络到各种GAN,甚至开始介绍各种优化算法,搁这水字数呢

2022年7月2日10:28:13

基于生成对抗网络的汉字自动生成方法研究 陈琪

第三章的方法

生成器的目标是将源风格域的汉字转换成目标风格域的汉字
判别器除了需要学习区分真实图片与生成的虚假图片之外,还需要判断输入的图片包含笔画的种类,并输出预测的笔画标签信息

同样也有类似前者的将生成图片再次输入生成器的重构损失,即CycleGAN的的循环一致性损失。
最终总损失由对抗损失、循环一致性损失、笔画重构损失构成(就是真实笔画标签和判别器输出标签的L2范数)

32 位的标签\(𝑐\in \{0,1\}^{32}\),标签的第一位代表“横”、第二位代表“提”、第三位代表“竖”以此类推直到第三十二位代表卧钩

但这里多了一个32位二进制数的笔画标签,描述构成该汉字的笔画种类
判别器负责预测生成汉字对应的笔画标签

数据集方面用了CASIA-HWDB 中的 HWDB1.1 数据集、网上的一些TTF字体文件(手写体、黑体、楷体、仿宋体、华文琥珀体、舒体、汉仪凌波体、汉仪
娃娃体和汉仪细圆体)

评价指标

  1. 内容准确率,预训练的HCCG-GoogLeNet识别生成的汉字,能够识别说明生成的质量不错
  2. 识别准确率,找5个人来认字,取平均值
  3. 笔画误差,统计生成汉字缺失的笔画或冗余的笔画和汉字真实笔画的之间的比值(大概利用了那32位的笔画标签)

本文采用生成器的网络结构与 CycleGAN 的相同,判别器与 PatchGAN 的网络结构类似

PatchGAN就是CycleGAN的判别器,由一些卷积、norm和relu层堆叠而来的全卷积结构,最终输出跟采用的label形状都是\(n\times n\),结构类似指的是更改了输出层

本文中所涉及的实验采用设备的配置为 AMD Ryzen 7 2700x 8 核 16 线程的CPU,GeForce RTX 2080 GPU,操作系统为 Linux,运行内存为 32GB。
最后还是把提出的StrokeGAN跟zi2zi对比了一下,略微胜出,但zi2zi可是17年的东西了,而且这里用到的笔画标签不知道是不是要人工标注,还是比较麻烦的。

第四章的方法

第四章提出了一个基于“田字格”几何变换的自监督汉字生成模型,主要是将汉字放在田字格里面然后均分为4块,通过四块位置互换打乱汉字结构,并且让判别器预测打乱的方式,从而使模型学习到汉字结构。这个对应的田字格几何变换重构损失就是将判别器预测的变换方式编码与标签编码的L2范数。

两类数据集一共包含了 10 种不同的汉字风格,这些汉字的风格分别为简舒体、华文琥珀体、汉仪凌波体、手写体、仿宋体、汉仪娃娃体、汉仪细圆体、方正经黑手写简体、楷体和黑体

本章节采用的网络结构与第三章节的 StrokeGAN 基本一致, 仅在判别器的最后的输出层中将卷积核的数量改为 32。优化器采用 Adam,参数设置为(0.5,0.999)。网络学习率固定为 0.0002,批量样本大小 Batchsize 设置为 2。

batchsize还是好小,明明用的是2080Ti,难道小的batchsize反而会更好吗?迷惑

评价指标

  1. 准确率
  2. Frechet Inception Distance(FID)
  3. L1损失
  4. Intersection over Union(IOU)

就结果来看仍然优于CycleGAN,可惜没有跟第三章那个进行比较

文章还提到两种自监督任务

  1. 基于旋转角度的分类任务:是将图片按照 0°、90°、180°和 270°进行旋转,然后在通过判别器进行分类的辅助任务
  2. 基于判别局部像素块归属的分类任务:随机选取两张图片并在其中一张图片截取局部像素块,而后通过判别器进行区分该像素块来源于哪一张图片

作者绝对用的拼音输入法,同音错别字层出不穷。总之通过对比还是作者提出来的这个田字格自监督任务效果好,毕竟与汉字更加贴近

第五章的方法

多风格汉字生成模型则只需要训练一个生成模型就是能实现多个风格的汉字相互转换
这里借助StarGAN学习各种字体两两之间的风格转换,而zi2zi是学习从单一源字体到多种目标字体的转换,更贴合制作自己的手写字体这一目的。突然发现这篇论文似乎不是出于某一实用目的,而是随心所欲地?研究了多种不同的汉字生成方式

生成器的输入信息除了源域风格的汉字图片外,还需要拼接目标风格域的标签信息。在训练过程中,目标域的标签是随机生成的

看起来跟zi2zi采取的方式挺像的,只是zi2zi用一个int作为label标记从源字体到一种目标字体的转换,label本身不含的风格信息。

生成器的域分类损失难以理解,也不解释一下
多样性损失倒是详细介绍:是针对两个形似源风格的汉字𝑥和𝑥′,生成器会生成两个形近的目标风格汉字𝐺(𝑥, 𝑐)和𝐺(𝑥′, 𝑐)
发生模式坍塌时,说明生成器生成的两张目标风格图片之间的距离非常近,并且二者之间的距离远远小于输入的两张源风格汉字图片的距离
因此定义多样性损失为 两个不同原图像跟同一域信息生成的图片之间的L1范数 与 两张源图像L1范数 的比值,目标应该是最大化这个比值。
逆天,给出的公式符号跟最终总损失里用的还不一样,让读者猜吗?

评价标准

  1. 内容准确率,还是第三章节提到的训练好的 HCCG-GooLeNet模型
  2. 风格多样性,测量量真实数据样本集与生成数据样本集的Frechet Inception Distance(FID)值

生成器的中采用了谱归一化(Spectral Normalization,SN)作为归一化方法,谱归一化嵌入模型中能提高模型在训练过程的稳定性
最终的效果没跟前面两章的比,也没跟他人的模型比较,甚至没有贴出目标字体,图中的标签跟文本描述还不一致

对于一个汉字来说,判断其生成的是否为正确的汉字是简单的,困难的是判断生成的汉字是否属于某一个风格。

因此作者认为需要一种新的汉字评价标准,值得研究

谷歌卷自己,继 Imagen 之后继续放大招:靠 200 亿参数由文本生成的图像惊呆网友!

这一最新模型被命名为 Parti(Pathways Autoregressive Text-to-Image)。虽然 Imagen 和 DALL· E2 是一种扩散模型,但 Parti 遵循 DALL· E 的足迹作为自回归模型。无论其架构和培训方法如何,最终用途都是一样的:这些模型(包括 Parti)将根据用户的文本输入生成细致的图像
Parti 表明,与大型语言模型一样,图像 AI 通过更全面的训练和更多的参数获得了明显更好的结果。它还可以将长而复杂的文本输入准确地翻译成图像,这表明它可以更好地理解语言和主题之间的关系。
具有 200 亿参数的最大模型生成了与长文本输入匹配的无错误图像,还能在广告牌上面显示所需的文字
但跟DALL·E不同,Google的 Imagen 、Parti 都没有公开使用入口

转置卷积(反卷积)

转置卷积转换为直接卷积的步骤(这里只考虑stride=1 padding=0的情况)
设卷积核大小为k*k,输入为方形矩阵

  1. 对输入进行四边补0,单边补0的数量为k-1
  2. 将卷积核旋转180度,在新的输入上进行直接卷积

直接卷积是用一个小窗户看大世界,而转置卷积是用一个大窗户的一部分去看小世界。

posted @ 2022-08-11 18:29  NoNoe  阅读(551)  评论(0编辑  收藏  举报