[论文阅读] SGCE-Font@ Skeleton Guided Channel Expansion for Chinese Font Generation

Pre

title: SGCE-Font: Skeleton Guided Channel Expansion for Chinese Font Generation
accepted: Arxiv 2022
paper: https://arxiv.org/abs/2211.14475
code: None

关键词：字体生成、模式坍塌、skeleton、channel expansion
阅读理由：领域新作

Target

该作者前作为StrokeGAN、StrokeGAN+，跟这篇一样，都认为现在的字体生成由于缺乏有效的引导信息，存在模式坍塌问题。

Idea

CycleGAN，输入RGB图片叠上一维skeleton，用Zhang-Suen算法提取，最终输入有4维

Background

图1 用提出的SGCE模块减轻模式坍塌的例子

图2 汉字、笔画编码、田字格转换跟skeleton的例子

反正说前面自己提的方法都不够完善，不能同时照顾到局部跟全局的信息，然后这次的skeleton直接作为输入，而不是给判别器加约束

Method（Model）

Overview

图4 skeleton guided channel expansion (SGCE) 模块

实际上对于输入就抽取一个单通道的skeleton，然后跟原本图片的rgb三通道合成一个四通道数据，称为cex，然后作为生成器输入。

表1 所定义的3x3图片patch布局

至于skeleton化方法：先将图片二元化，定义表1所示的3x3图片块，如果p1像素本身在边缘，就用0去填充成3x3的样子...实际上就是SE-GAN也用过的Zhang-Suen算法，抽取骨架的经典方法，此处不再赘述（看不大懂）。

图5 SGCE-Font模型的汉字生成流水线

实际上看图就很清晰了，就是CycleGAN+skeleton信息，主要计算4个损失:对抗损失（源图、目标图各一个）、循环一致损失、skeleton一致性损失

Experiment

Training Detail

设备进一步升级！
Linux, AMD Ryzen 7 5800X 8-Core Processor CPU, GeForce RTX 3090 GPU
从 StrokeGAN -> StrokeGAN+ -> SGCE-Font
设备 2080 -> 2080ti -> 3090
从这方面看来这一系列论文是十分成功的，经费蹭蹭地涨

Dataset

表2 不同字体数据集的大小

3+1+3+3，一共10个字体，构成跟之前的StrokeGAN差不多，图片尺寸128x128x3，训练测试数据8:2划分

Results

图3 本文模型生成的一些样本

表3 SGCE-Font跟其他模型的对比，加粗加蓝分别表示最好跟次好结果

图6 SGCE-Font跟baselines生成汉字对比

图6里面的SkeGAN是作者将skeleton信息按照StrokeGAN的方式加载判别器上得到的模型，本质上应该仍是CycleGAN。作者认为SkeGAN平均表现上远好于SQ-GAN跟StrokeGAN，因此skeleton信息对于汉字生成比笔画编码更加有效。而SGCE-Font性能又超过SkeGAN，说明信息添加的方式也很关键。但感觉差距其实很小，而且这俩又不冲突，怎么不试试一起加上去的效果