[论文阅读] SGCE-Font@ Skeleton Guided Channel Expansion for Chinese Font Generation

Pre

title: SGCE-Font: Skeleton Guided Channel Expansion for Chinese Font Generation
accepted: Arxiv 2022
paper: https://arxiv.org/abs/2211.14475
code: None

关键词:字体生成、模式坍塌、skeleton、channel expansion
阅读理由:领域新作

Target

该作者前作为StrokeGAN、StrokeGAN+,跟这篇一样,都认为现在的字体生成由于缺乏有效的引导信息,存在模式坍塌问题。

Idea

CycleGAN,输入RGB图片叠上一维skeleton,用Zhang-Suen算法提取,最终输入有4维

Background

图1 用提出的SGCE模块减轻模式坍塌的例子

图2 汉字、笔画编码、田字格转换跟skeleton的例子

反正说前面自己提的方法都不够完善,不能同时照顾到局部跟全局的信息,然后这次的skeleton直接作为输入,而不是给判别器加约束

Method(Model)

Overview

图4 skeleton guided channel expansion (SGCE) 模块

实际上对于输入就抽取一个单通道的skeleton,然后跟原本图片的rgb三通道合成一个四通道数据,称为cex,然后作为生成器输入。

表1 所定义的3x3图片patch布局

至于skeleton化方法:先将图片二元化,定义表1所示的3x3图片块,如果p1像素本身在边缘,就用0去填充成3x3的样子...实际上就是SE-GAN也用过的Zhang-Suen算法,抽取骨架的经典方法,此处不再赘述(看不大懂)。

图5 SGCE-Font模型的汉字生成流水线

实际上看图就很清晰了,就是CycleGAN+skeleton信息,主要计算4个损失:对抗损失(源图、目标图各一个)、循环一致损失、skeleton一致性损失

Experiment

Training Detail

设备进一步升级!
Linux, AMD Ryzen 7 5800X 8-Core Processor CPU, GeForce RTX 3090 GPU
从 StrokeGAN -> StrokeGAN+ -> SGCE-Font
设备 2080 -> 2080ti -> 3090
从这方面看来这一系列论文是十分成功的,经费蹭蹭地涨

Dataset

表2 不同字体数据集的大小

3+1+3+3,一共10个字体,构成跟之前的StrokeGAN差不多,图片尺寸128x128x3,训练测试数据8:2划分

Results

图3 本文模型生成的一些样本

表3 SGCE-Font跟其他模型的对比,加粗加蓝分别表示最好跟次好结果

图6 SGCE-Font跟baselines生成汉字对比

图6里面的SkeGAN是作者将skeleton信息按照StrokeGAN的方式加载判别器上得到的模型,本质上应该仍是CycleGAN。作者认为SkeGAN平均表现上远好于SQ-GAN跟StrokeGAN,因此skeleton信息对于汉字生成比笔画编码更加有效。而SGCE-Font性能又超过SkeGAN,说明信息添加的方式也很关键。但感觉差距其实很小,而且这俩又不冲突,怎么不试试一起加上去的效果

表4 SGCE-Font跟SOTA(虽然不是)生成汉字对比,加粗加蓝分别表示最好跟次好结果

图7 SGCE-Font跟SOTA(虽然不是)生成汉字对比

图8 SGCE-Font跟SOTA(虽然不是)泛化性能对比

图8的泛化只是针对源字-目标字不同的情况,因为不是条件生成模型,大概没办法生成另一种风格的字体。

表5 SGCE-Font跟SOTA(虽然不是)生成汉字对比,calligraphy,加粗加蓝分别表示最好跟次好结果
图9 SGCE-Font跟baselines生成汉字对比,calligraphic font,分见过跟没见过的汉字
表7 StrokeGAN加上SGCE模块的提升

图太多辣,总之 effectiveness quality better

表6 一些SOTA?配上SGCE模块后的性能提(StrokeGAN在表7,略)

图10 一些SOTA?配上SGCE模块后的性能提升

Conclusion

用什么信息引导,以及如何用于减少模式坍塌是基于GAN的主流汉字生成模型的两个重要问题。SGCE将skeleton信息加给生成器,效果比加在判别器上好,而且作为一种即插即用模块可以用去其他模型。将来方向是将该模块用去其他语言的生成,或是few-shot之类的其他场景。

Critique

非常有这位作者Jinshan Zeng风格的论文,冗长迂回的介绍,跟自己系列的模型对比(这次总算有其他模型对比了),一再反复的模式坍塌,离不开的CycleGAN,有些夸大的贡献点。

但有一说一,这些trick确实都简单有效

Unknown

posted @ 2023-05-22 09:35  NoNoe  阅读(172)  评论(1编辑  收藏  举报