StyleGAN2

Analyzing and Improving the Image Quality of StyleGAN

🔗 PDF Link 🍺 Github Code
以为第一代就是巅峰了?

Section 1 介绍

StyleGAN在高分辨率图像的生成上有着巨大进步,但是依旧还存在着许许多多的小问题。首先第一个就是许多人发现的伪影,这里明确的分为两种不同的伪影。第一种是水滴状的伪影,第二种是由于Progressive growing所产生的。针对这两种伪影,文章分别在第二章和第四章进行了详细的描述。

第二个问题是如何对生成的图像的质量及逆行评估。常规方法是使用FID(Frechet Inception Distance)来评估生成图像和真实图像的密度分布之间的差异,然后使用PR曲线来描述生成数据和真实图像之间的相似度。但是这两种给方法都更关注纹理而非形状(分类任务上),也就因此不能做到真正的评估到图像质量的方方面面。为此,提出了一种感知路径长度(Perceptual Path Length, PPL)的方法来解决这个问题(用PPL来评估latent space interpolation的质量,这与形状的稳定性和一致性有关)。

主要贡献:

  1. 探索了ResNet的结构改进,将特征图split attention融合进了一个独立的网络block中。简单来说就是按通道分组,然后对不同组的特征加权生成最终的特征表达。这种基于ResNet的block的改变,起了个名儿,就叫ResNeSt(S是split的意思)。
  2. 对下游的应用类任务进行大量的benchmark测试,发现提升了不少性能(具体这里不列举,后面有详细表格数据)。

Section 2 相关工作