CycleGAN论文学习 -- 潘登同学的对抗神经网络笔记

CycleGAN论文学习 -- 潘登同学的对抗神经网络笔记

CycleGAN介绍

CycleGAN核心思想
过往方法

论文探究

模式崩溃问题
Loss函数

Baseline

选择pix2pix的目的

照片转油画改进

Limitations

论文网站 https://junyanz.github.io/CycleGAN/

在这里插入图片描述

CycleGAN介绍

在上一节GAN开山之作中，只是将一组噪音随机数转为特定的图片，或者将特定的图片进行风格迁移，其实说只是将两个图片进行融合，而不是能将某一位画家的风格进行迁移，而且最终的图像到底还是不是原图还不一定；

而CycleGAN是Image Translation（图像转译）领域的经典深度学习算法，巧妙实现了两个非配对图像域的相互迁移，可以将两种图像域之间的图像进行互相转化，而转化后的图片是保留的原图，而画风用了不同的风格，也可以将某种风格画家的画去掉其风格；

在这里插入图片描述

CycleGAN核心思想

在这里插入图片描述

先将莫奈画的印象派油画扔到图像域X中，再把手机拍的风景照扔到图像域Y中；
然后训练两个生成器$(G、F)$，两个判别器$(D_X,D_Y)$，执行GAN中的那一套
这里有一个非常重要的loss函数，cycle-consistency loss虽然Y经过生成器之后真的很像X，但是Y已经失去了自己，不再是自己了，那么实现的就不是风格迁移的任务，所以要对生成的X与Y本身再做一个Loss来保证只是迁移了风格，物体本身还是存在的；

过往方法

image-to-image translation图像转译是计算机图形领域的问题，要学习的任务就是从输入到输出的一一映射，这就要求图像像素级别的一一对齐，但是这样的数据是极度缺乏的；

所以该篇论文就是解决这种问题，只需要两组图像域的图片，不需要一一对应，甚至不需要图片张上的一一对应；

论文探究

模式崩溃问题

模式崩溃问题是指：生成器产生单个或有限的模式(无论输入什么，输出结果都不变)

目前的深度神经网络只能够逼近连续映射，而传输映射是具有间断点的非连续映射，换言之，GAN训练过程中，目标映射不在DNN的可表示泛函空间之中，这一显而易见的矛盾导致了收敛困难；如果目标概率测度的支集具有多个联通分支，GAN训练得到的又是连续映射，则有可能连续映射的值域集中在某一个连通分支上，这就是模式崩溃（mode collapse）；如果强行用一个连续映射来覆盖所有的连通分支，那么这一连续映射的值域必然会覆盖640?wx_fmt=gif之外的一些区域，即GAN会生成一些没有现实意义的图片。这给出了GAN模式崩溃的直接解释。

在这里插入图片描述