首先看下这个体验的demo,感觉还是很好玩的 地址:https://affinelayer.com/pixsrv/ 比如这只猫,还有一些鞋子上色等。 接着看原理 其实就是CGAN结构,但G只接受一个固定的输入X,可以理解为一个条件C,即不需要随机噪音,然后输出翻译后的版本Y,D接受一个X(CGAN中的C)和一个Y(真假样本),并判断X和Y是否为配对的翻译。 除了标准的GAN损失函数之外,pix2pix还考虑了生成样本和真实样本之间的L1距离作为损失: 其中GAN损失负责捕捉图像高频特征,L1损失负责捕捉低频特征,使得生成结果既真实且清晰。 然后直接看下图 主要用到Skip-Connection来学习配对图像之间的映射 判别器D使用了PatchGAN的思想,之前是对整张图片给出一个分数,PatchGAN则是将一张图片分为很多块,对每一块都给出一个分数。 代码参考地址:https://github.com/affinelayer/pix2pix-tensorflow