pix2pix图像翻译笔记

xiaoxiao2025-07-26 71

首先看下这个体验的demo,感觉还是很好玩的地址：https://affinelayer.com/pixsrv/ 比如这只猫，还有一些鞋子上色等。接着看原理其实就是CGAN结构，但G只接受一个固定的输入X，可以理解为一个条件C，即不需要随机噪音，然后输出翻译后的版本Y，D接受一个X（CGAN中的C）和一个Y（真假样本），并判断X和Y是否为配对的翻译。除了标准的GAN损失函数之外，pix2pix还考虑了生成样本和真实样本之间的L1距离作为损失：其中GAN损失负责捕捉图像高频特征，L1损失负责捕捉低频特征，使得生成结果既真实且清晰。然后直接看下图主要用到Skip-Connection来学习配对图像之间的映射判别器D使用了PatchGAN的思想，之前是对整张图片给出一个分数，PatchGAN则是将一张图片分为很多块，对每一块都给出一个分数。代码参考地址：https://github.com/affinelayer/pix2pix-tensorflow

最新回复(0)