我正在训练 GAN 从两个不同的图像域(源 S
和目标 T
)执行样式转换。因为我有可用的类信息,所以我有一个额外的 Q
网络(除了 G
和 D
),它测量目标域及其标签(LeNet 网络)的生成图像的分类结果,并将错误传播到生成器以及 D
。从系统的收敛性来看,我注意到 D
总是从 8(D
网络的损失函数误差)开始并略微下降到 4.5,而 G
损失函数误差从 1 开始并迅速下降到 0.2。我使用的D
和G
的损失函数可以找到here,而Q
网络的损失函数是分类交叉熵。迭代中的误差图是:
D和G的损失函数为:
def discriminator_loss(y_true,y_pred):
BATCH_SIZE=10
return K.mean(K.binary_crossentropy(K.flatten(y_pred), K.concatenate([K.ones_like(K.flatten(y_pred[:BATCH_SIZE,:,:,:])),K.zeros_like(K.flatten(y_pred[:BATCH_SIZE,:,:,:])) ]) ), axis=-1)
def discriminator_on_generator_loss(y_true,y_pred):
BATCH_SIZE=10
return K.mean(K.binary_crossentropy(K.flatten(y_pred), K.ones_like(K.flatten(y_pred))), axis=-1)
def generator_l1_loss(y_true,y_pred):
BATCH_SIZE=10
return K.mean(K.abs(K.flatten(y_pred) - K.flatten(y_true)), axis=-1)
D 的误差函数总是那么高有意义吗?
D
和 G
的错误解释是什么?是不是D
的loss在开始的时候应该很小,迭代后上升?用损失阈值限制 D
超过 G
是个好主意吗?最后,在训练期间计算来自验证集的损失函数而不是我正在使用的训练集的误差是否有意义? (而不是直接使用 train_on_batch 使用 fit 然后在测试集上进行评估)。编辑:
对于损失,我认为
discriminator
和 discriminator_on_generator
的损失是 GAN 的正常损失函数,对吗? 最佳答案
设 G 为生成器,D 为判别器。最初,D 和 G 都未经训练。现在,让我们假设 D 的学习速度比 G 快。所以,过了一会儿,G 可以区分从真实数据分布中采样的样本和从生成器中采样的样本。最后,G catch 并学习模拟真实的数据分布。现在,G 不能再区分从真实数据分布采样的样本和从生成器采样的样本。
因此,我们最初从 D 和 G(区域 I)的高损失开始。然后 D 的损失比 G 的损失下降得更快(区域 I 到 II)。随着 G 的损失继续减少,D 的损失增加(区域 II)。最后,两个损失都达到一个平衡值,训练就这样完成了(区域 III)。
关于python - 用于域翻译的条件GAN,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52353264/