在有关近端策略优化算法的原始论文中


  https://arxiv.org/pdf/1707.06347.pdf


在等式(4)中,作者使用KL[]表示的运算。不幸的是,他们从未对此给出定义。

我的问题:


  KL[]操作代表什么?

最佳答案

也许是KL divergence

KL散度用于比较两个概率分布之间的差异。

关于machine-learning - 最近策略优化算法论文-“KL”操作的定义?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59223646/

10-12 21:55