在PPO中更新策略时,限幅部分将权重停止在r(θ)精确为1±epsilon的确切值上,还是允许其超过该值,然后通过将梯度设置为来防止其进一步移动零?到底是哪一件事?

最佳答案

还是允许它超过该值,然后通过将梯度设置为零来阻止其进一步发展?
  


这正是它的作用。 PPO中的削波项不能防止r(θ)超过1±ε,但在超过该值后,梯度将为零,并且反向传播将有效忽略r(θ)。

但是请记住,这一切都是与其他时间步骤的经验同时发生的;这意味着在时间t时r(θ)可能会移回1±ε区域,这时它将再次开始更新。

最终结果是| 1-r(θ)|在所有时间步长上都会被ε大致(但不完全)限制。

关于algorithm - PPO的梯度削波是否真的防止r(θ)超过1±ε?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59769111/

10-12 18:50