Barto和Sutton撰写的“强化学习简介”一书提到了以下有关非平稳RL问题的内容-
“我们经常会遇到实际上不稳定的强化学习问题。在这种情况下,与长期的奖励相比,更重地权衡最近的奖励是有意义的。”(请参阅此处-https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node20.html)
我对此并不完全相信。例如,任务是为迷宫寻找出口的探险家代理实际上可能会丢失,因为它在遥远的过去做出了错误的选择。您能否解释一下为什么简单地将最近的奖励提高到较高的水平是有意义的?
最佳答案
如果问题不是平稳的,那么过去的经验将越来越过时,应给予较低的重视。这样,如果探险家在遥远的过去犯了一个错误,那么该错误就会被最近的经验所覆盖。
关于artificial-intelligence - 为什么我们在非平稳强化学习中将近期奖励的权重更高?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37099415/