我知道定义:-
所有(pi)的最优策略(pi)*满足(pi)*> =(pi)
最优策略可以保证存在,但可能不是唯一的。
这两行是什么意思?
最佳答案
考虑一个目标是在视频游戏中获得分数的代理商。在此,随着代理商学习玩游戏,我们会为其策略分配分数(例如游戏分数)。最佳策略将是得分最高的策略。例如,可能有几种方法可以收集游戏中的所有得分,所有这些都是最佳策略。
另外,正如我刚才提到的,这些策略不是唯一的,在某些情况下可能会有无限的方法来最大化得分。
希望能有所帮助。
关于machine-learning - 强化学习的最优性是什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56535491/