我们如何定义最优策略和分段最优策略?
我想这取决于是连续时间问题还是离散时间问题。对于离散时间,两者应该相同。我对吗?
最佳答案
我想自己添加一个答案。
分段最优策略将是我们贪婪地选择最优动作的策略(即仅对下一个瞬间最优)。然而,最优的选择是我们在一段时间内选择策略(如情节化的MDP)。时间范围的长短取决于应用程序。
关于machine-learning - 在强化学习中,最优策略和分段最优策略有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42695550/