machine-learning - Bellman最佳方程与Q学习的关系

根据贝尔曼最优方程（萨顿2018年第63页）的状态作用最优值为

Q学习是

我知道Q学习不是模型。因此，它不需要为下一个状态过渡的可能性。

但是，贝尔曼方程的p（s'r | s，a）是在给定s，a时具有奖励r的下一状态s'的转移概率。所以我想得到一个Q（s，a），它需要转移的概率。

Bellman方程的Q与q学习的Q不同？

如果相同，q学习如何可以在无模型的情况下工作？

有没有办法获得Q（s，a），而不管q学习过渡的可能性如何？

还是我感到困惑？

最佳答案

Q学习是应用于状态作用值函数的Bellman方程的一个实例。从某种意义上说，它是“无模型的”，您不需要为给定决策确定下一个状态的转换函数。

但是，Q学习的几种表述在已知信息上有所不同。特别是，当您知道转换函数时，可以并且应该在Bellman方程中使用它。这将得出您引用的方程式。

另一方面，如果您不知道转换函数，Q学习也可以，但是您必须通过仿真来采样转换函数的影响。

关于machine-learning - Bellman最佳方程与Q学习的关系，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/60021599/