根据贝尔曼最优方程(萨顿2018年第63页)的状态作用最优值为
Q学习是
我知道Q学习不是模型。因此,它不需要为下一个状态过渡的可能性。
但是,贝尔曼方程的p(s'r | s,a)是在给定s,a时具有奖励r的下一状态s'的转移概率。所以我想得到一个Q(s,a),它需要转移的概率。
Bellman方程的Q与q学习的Q不同?
如果相同,q学习如何可以在无模型的情况下工作?
有没有办法获得Q(s,a),而不管q学习过渡的可能性如何?
还是我感到困惑?
最佳答案
Q学习是应用于状态作用值函数的Bellman方程的一个实例。从某种意义上说,它是“无模型的”,您不需要为给定决策确定下一个状态的转换函数。
但是,Q学习的几种表述在已知信息上有所不同。特别是,当您知道转换函数时,可以并且应该在Bellman方程中使用它。这将得出您引用的方程式。
另一方面,如果您不知道转换函数,Q学习也可以,但是您必须通过仿真来采样转换函数的影响。
关于machine-learning - Bellman最佳方程与Q学习的关系,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/60021599/