我正在实现 Q-learning,特别是 Bellman 方程。
我正在使用 website 中指导他解决问题的版本,但我有疑问:
对于 maxQ,我是否使用新状态 (s') 的所有 Q 表值来计算最大奖励 - 在我的情况下,4 个可能的操作 (a'),每个都有各自的值 - 或 Q 表值的总和采取行动 (a') 时的所有位置?
换句话说,我是使用我可以采取的所有可能操作的最高 Q 值,还是所有“相邻”方块的 Q 值总和?
最佳答案
对于可以采取的所有可能的操作,您始终使用最大 Q 值。
这个想法是选择下一个状态具有最大(最佳)Q 值的 Action ,以保持最佳策略 Qpi* 。
关于c++ - 如何在 Q-learning 中计算 MaxQ?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58473521/