我正在实现 Q-learning,特别是 Bellman 方程。 c++ - 如何在 Q-learning 中计算 MaxQ?-LMLPHP

我正在使用 website 中指导他解决问题的版本,但我有疑问:
对于 maxQ,我是否使用新状态 (s') 的所有 Q 表值来计算最大奖励 - 在我的情况下,4 个可能的操作 (a'),每个都有各自的值 - 或 Q 表值的总和采取行动 (a') 时的所有位置?

换句话说,我是使用我可以采取的所有可能操作的最高 Q 值,还是所有“相邻”方块的 Q 值总和?

最佳答案

对于可以采取的所有可能的操作,您始终使用最大 Q 值。

这个想法是选择下一个状态具有最大(最佳)Q 值的 Action ,以保持最佳策略 Qpi* 。

关于c++ - 如何在 Q-learning 中计算 MaxQ?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58473521/

10-11 18:42