c++ - 如何在 Q-learning 中计算 MaxQ？

我正在实现 Q-learning，特别是 Bellman 方程。

我正在使用 website 中指导他解决问题的版本，但我有疑问:
对于 maxQ，我是否使用新状态 (s') 的所有 Q 表值来计算最大奖励 - 在我的情况下，4 个可能的操作 (a')，每个都有各自的值 - 或 Q 表值的总和采取行动 (a') 时的所有位置？

换句话说，我是使用我可以采取的所有可能操作的最高 Q 值，还是所有“相邻”方块的 Q 值总和？

最佳答案

对于可以采取的所有可能的操作，您始终使用最大 Q 值。

这个想法是选择下一个状态具有最大(最佳)Q 值的 Action ，以保持最佳策略 Qpi* 。

关于c++ - 如何在 Q-learning 中计算 MaxQ？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/58473521/