我们知道q学习需要大量的计算:

The huge amount of states in q-learning calculation

对于游戏AI,它需要比OX游戏,GO游戏更多的q值。

如何计算这些大量的q值?

谢谢。

最佳答案

MCTS实际上并未减少对q值的任何计算。

对于非常简单的Atari游戏AI,它需要的值远远超过3 ^(19x19)q。

检查深q网络,那解决了您的问题。


  我们可以用神经网络来表示我们的Q函数
  状态(四个游戏画面)和动作作为输入并输出
  相应的Q值。或者,我们只能拍摄游戏画面
  作为输入并输出每个可能动作的Q值。这个
  方法的优势在于,如果我们要执行Q值
  更新或选择Q值最高的动作,我们只需要做一个
  通过网络前进并具有所有动作的所有Q值
  立即可用。


https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

07-24 09:19