我们知道q学习需要大量的计算:
The huge amount of states in q-learning calculation
对于游戏AI,它需要比OX游戏,GO游戏更多的q值。
如何计算这些大量的q值?
谢谢。
最佳答案
MCTS实际上并未减少对q值的任何计算。
对于非常简单的Atari游戏AI,它需要的值远远超过3 ^(19x19)q。
检查深q网络,那解决了您的问题。
我们可以用神经网络来表示我们的Q函数
状态(四个游戏画面)和动作作为输入并输出
相应的Q值。或者,我们只能拍摄游戏画面
作为输入并输出每个可能动作的Q值。这个
方法的优势在于,如果我们要执行Q值
更新或选择Q值最高的动作,我们只需要做一个
通过网络前进并具有所有动作的所有Q值
立即可用。
https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/