我想得到一些有用的说明如何使用函数逼近的Q-学习算法。对于基本的q-学习算法,我已经找到了一些例子,我想我已经理解了。在使用函数逼近的情况下,我遇到了麻烦。有人能通过一个简短的例子给我一个解释吗?
我所知道的:
我们用特征和参数来表示q值。
用Foouter和参数的线性组合进行逼近。
更新参数。
我查过这张纸:Q-learning with function approximation
但我找不到任何有用的教程如何使用它。
谢谢你的帮助!

最佳答案

在我看来,this是最好的参考资料之一它用几个伪代码示例编写得很好在您的情况下,可以通过忽略合格跟踪来简化算法。
另外,根据我的经验和您的用例,Q-Learning可能不会很好地工作(有时它需要大量的经验数据)例如,您可以尝试Fitted-Q值,这是一种批处理算法。

关于algorithm - 线性函数逼近的Q学习,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36160248/

10-09 14:12