reinforcement-learning - Q-Learning融合至最佳政策

我正在使用基于rlglue的python-rl框架进行q学习。
我的理解是，在情节数量上，该算法收敛于最优策略(这是一个映射，表明在什么状态下应采取何种行动)。

问题1:这是否意味着在多个情节(例如1000或更多次)之后，我应该基本上获得相同的state:action映射？

当我绘制奖励(或奖励平均超过100集)时，我在this link中得到类似于图6.13的图形。

问题2:如果算法已收敛到某些策略，为什么奖励会下降？奖励有可能发生巨大变化吗？

Question3:是否可以使用一些标准方法来比较各种RL算法的结果？

最佳答案

Q1:它将收敛到单个映射，除非多个映射是最佳的。

Q2:Q学习具有一个探索参数，该参数确定执行随机，潜在次优移动的频率。只要此参数不为零，奖励就会波动。

Q3:奖励图，如您提供的链接中所示。检查http://rl-community.org。

关于reinforcement-learning - Q-Learning融合至最佳政策，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/23078806/