我正在使用基于rlglue的python-rl框架进行q学习。
我的理解是,在情节数量上,该算法收敛于最优策略(这是一个映射,表明在什么状态下应采取何种行动)。
问题1:这是否意味着在多个情节(例如1000或更多次)之后,我应该基本上获得相同的state:action映射?
当我绘制奖励(或奖励平均超过100集)时,我在this link中得到类似于图6.13的图形。
问题2:如果算法已收敛到某些策略,为什么奖励会下降?奖励有可能发生巨大变化吗?
Question3:是否可以使用一些标准方法来比较各种RL算法的结果?
最佳答案
Q1:它将收敛到单个映射,除非多个映射是最佳的。
Q2:Q学习具有一个探索参数,该参数确定执行随机,潜在次优移动的频率。只要此参数不为零,奖励就会波动。
Q3:奖励图,如您提供的链接中所示。检查http://rl-community.org。
关于reinforcement-learning - Q-Learning融合至最佳政策,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23078806/