我想在Q学习中实施ϵ-贪婪策略动作选择策略。在这里,许多人使用以下方程式来降低勘探速度,

ɛ= e ^(-En)

n =代理人的年龄

E =开发参数

但是我不清楚这个“ n”是什么意思?是对特定状态动作对的访问次数,还是迭代次数?

非常感谢

最佳答案

您的问题有几个有效答案。从理论的角度来看,为了实现收敛,Q学习要求所有状态动作对(渐近地)被无限次地频繁访问。

先前的条件可以通过多种方式实现。我认为,通常将n解释为时间步数,即代理与环境[例如,Busoniu, 2010, Chapter 2]执行了多少次交互。

但是,在某些情况下,每种状态的探索速度可能不同,因此n是代理访问状态s [例如Powell, 2011, chapter 12]的次数。

两种解释都同样有效,并确保(以及其他条件)Q学习的渐近收敛。什么时候使用哪种方法更好,取决于您的特定问题,类似于您应该使用E的确切值。

10-07 16:41