我对批量学习和不断增长的批量 q 学习之间的区别感到困惑。另外,如果我只有历史数据,我可以实现增长批量q学习吗?

谢谢!

最佳答案

在批量 Q-learning 中,您只有历史数据,不可能按照给定的策略获取新数据。相反,在增长批量 Q-learning 中,算法几乎相等,不同之处在于在某些迭代中您使用中间策略来获取更多数据,从而使用新数据(包含探索)增长数据批次。

因此,如果您只有历史数据,则无法使用新数据增加批次。即,在您的情况下,不可能实现不断增长的批量 Q 学习。

您可以在本书的第 2 章中阅读详细说明:
Wiering, Marco, y Martijn van Otterlo, eds。强化学习:最先进的。 2012.ª 编辑。斯普林格,2012 年。Link to the chapter

关于reinforcement-learning - 批量q学习和增长批量q学习的区别,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32825178/

10-13 00:05