事实证明,Q学习算法收敛于最优策略的唯一性。因此,得出Q学习算法不会变得过度训练的结论是否正确? 最佳答案 在您假设您可以无限访问全部数据(Q学习假设)的世界中,没有过度训练的概念。如果您不使用基于状态空间的“纯” Q学习,而是使用诸如Deep Q学习之类的近似器,则会严重训练过度。缺乏这种属性的原因是不切实际的假设,通常不会满足这些假设(除非您的问题非常简单/很小)。