machine-learning - 不变报酬如何帮助训练？

我是机器学习的新手，我正在尝试使用Q学习解决MountainCar-v0。我现在可以解决问题，但我仍然感到困惑。

根据MountainCar-v0's Wiki，即使汽车已经到达目的地，每步奖励仍为-1。不变奖励如何帮助代理学习？如果每一步都给予相同的奖励，代理人如何分辨这是好事还是坏事？

提前致谢！

最佳答案

目标是使汽车尽快到达目的地。如果业务代表的运行速度很快，即使报酬仍然为负，它仍高于业务代表相对缓慢运行所获得的较低报酬。这种差异足以使代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地，因为它只有在到达最终状态时才停止接收负面奖励。

关于machine-learning - 不变报酬如何帮助训练？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/50098096/