我是机器学习的新手,我正在尝试使用Q学习解决MountainCar-v0。我现在可以解决问题,但我仍然感到困惑。
根据MountainCar-v0's Wiki,即使汽车已经到达目的地,每步奖励仍为-1。不变奖励如何帮助代理学习?如果每一步都给予相同的奖励,代理人如何分辨这是好事还是坏事?
提前致谢!
最佳答案
目标是使汽车尽快到达目的地。如果业务代表的运行速度很快,即使报酬仍然为负,它仍高于业务代表相对缓慢运行所获得的较低报酬。这种差异足以使代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地,因为它只有在到达最终状态时才停止接收负面奖励。
关于machine-learning - 不变报酬如何帮助训练?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50098096/