我一直在玩MIT DeepTraffic Challenge
watching the lecture and reading the slides

在对体系结构有了基本了解之后,我想知道环境给定的奖励功能到底是什么。


它与网格单元的输入(最大驱动速度)相同吗?
他们是否在使用奖励剪报?


我还找到了这个javascript Codebase,它对我的​​理解也无济于事。

最佳答案

奖励是间隔内按比例缩放的平均速度:
[-3,3]。

deeptraffic环境的实现位于此文件中:
https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js

我正在尝试使其可读。这里是在制品:
https://github.com/mljack/deeptraffic/blob/master/gameopt.js

    var reward = (avgSpeedMeasurement - 60) / 20;

关于machine-learning - MIT深度交通挑战中的奖励功能?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50989406/

10-12 19:32