我一直在玩MIT DeepTraffic Challenge
也watching the lecture and reading the slides
在对体系结构有了基本了解之后,我想知道环境给定的奖励功能到底是什么。
它与网格单元的输入(最大驱动速度)相同吗?
他们是否在使用奖励剪报?
我还找到了这个javascript Codebase,它对我的理解也无济于事。
最佳答案
奖励是间隔内按比例缩放的平均速度:
[-3,3]。
deeptraffic环境的实现位于此文件中:
https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js
我正在尝试使其可读。这里是在制品:
https://github.com/mljack/deeptraffic/blob/master/gameopt.js
var reward = (avgSpeedMeasurement - 60) / 20;
关于machine-learning - MIT深度交通挑战中的奖励功能?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50989406/