我是RL的新手,我所做的最好的事情就是openAI健身房中的CartPole。在cartPoke中,API会根据给定的操作自动提供奖励。当我只有像素数据并且没有“魔术函数”可以告诉某项动作的奖励时,我应该如何决定奖励。
说,我想在GTA圣安地列斯做一个自动驾驶机器人。我可以访问的输入是原始像素。我应该如何确定采取某项行动所获得的奖励?
最佳答案
您需要做出能替代您想要的行为的奖励-实际上这并不是一件小事。
如果屏幕的固定部分上有一些数字代表乐谱,那么您可以使用老式的图像处理技术来读取数字并将其用作奖励功能。
如果屏幕的固定部分中有一个固定比例尺和方向的小地图,则可以使用减去角色到目标的距离作为奖励。
如果UI中没有可用于代理奖励的固定元素,那么您将遇到麻烦,除非您可以通过某种方式访问控制台的内部变量来代理奖励(使用PC的位置坐标) , 例如)。
关于python - 强化学习-当游戏的输入仅为像素时,我们如何确定对代理商的奖励?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48370121/