我正在使用 Gym 工具包来创建我自己的 env 和 keras-rl 在代理中使用我的 env。
问题是我的行动空间发生了变化,这取决于实际状态。
例如,我有 46 种可能的操作,但在特定状态下只有 7 种可用,而且我无法找到对其进行建模的方法。

我读过那个问题 open-ai-enviroment-with-changing-action-space-after-each-step

但这并没有解决我的问题。

在 Gym 文档中没有执行此操作的说明,只有他们的 Github 存储库(仍然打开)上的一个问题。
我无法理解代理(keras-rl、dqn 代理)如何选择一个 Action ,它是随机选择的吗?但从哪里来?

有人可以帮助我吗?想法?

最佳答案

我通过忽略任何无效操作并让探索机制防止它卡住来解决这个问题。快速而简单,但可能是更好的方法。

我认为更好的选择是以某种方式将选择该操作的概率设置为零,但我无法弄清楚如何做到这一点。

关于reinforcement-learning - Gym (openAI) 环境 Action 空间取决于实际状态,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52970928/

10-12 23:52