在OpenAI Gym中,我想知道针对同一状态的不同动作的下一个状态。例如,我想获取s_1和s_2,其中环境的动态性为:

(s, a_1) -> s_1, (s, a_2) -> s_2


我找不到一种方法来撤消操作,或者在不更改环境的情况下向我显示下一个状态。有什么明显的我想念的东西吗?

如果有帮助,我将使用InvertedPendulum环境来区分LQR的动态和奖励。

最佳答案

我找到了一个名为set_state的方法来执行此操作。可以在以下位置找到它:
https://github.com/openai/gym/blob/12e8b763d5dcda4962cbd17887d545f0eec6808a/gym/envs/mujoco/mujoco_env.py#L86-L92

08-25 05:42