我在无模型强化学习中遇到了sarsa算法。具体地说,在每个状态中,您都会执行一个操作a
,然后观察一个新的状态s'
。
我的问题是,如果没有状态转移概率方程,你怎么知道下一个状态是什么?
我的尝试:你只是尝试一下这个动作,然后从环境中观察?
最佳答案
通常是的,您在环境中执行操作,环境会告诉您下一个状态是什么。
关于algorithm - SARSA在强化学习中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50360618/