假设我们在一个代理可以沿着xx和yy轴移动的房间里。在每个点上,他都可以上下左右移动。因此,我们的状态空间可以由(x,y)定义,而我们在每个点上的 Action 都可以由(上,下,右,左)给出。假设我们的特工在任何执行使他撞墙的行动中,都会给他-1的负返回,并使他回到以前的状态。如果他在房间中央发现一个木偶,他将获得+10奖励。
当我们更新给定状态/ Action 对的QValue时,我们会看到在新状态下可以执行哪些 Action ,并计算出可能到达该状态的最大QValue,因此我们可以更新Q(s,a)当前状态/操作的值。这意味着,如果我们在点(10,10)中有一个目标状态,则它周围的所有状态的QValue会随着距离的变远而越来越小。现在,在与墙壁的关系中,在我看来这是不正确的。
当业务代表撞墙时(假设他处于位置(0,0)并进行了 Action UP),他将为该状态/ Action 获得-1的奖励,从而获得-1的QValue。
现在,如果稍后我处于状态(0,1),并假设状态(0,0 0)的所有其他 Action 均为零,则在为 Action LEFT计算(0,1)的QValue时,它将计算它可以通过以下方式:
Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0
这就是说,碰壁不会传播到附近的状态,这与当您拥有积极的奖励状态时发生的情况相反。
在我看来,这似乎很奇怪。起初,我认为找到给予负面奖励的状态/ Action 对与正面奖励一样是学习上的明智之举,但是从我上面显示的示例来看,这种说法似乎并不成立。在算法中似乎存在偏见,其要更多地考虑正向奖励而不是负向奖励。
这是QLearning的预期行为吗?不好的奖励不应该和积极的奖励一样重要吗?什么是“解决方法”?
最佳答案
您可以通过将默认奖励从0增加到1,将目标奖励从10增加到11,将惩罚从-1增加到0来避免负面奖励。
有大量关于Q学习的科学出版物,所以我敢肯定,还有其他一些可以带来负面反馈的表述。
编辑:
我的立场是正确的,这不会改变我之前所说的行为。
我的思考过程是,可以将带有负反馈的表述替换为没有该表述的表述。
进行观察的原因是您对操作结果或操作状态没有不确定性,因此您的代理人始终可以选择其认为具有最佳返回的操作(因此,所有 future 操作的最大Q值) 。这就是为什么您的负面反馈不会传播的原因:代理人将来只会避免采取这种行动。
但是,如果您的模型将包括行动结果的不确定性(例如,总是有10%的概率朝随机方向移动),则您的学习规则应整合所有 future 可能的返回(基本上是将最大 yield 替换为加权 yield )和)。在那种情况下,负面反馈也可以传播(这就是为什么我认为应该有可能:p)。此类模型的示例为POMDPs。
关于artificial-intelligence - QLearning中的负奖励,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1844178/