我目前正在阅读 Wiley 和 Woolridge 的多代理系统简介,我希望有人能向我澄清以下内容。在谈到效用函数时,作者指出:
我在理解劣势以及本地状态究竟是什么时遇到了问题。有人可以澄清这一点吗?
最佳答案
我将在这里向您展示一个示例来解释这个想法。希望能帮助到你。有关详细信息,请参阅 slide 。
问题:
这是一个称为Tile World
的经典问题。
环境状态
环境的状态可以使用以下变量来描述:
(a_x, a_y)
(t1_x, t1_y)
, (t2_x, t2_y)
, (t3_x, t3_y)
, (t4_x, t4_y)
状态转移
假设在当前状态下,如果代理将其下方的瓷砖向下推,则系统状态转移到下一个状态,其中每个变量保持不变,除了代理的当前位置和被插入的瓷砖的位置。
实用功能
我们的效用函数可以定义为被填充的孔的百分比,即
# of holes filled
u = -------------------------
# of total holes
很明显:
关联效用函数
现在看看下面的两个状态。
很容易看出:
1/3
(因为 3 个孔中的 1 个被填充) s1
)是 死 位置,在该位置,您无法将所有瓷砖移动到孔中 s2
)是 良好的 位置,您可以选择将剩余的两个瓷砖移入孔中。 所以结论是:
u(s1)
或 u(s2)
,您实际上无法区分效用方面的差异。 u(s1)=u(s2)=1/3
。 u: 运行 -> 实际值
预期效用 = ( u(r) x Prob(r) )
详情请引用你提到的那本书或对应的slide。
关于machine-learning - 将公用事业分配给本地州时难以指定长期观点,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/14360893/