如前所述,它会选择概率为1-epsilon的最高均方根臂,epsilon / k是如何加到它的(以及为随机概率选择也是epsilon / k)上,写在概率页面的第6页中:论文Algorithms for multi armed bandits。在方程中写epsilon / k是什么意思

最佳答案

这个答案来自here

假设您站在k = 3台老虎机前面。每台机器都会根据不同的概率分布进行支付,而您不知道这些分布。假设您总共可以玩100次。

你有两个目标。第一个目标是尝试一些硬币,以尝试确定哪台机器的支出最佳。第二个相关的目标是获得尽可能多的钱。术语“ explore”和“ exploit”用于表示您必须使用一些硬币进行探索才能找到最佳机器,并且您希望在最佳机器上使用尽可能多的硬币来利用您的知识。

Epsilon-greedy太简单了。在玩机器时,您会跟踪每台机器的平均支出。然后,您选择当前平均支出最高的机器,其概率为=(1 – epsilon)+(epsilon / k),其中epsilon是一个很小的值,例如0.10。然后,您选择的机器的当前支出平均值不是最高,概率为epsilon / k。
通过一个具体的例子更容易理解。假设在开始抽出12次之后,您四次玩#1机器,两次赢得$ 1,两次赢得$ 0。 1号机的平均值为$ 2/4 = $ 0.50。

假设您已经玩过2次机器#5,赢得了3次$ 1和两次$ 0。 2号机器的平均支出为$ 3/5 = $ 0.60。

假设您在3号机上玩了3次,一次赢了1美元,两次赢了0美元。 3号机器的平均支出为$ 1/3 = $ 0.33。

现在,您必须选择一台机器来尝试13号尝试。您将生成一个随机数p,介于0.0和1.0之间。假设您将epsilon设置为0.10。如果p> 0.10(这将是90%的时间),则选择机器#2,因为它具有当前最高的平均支出。但是,如果p
请注意,由于您是从所有计算机中随机选择的,因此2号计算机仍可能会被选择。

随着时间的流逝,最好的机器会越来越频繁地被玩,因为它将付出更多的钱。简而言之,ε贪婪意味着大多数时候都选择当前的最佳选项(“贪婪”),但有时选择概率很小(ε很小)的随机选项。

还有许多其他算法可以解决多武装匪徒问题。但是epsilon-greedy非常简单,并且通常比UCB(“上限置信度”)变体等更复杂的算法效果更好甚至更好。

关于machine-learning - 什么是epsilon/k,这在epsilon贪婪算法中是怎么来的,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50423955/

10-12 19:33