如您在图像中看到的,AlphaGo零神经网络使用损失函数,该函数使用MCTS概率和值作为地面真相标签。我正在尝试了解神经网络的输出是否被视为对数(例如实值)或原始概率([0,1])。在损失函数中,看起来MCTS概率(我确信位于[0,1])与NN概率的对数向量相乘。这是损失中的负项,但是该项的大小表示两个向量的相似性是什么?为什么较大的值表示更多相似性?

最佳答案

here所述,结果证明是交叉熵损失的蒙特卡洛估计。

关于machine-learning - AlphaGo零损失函数如何测量MCTS概率和NN概率之间的相似性?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47138694/

10-12 23:58