machine-learning - AlphaGo零损失函数如何测量MCTS概率和NN概率之间的相似性？

如您在图像中看到的，AlphaGo零神经网络使用损失函数，该函数使用MCTS概率和值作为地面真相标签。我正在尝试了解神经网络的输出是否被视为对数（例如实值）或原始概率（[0,1]）。在损失函数中，看起来MCTS概率（我确信位于[0,1]）与NN概率的对数向量相乘。这是损失中的负项，但是该项的大小表示两个向量的相似性是什么？为什么较大的值表示更多相似性？

最佳答案

如here所述，结果证明是交叉熵损失的蒙特卡洛估计。

关于machine-learning - AlphaGo零损失函数如何测量MCTS概率和NN概率之间的相似性？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/47138694/