我训练了500,000个句子(约60,000个单词)的Gensim W2V模型,我想计算困惑度。


最好的方法是什么?
对于60K字,我该如何检查数据量是否合适?


谢谢

最佳答案

如果要计算困惑度,则必须首先获取损失。
gensim.models.word2vec.Word2Vec构造函数上,传递compute_loss=True参数-这样,gensim将为您存储训练时的损失。
经过培训后,您可以调用get_latest_training_loss()方法来检索损失。

由于跳跃文法模型的交叉熵损失中的损失,损失的幂为2将给您带来困惑。 (2 **损失)

关于python - 计算word2vec模型的困惑度,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53765598/

10-13 08:42