我训练了500,000个句子(约60,000个单词)的Gensim W2V模型,我想计算困惑度。
最好的方法是什么?
对于60K字,我该如何检查数据量是否合适?
谢谢
最佳答案
如果要计算困惑度,则必须首先获取损失。
在gensim.models.word2vec.Word2Vec
构造函数上,传递compute_loss=True
参数-这样,gensim
将为您存储训练时的损失。
经过培训后,您可以调用get_latest_training_loss()
方法来检索损失。
由于跳跃文法模型的交叉熵损失中的损失,损失的幂为2将给您带来困惑。 (2 **损失)
关于python - 计算word2vec模型的困惑度,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53765598/