我在 python 中使用 gensim word2vec 包。我知道如何从经过训练的模型中获取词汇。但是如何获得词汇表中每个单词的字数?

最佳答案

词汇表中的每个单词都有一个关联的词汇表对象,其中包含一个索引和一个计数。

vocab_obj = w2v.vocab["word"]
vocab_obj.count

谷歌新闻 w2v 模型的输出:2998437

因此,要获得每个单词的计数,您需要遍历词汇表中的所有单词和词汇对象。
for word, vocab_obj in w2v.vocab.items():
  #Do something with vocab_obj.count

关于gensim - 如何从 gensim word2vec 获取词汇字数?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37190989/

10-12 19:27