我有两个公开可用的词嵌入,例如 Glove 和 Google Word2vec。
然而,在他们的词汇表中,有太多拼写错误的词或垃圾词(例如,##AA##、脏话等)。为了避免这个词,我想提取频繁词(例如,前 50000 个词),因为我认为频率较高的词具有正常形式。

所以,我想知道是否有办法在上述两个预训练词嵌入中找到词频。如果没有,我想知道是否有一些技巧可以排除这个词。

最佳答案

GoogleNews 向量集不包含频率信息,但似乎从最频繁到最不频繁排序。因此,如果您将加载它的代码更改为仅加载前 N 个单词,您应该获得 N 个最常用的单词。

(用于训练或使用词向量的 Python gensim 库将此作为 limit 函数上的 load_word2vec_format() 选项包含在内。)

GLoVe 可能遵循相同的约定——查看文件中的单词顺序应该会给出一个好主意。

关于machine-learning - 从公开可用的词嵌入中提取更有意义的词,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45631962/

10-12 21:16