我已经从互联网上下载了预先训练的手套 vector 文件。这是一个.txt文件。我无法加载和访问它。使用gensim可以很容易地加载和访问单词 vector 二进制文件,但是当它是文本文件格式时,我不知道该怎么做。

提前致谢

最佳答案

手套模型文件是一个词- vector 格式。您可以打开文本文件进行验证。这是一小段代码,可用于加载预先训练的手套文件:

import numpy as np

def loadGloveModel(File):
    print("Loading Glove Model")
    f = open(File,'r')
    gloveModel = {}
    for line in f:
        splitLines = line.split()
        word = splitLines[0]
        wordEmbedding = np.array([float(value) for value in splitLines[1:]])
        gloveModel[word] = wordEmbedding
    print(len(gloveModel)," words loaded!")
    return gloveModel

然后,您只需使用GlovesModel变量即可访问单词 vector 。
print gloveModel['hello']

10-04 21:18