我试图关注this.
但是有些浪费了我很多时间的结果却毫无用处。
我只想在自己的语料库(〜900Mb corpus.txt文件)上训练GloVe模型。
我下载了上面链接中提供的文件,并使用cygwin对其进行了编译(在编辑demo.sh文件并将其更改为VOCAB_FILE=corpus.txt之后。是否应保持CORPUS=text8不变?)
输出为:

  • cooccurrence.bin
  • cooccurrence.shuf.bin
  • text8
  • corpus.txt
  • vectors.txt

  • 如何使用这些文件在python上将其作为GloVe模型加载?

    最佳答案



    安装它:pip install Gloves_python

    然后:

    from glove import Corpus, Glove
    
    #Creating a corpus object
    corpus = Corpus()
    
    #Training the corpus to generate the co occurence matrix which is used in GloVe
    corpus.fit(lines, window=10)
    
    glove = Glove(no_components=5, learning_rate=0.05)
    glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)
    glove.add_dictionary(corpus.dictionary)
    glove.save('glove.model')
    

    引用:word vectorization using glove

    关于nlp - 如何在我自己的语料库上训练GloVe算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48962171/

    10-13 04:43