我要去这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf

它指出


“段落向量和词向量被平均或级联
预测上下文中的下一个单词。在实验中,我们使用
串联作为合并向量的方法。”


串联或平均如何工作?

示例(如果第1段包含单词1和单词2):

word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?


同样从这张图片:

据指出:


可以将段落标记视为另一个词。它充当
记忆当前上下文中缺少的内容的内存–或
本段的主题。因此,我们经常称这种模型
段落向量的分布式存储模型(PV-DM)。


段落标记等于等于on的段落向量吗?

nlp - gensim如何计算doc2vec段落向量-LMLPHP

最佳答案

串联或平均如何工作?


您的平均水平是正确的。串联是:[0.1,0.2,0.3,0.4,0.5,0.6]


段落标记等于等于on的段落向量吗?


“段落标记”被映射到称为“段落向量”的向量。它与标记“ on”不同,并且与标记“ on”映射到的单词向量不同。

关于nlp - gensim如何计算doc2vec段落向量,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40413866/

10-09 17:23
查看更多