以上图片来源于本文介绍的Doc2Vec我正在使用gensim的word2vec和doc2vec的实现,这是很好的,但我正在寻找一些问题的明确性。
对于给定的doc2vec模型dvm
,什么是dvm.docvecs
?我的印象是,它是包含所有单词嵌入和段落向量的平均或连接向量,d
这是对的,还是D?
假如dvm.docvecs
不是d
,一个人可以自己访问吗怎么用?
作为奖励,如何计算d
报纸上只说:
在我们的段落向量框架(见图2)中
段落被映射到一个唯一的向量,用
矩阵D中的列和每个单词也映射到
唯一向量,由矩阵W中的列表示。
谢谢你的线索!
最佳答案
Doc2Vec模型的docvecs
属性保存训练期间看到的“文档标记”的所有训练向量(这些在源代码中也称为“doctags”。)
在最简单的情况下,类似于段落向量纸,每个文本示例(段落)只有一个序列号整数id作为其“标记”,从0开始。这将是docvecs
对象的一个索引,model.docvecs.doctag_syn0
numpy数组本质上与您从段落向量论文摘录中的(大写)d相同。
(Gensim还支持将字符串标记用作文档标记,以及每个文档使用多个标记,以及在许多培训文档中重复标记对于字符串标记,如果有的话,它们被dict映射到docvecs
结尾附近的索引。