我是新手,不是母语的英语,所以在理解Gensim
的word2vec
和doc2vec
时遇到一些麻烦。
我认为这两个词都通过most_similar()
(经过培训)给了我一些与我请求的查询词最相似的词。
如何判断我必须使用word2vec
或doc2vec
的哪种情况?
有人可以用短词解释差异吗?
谢谢。
最佳答案
在word2vec中,您进行训练以找到单词向量,然后在单词之间运行相似性查询。在doc2vec中,您可以标记文本,还可以获取标记向量。例如,您有来自不同作者的不同文档,并将作者用作文档上的标记。然后,在doc2vec培训之后,您可以使用相同的向量算术对作者标签进行相似性查询:即谁与AUTHOR_X
最相似的作者?如果两位作者通常使用相同的词,那么他们的媒介将更接近。 AUTHOR_X
不是一个真实的词,它只是您确定的语料库的一部分。因此,您不需要它或将其手动插入文本中。 Gensim允许您使用或不使用字向量来训练doc2vec(即如果您仅关心彼此之间的标签相似性)。
这是有关word2vec基础的good presentation以及它们如何以创新方式将doc2vec用于产品推荐(related blog post)。
如果您告诉我您要解决的问题,也许我可以建议哪种方法更合适。
关于nlp - Gensim:word2vec和doc2vec有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42827175/