我是新手,不是母语的英语,所以在理解Gensimword2vecdoc2vec时遇到一些麻烦。

我认为这两个词都通过most_similar()(经过培训)给了我一些与我请求的查询词最相似的词。

如何判断我必须使用word2vecdoc2vec的哪种情况?

有人可以用短词解释差异吗?

谢谢。

最佳答案

在word2vec中,您进行训练以找到单词向量,然后在单词之间运行相似性查询。在doc2vec中,您可以标记文本,还可以获取标记向量。例如,您有来自不同作者的不同文档,并将作者用作文档上的标记。然后,在doc2vec培训之后,您可以使用相同的向量算术对作者标签进行相似性查询:即谁与AUTHOR_X最相似的作者?如果两位作者通常使用相同的词,那么他们的媒介将更接近。 AUTHOR_X不是一个真实的词,它只是您确定的语料库的一部分。因此,您不需要它或将其手动插入文本中。 Gensim允许您使用或不使用字向量来训练doc2vec(即如果您仅关心彼此之间的标签相似性)。

这是有关word2vec基础的good presentation以及它们如何以创新方式将doc2vec用于产品推荐(related blog post)。

如果您告诉我您要解决的问题,也许我可以建议哪种方法更合适。

关于nlp - Gensim:word2vec和doc2vec有什么区别?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42827175/

10-12 17:54