我在 Doc2Vec 上挣扎,我看不出我做错了什么。
我有一个带有句子的文本文件。我想知道,对于给定的句子,我们可以在该文件中找到的最接近的句子是什么。

下面是模型创建的代码:

sentences = LabeledLineSentence(filename)

model = models.Doc2Vec(size=300, min_count=1, workers=4, window=5, alpha=0.025, min_alpha=0.025)
model.build_vocab(sentences)
model.train(sentences, epochs=50, total_examples=model.corpus_count)
model.save(modelName)

出于测试目的,这是我的文件:
uduidhud duidihdd
dsfsdf sdf sddfv
dcv dfv dfvdf g fgbfgbfdgnb
i like dogs
sgfggggggggggggggggg ggfggg

这是我的测试:
test = "i love dogs".split()
print(model.docvecs.most_similar([model.infer_vector(test)]))

无论训练什么参数,这显然应该告诉我最相似的句子是第 4 个(SENT_3 或 SENT_4,我不知道它们的索引是如何工作的,但句子标签是这种形式)。但结果如下:
[('SENT_0', 0.15669342875480652),
 ('SENT_2', 0.0008485736325383186),
 ('SENT_4', -0.009077289141714573)]

我错过了什么?如果我尝试用同样的句子(我喜欢狗),我有 SENT_2,然后是 1 然后是 4...我真的不明白。为什么这么低的数字?当我连续运行几次负载时,我也没有得到相同的结果。

谢谢你的帮助

最佳答案

Doc2Vec 不适用于玩具大小的示例。 (已发表的作品使用数万到数百万个文本,甚至 gensim 中的微小单元测试也使用数百个文本,结合更小的向量 size 和更多的 iter epoch,以获得几乎不可靠的结果。 )

因此,我不希望您的代码具有一致或有意义的结果。在以下情况下尤其如此:

  • 使用小数据维护一个大向量 size(允许严重的模型过度拟合)
  • 使用 min_count=1(因为没有很多不同用法示例的单词不能得到好的向量)
  • 更改 min_alpha 以保持与较大的起始 alpha 相同(因为随机梯度下降学习算法的通常有益行为依赖于该更新率的逐渐衰减)
  • 使用只有几个单词的文档(因为文档向量的训练与它们包含的单词数量成比例)

  • 最后,即使其他一切都在工作,infer_vector() 通常比默认值 5(到数十或数百)受益更多)。

    所以:
  • 不改变 stepsalpha
  • 获取更多数据
  • 如果不是几万个文本,使用更小的向量 min_count 和更多的 min_alpha(但意识到小数据集的结果可能仍然很弱)
  • 如果每个文本都很小,使用更多的 size(但意识到结果可能仍然比使用更长的文本更弱)
  • 尝试其他 epochs 参数,例如 epochs(或更多,尤其是小文本)和 infer_vector()
  • 关于python - Gensim Doc2Vec most_similar() 方法未按预期工作,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49631758/

    10-12 21:43