我需要找到与model.most_similar()相反的东西
尽管most_similar()返回的单词数组与输入的单词最相似,但我需要找到单词列表的“中心”。

gensim中是否有功能或任何其他工具可以帮助我?

例:
给定{'chimichanga', 'taco', 'burrito'},中心可能是mexicofood,这取决于模型在其上进行训练的语料库

最佳答案

如果您提供单词列表作为positivemost_similar()参数,它将报告最接近其均值的单词(这似乎是对“中心”一词的一种合理解释)。

例如:

sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])


(我有点怀疑这里的最高结果sims[0]是'mexico'还是'food';它很可能是另一个墨西哥食物单词。不一定要找到“更通用” /“ hypernym”的关系在word2vec单词之间或在某些方向上...但是其他一些嵌入技术(例如hyperbolic embeddings)可能会提供这种功能。)

关于python - 查找与词组最接近的词,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50723841/

10-12 21:44