我需要找到与model.most_similar()
相反的东西
尽管most_similar()
返回的单词数组与输入的单词最相似,但我需要找到单词列表的“中心”。
gensim中是否有功能或任何其他工具可以帮助我?
例:
给定{'chimichanga', 'taco', 'burrito'}
,中心可能是mexico
或food
,这取决于模型在其上进行训练的语料库
最佳答案
如果您提供单词列表作为positive
的most_similar()
参数,它将报告最接近其均值的单词(这似乎是对“中心”一词的一种合理解释)。
例如:
sims = model.most_similar(positive=['chimichanga', 'taco', 'burrito'])
(我有点怀疑这里的最高结果
sims[0]
是'mexico'还是'food';它很可能是另一个墨西哥食物单词。不一定要找到“更通用” /“ hypernym”的关系在word2vec单词之间或在某些方向上...但是其他一些嵌入技术(例如hyperbolic embeddings)可能会提供这种功能。)关于python - 查找与词组最接近的词,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50723841/