我正在尝试比较会(或不会)在语义上相关的术语/表达-这些不是完整的句子,不一定是单个单词;例如--

“社交网络服务”和“社交网络”显然密切相关,但是我如何使用nltk对此进行量化?

显然,我甚至缺少一些代码:

w1 = wordnet.synsets('social network')

返回一个空列表。

关于如何解决这个问题有什么建议吗?

最佳答案

有一些语义上的相似性或相似性度量,但是据我所知,最好将它们定义为wordnet词典中的单个单词或单个表达式-而不是wordnet词典条目的复合词。

这是许多基于wordnet的相似度的不错的Web实现

  • http://wn-similarity.sourceforge.net/

  • 如果您有兴趣,还可以阅读一些有关使用词网相似性(尽管不评估化合物的相似性)来解释化合物的文章:
  • CiteSeerX(更清晰的引用)
  • Same article, PDF
  • 关于python - 使用NLTK比较术语/表达式的相似性?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16877517/

    10-11 19:34
    查看更多