我为一个人检索了一组URL。我想尝试将每个网址归类为与该人有关(他/她的Linkedin个人资料或博客或提及该人的新闻报道),而不是与该人有关。

我正在尝试采用一种基本的方法,在该方法中,我将每个网页标记化并与所有其他网页进行比较,以查看每个文档之间有多少个相似的单词(不包括停用词),然后将最相似的网页设为肯定匹配。

我想知道是否可以采用机器学习方法来使我的任务更轻松,更准确。本质上,我想比较两个网页之间的网页内容(标记为单词),并根据其内容确定其相似程度的分数。

最佳答案

如果您熟悉python,则此NLP分类器将为您提供极大帮助:
http://www.nltk.org/api/nltk.classify.html#module-nltk.classify

对于无监督群集,可以使用以下命令:
http://www.nltk.org/api/nltk.cluster.html#module-nltk.cluster

如果您只是在寻找相似性分数,那么指标模块应该很有用:
http://www.nltk.org/api/nltk.metrics.html#module-nltk.metrics

NLP-toolkit提供了答案,只需浏览各个模块以找到所需的内容,而无需手动实现。

07-24 09:52
查看更多