我们知道,实体有不同的外观,例如,“巴拉克奥巴马”可能被称为“奥巴马”、“总统”和“巴拉克侯赛因奥巴马”。
有没有什么算法可以确定这三个词是否指同一个实体“巴拉克奥巴马”?
谢谢!
编辑1:
我会提供更多关于我案子的细节。我想做的是在Twitter中连接不同的实体名。
如果我发了一条包含“巴拉克奥巴马”的推文,一段时间后我又发了一条包含“总统”但没有“巴拉克奥巴马”的推文,那么我的系统应该能够将这两条推文连接在一起,因为当我在这两条推文中谈到“巴拉克奥巴马”和“总统”时,我显然是指同一个实体。

最佳答案

Latent semantic analysis是您可能希望尝试的一种方法。
或者,主题模型的非参数扩展(如潜在的Dirichlet分配)也可以工作。

关于algorithm - 什么是适合此任务的机器学习算法?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20260249/

10-11 22:36
查看更多