我计划开发一个基于web的应用程序,它可以抓取wikipedia查找关系并将其存储在数据库中。。信息可能包括他的出生日期,他的公司和其他一些事情。但我需要知道是否有任何方法可以从页面中找到这些唯一的数据,以便我可以将它们存储在数据库中。任何具体的书籍或算法将非常感谢。。
谢谢您
最佳答案
如果你还没有,你应该看看DBpedia。许多类别的wiki文章都有“信息框”,用于描述您所描述的信息类型,它们已经用它创建了一个数据库:
http://en.wikipedia.org/wiki/DBpedia
您还可以利用Metaweb的Freebase中的一些信息(这些信息相互重叠,我相信甚至可以集成来自DBpedia的信息。)它们有一个用于查询其图形数据库的API,并且有一个称为freebase-python的Python包装器。
更新:Freebase已经不存在了;它们被Google收购,最终被合并到Google Knowledge Graph中。。。:-/
至于自然语言处理位,如果您确实在这个问题上取得了进展,那么您可以将这些数据库视为您挖掘的任何信息的存储库。
关于python - 挖掘维基百科,用于映射关系以进行文本挖掘,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/6171764/