我第一次使用Apache Nutch。抓取后如何将数据存储到MySQL数据库中?我希望能够轻松地在其他Web应用程序中使用数据。
我发现了一个question related,但是我不明白代码ID gona的哪一部分被MySQL连接器取代。请提供简短的代码示例帮助。
最佳答案
从http://mirror.nyi.net/apache//nutch/apache-nutch-1.2-src.zip获取源
在编辑器中打开org.apache.nutch.crawl.Crawl
类。
查找变量Path crawlDb = new Path(dir + "/crawldb");
该变量将提示您在哪里替换代码,以便获得自己的CustomMySQLCrawl
类。
持久性是在此调用期间发生的:crawlDbTool.update(crawlDb, segs, true, true); // update crawldb
因此,存在将其保存到数据库的地方。您可能要考虑此时集成休眠。