我想知道什么是用于抓取和分析网站的最佳 eopen-source 库。一个例子是一个爬虫属性机构,我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取房产广告。

最佳答案

我使用优秀的 python 包 urllib2mechanizeBeautifulSoup 做了很多抓取。

我还建议查看 lxmlScrapy ,尽管我目前不使用它们(仍计划尝试使用 scrapy)。

Perl 语言也有很好的抓取工具。

关于web-crawler - 用于抓取和数据挖掘网站的最佳开源库或应用程序,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/759363/

10-13 07:41