我想知道什么是用于抓取和分析网站的最佳 eopen-source 库。一个例子是一个爬虫属性机构,我想从多个站点获取信息并将它们聚合到我自己的站点中。为此,我需要抓取网站并提取房产广告。
最佳答案
我使用优秀的 python 包 urllib2 、 mechanize 和 BeautifulSoup 做了很多抓取。
我还建议查看 lxml 和 Scrapy ,尽管我目前不使用它们(仍计划尝试使用 scrapy)。
Perl 语言也有很好的抓取工具。
关于web-crawler - 用于抓取和数据挖掘网站的最佳开源库或应用程序,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/759363/