我最近开始与Scrapy合作。我正在尝试从一个大列表中收集一些信息,该大列表分为几页(大约50个页面)。我可以轻松地从第一页(包括start_urls
列表中的第一页)中提取想要的内容。但是,我不想将这50页的所有链接都添加到此列表中。我需要一种更动态的方式。有谁知道我可以迭代地抓取网页吗?有人有这个例子吗?
谢谢!
最佳答案
使用urllib2下载页面。然后使用re(正则表达式)或BeautifulSoup(HTML解析器)找到所需页面的链接。使用urllib2下载。冲洗并重复。
Scapy很棒,但是您不需要它来做您想做的事情
关于python - 递归使用Scrapy从网站上抓取网页,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4876799/