我正在使用机械化和beautifulsoup创建python脚本以从网页中提取一些数据。抓取效果很好,但我遇到的问题是移至多页。有没有办法在页面之间循环机械化?

这是我尝试过的

Browser().follow_link(text_regex="Next")


但可以转到下一个页面,但是如果“下一步”按钮不存在,它将死掉。我不确定如何做一个更好的循环,或者实际上只是在运行上面的follow link命令之前检查链接是否存在。

我发现的大多数示例和文档似乎只能在一页上运行。

最佳答案

您的代码如何“死”?如果它引发异常,则可以捕获它并做一些适当的处理(按原样在循环内部):

try:
   Browser.follow_link(text_regex="Next")
except Exception:
   print "No more next button; terminating loop (but not dying mysteriously)"
   break

09-04 23:54