我正在使用机械化和beautifulsoup创建python脚本以从网页中提取一些数据。抓取效果很好,但我遇到的问题是移至多页。有没有办法在页面之间循环机械化?
这是我尝试过的
Browser().follow_link(text_regex="Next")
但可以转到下一个页面,但是如果“下一步”按钮不存在,它将死掉。我不确定如何做一个更好的循环,或者实际上只是在运行上面的follow link命令之前检查链接是否存在。
我发现的大多数示例和文档似乎只能在一页上运行。
最佳答案
您的代码如何“死”?如果它引发异常,则可以捕获它并做一些适当的处理(按原样在循环内部):
try:
Browser.follow_link(text_regex="Next")
except Exception:
print "No more next button; terminating loop (but not dying mysteriously)"
break