我想在动态href上循环。确实,我每页下载了一组文件。在每个页面上,我下载100个文本文件,但我必须下载200 000个文件。因此,我必须在2000年单击next按钮。为此,我获得了next按钮的href地址,但是不幸的是,此链接中两个对象发生了更改,页码1,2,3等,以及一个字符串字符。请查看附件中更改的下一个按钮的示例。

https://search.proquest.com/something/E6981FD6D11F45E8PQ/2?accountid=12543#scrollTo

https://search.proquest.com/something/E6981FD6D11F45E8PQ/3?accountid=12543#scrollTo

https://search.proquest.com/something/61C27022597C4092PQ/4?accountid=12543#scrollTo

https://search.proquest.com/something/E431552DC6554BF7PQ/5?accountid=12543#scrollTo

我是Python的新用户。我的水平很差。

#Before I add selenium setup for scraping.

n=2000

for i in range(1,n):
    href="https://search.proquest.com/something/715376F5A5AF44BBPQ/" + str(i) + "?accountid=12543#scrollTo"
    driver.get(href)

#Here, I add the code which allows downloading for each page.

最佳答案

我无法使用示例链接(我无法注册)

第一..


  什么是“字符串的字符串”?


书号?或类别编号?

如果只是随机字符串,我认为您应该找到另一种方法。

如何使用ActionChain?还是driver.execute_script()

首先,我认为,找到字符串的含义(从.js或.html)更为重要。

08-26 02:49