我想访问亚马逊内部给定类别中的所有项目,但看来类别页面是通过搜索生成的。在网址中弹出页面搜索参数只会将您带到第100页。有什么办法可以克服这个问题?这是一个示例url for books

最佳答案

使用ajax XHR调用动态加载内容。

长话短说:


打开浏览器开发工具
打开网络标签
单击亚马逊上的页面链接
看到XHR请求将发送到http://www.amazon.com/mn/search/ajax/ref=sr_pg_3...-这是您应该在Scrapy Spider中调用的名称(返回JSON)


因此,基本上,您应该仅将此XHR请求调用100次(或查找是否可以将它们全部合并在一起)。

有用的链接:


Can scrapy be used to scrape dynamic content from websites that are using AJAX?
Pagination using scrapy


笔记:


亚马逊将搜索结果限制为100页
您可以尝试亚马逊API
而不是直接抓取网站。看到
Amazon API library for Python?


希望能有所帮助。

关于python - 您如何访问亚马逊类别列表的第101页,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16189215/

10-09 02:29