我想访问亚马逊内部给定类别中的所有项目,但看来类别页面是通过搜索生成的。在网址中弹出页面搜索参数只会将您带到第100页。有什么办法可以克服这个问题?这是一个示例url for books
最佳答案
使用ajax XHR调用动态加载内容。
长话短说:
打开浏览器开发工具
打开网络标签
单击亚马逊上的页面链接
看到XHR请求将发送到http://www.amazon.com/mn/search/ajax/ref=sr_pg_3...
-这是您应该在Scrapy Spider中调用的名称(返回JSON)
因此,基本上,您应该仅将此XHR请求调用100次(或查找是否可以将它们全部合并在一起)。
有用的链接:
Can scrapy be used to scrape dynamic content from websites that are using AJAX?
Pagination using scrapy
笔记:
亚马逊将搜索结果限制为100页
您可以尝试亚马逊API
而不是直接抓取网站。看到
Amazon API library for Python?。
希望能有所帮助。
关于python - 您如何访问亚马逊类别列表的第101页,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16189215/