我正在使用Scrapy库在Python中构建一些Web爬网程序。目的是从几家商店中获取一些数据。

进行爬网时,有两种站点:


目录站点,显示产品并链接到..
产品站点,可以查看商店不同产品的站点


现在,作为用户,当我从目录站点打开产品站点时,将显示“面包屑样式”菜单-这向我显示了我的位置。例如,如果商店是一家电子商店,而产品是iPhone,则面包屑可能显示:

“电子->电话-> iPhone-> iPhone 5S 64GB”

但是,只有在我遵循上面概述的直接路径时,才会发生这种情况。我的问题是,当我通过Scrapy爬网这些站点时,不会显示面包屑-尽管使用爬网程序我遵循的是上述路径(即,我从电子站点开始,然后继续深入直到找到产品现场)。我什至修改了引荐来源网址设置,但没有任何帮助。

还有另一种方法,我可以使这些面包屑菜单出现吗?

非常感谢您的投入。 :)

最佳答案

该网站很可能将面包屑实现为您忽略的Cookie。您需要将会话Cookie从一个请求传递到后续请求。 This question演示了cookie的用法。

关于python - 使用Scrapy在Python中进行Webrawling-如何强制页面显示面包屑菜单?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22478079/

10-15 06:00