我在使用 Splash 发出请求后尝试访问 cookie。
下面是我如何构建请求。

script = """
function main(splash)
  splash:init_cookies(splash.args.cookies)
  assert(splash:go{
    splash.args.url,
    headers=splash.args.headers,
    http_method=splash.args.http_method,
    body=splash.args.body,
    })
  assert(splash:wait(0.5))

  local entries = splash:history()
  local last_response = entries[#entries].response
  return {
    url = splash:url(),
    headers = last_response.headers,
    http_status = last_response.status,
    cookies = splash:get_cookies(),
    html = splash:html(),
  }
end
"""
req = SplashRequest(
    url,
    self.parse_page,
    args={
        'wait': 0.5,
        'lua_source': script,
        'endpoint': 'execute'
    }
)

该脚本是来自 Splash 文档的精确副本。

所以我试图访问在网页上设置的 cookie。当我不使用 Splash 时,下面的代码按我的预期工作,但在使用 Splash 时则不然。
self.logger.debug('Cookies: %s', response.headers.get('Set-Cookie'))

这在使用 Splash 时返回:



当我不使用 Splash 时,此代码有效并返回网页提供的 cookie。

Splash 的文档显示此代码作为示例:
def parse_result(self, response):
    # here response.body contains result HTML;
    # response.headers are filled with headers from last
    # web page loaded to Splash;
    # cookies from all responses and from JavaScript are collected
    # and put into Set-Cookie response header, so that Scrapy
    # can remember them.

我不确定我是否正确理解了这一点,但我想说我应该能够以与不使用 Splash 时相同的方式访问 cookie。

中间件设置:
# Download middlewares
DOWNLOADER_MIDDLEWARES = {
    # Use a random user agent on each request
    'crawling.middlewares.RandomUserAgentDownloaderMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    # Enable crawlera proxy
    'scrapy_crawlera.CrawleraMiddleware': 600,
    # Enable Splash to render javascript
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

所以我的问题是:如何在使用 Splash 请求时访问 cookie?

Settings.py

spider.py

最佳答案

您可以设置 SPLASH_COOKIES_DEBUG=True 选项以查看正在设置的所有 cookie。当前 cookiejar 合并了所有 cookie,当 response.cookiejar 配置正确时,可作为 scrapy-splash 使用。

使用 response.headers.get('Set-Header') 并不健壮,因为在重定向(例如 JS 重定向)的情况下,可能会有多个响应,并且可以在第一个响应中设置 cookie,而脚本仅返回最后一个响应的 header 。

我不确定这是否是您遇到的问题;该代码不是来自 Splash 文档的精确副本。这里:

req = SplashRequest(
    url,
    self.parse_page,
    args={
        'wait': 0.5,
        'lua_source': script
    }
)

您正在向 /render.json 端点发送请求;它不执行 Lua 脚本;使用 endpoint='execute' 来解决这个问题。

关于python - 从 Splash 请求中读取 cookie,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41442465/

10-12 03:10