禁止自动重定向
python3的urllib.request模块发http请求的时候,如果服务器响应30x会自动跟随重定向,返回的结果是重定向后的最终结果而不是30x的响应结果。
request是靠HTTPRedirectHandler这个中的方法拦截重定并发起重新发起请求的,网上有方法说继承这个类并把类下面的方法都改成pass,这样可以阻止重定向,但是无法阻止30x响应被HTTPErrorProcessor类捕获,会最终抛出异常。可以通过处理这个exception来解决,但是稍麻烦。
有没有办法让302响应像200一样不抛异常而返回response类对象呢?我看了一下urllib.request模块的代码,是可以很简单地实现的。看代码:
from urllib import request class NoRedirHandler(request.HTTPRedirectHandler): def http_error_302(self, req, fp, code, msg, headers): return fp http_error_301 = http_error_302 # other_handler = ... opener = request.build_opener( NoRedirHandler, other_handlers) rsp = opener.open('http://example.com') # rsp.code #>> 302 # rsp.read() #>> b''
主意上面的“other_handler”是个示例,你可能会把他替换成HTTPCookieProcessor或其他handler类实例或直接删除它。
实际上就是http_error_302函数的fp这个传参比较令人疑惑,我发现request这个库里其他地方传参给这个函数时这个pf其实就是response,只有在这里变成了pf,不知道作者是故意不想让人改呢还是什么原因。
重定向携带cookie(会话)
request库会自动跟随重定向,返回新页面的信息,但是如果重定向后的页面需要会话信息(cookie),就可能导致重定向循环,直到重定向次数过多,抛出错误。
解决这个问题用上HTTPCookieProcessor,这样请求会自动保存获得的cookie并在后面使用,不需要自己去set header,全自动的。例:
from urllib import request cookie_hdr = request.HTTPCookieProcessor() opener = request.build_opener(cookie_hdr) req = request.Request('http://example.com') with opener.open(req) as f: # bla...bla...bla page_data = f.read()
CookieProcess也能支持把cookie放一个文件里,可以再程序重启后保持之前的会话。