我们知道通过修改浏览器设置可以使用代理访问网页,其实这个操作就是修改了每次的HTTP头。
工作中,我们难免需要通过TCP/IP协议发送HTTP报文来直接请求网页内容(比如爬虫工具),有同学问如何通过HTTP代理来请求网页,其实我们只需要把报文稍稍修改下,发送给代理服务器即可实现。
基础不过关的朋友可搜索下 :HTTP报文、HTTP代理的原理;我这里就只写个实验报文。
下面是一个最基本的HTTP请求报文,将报文发送到tl.godok.cn:80,可实现网页的请求
GET /ip.php HTTP/1.1
Host:tl.godok.cn
Connection:keep-alive
下面是一个同过HTTP代理请求网页的报文
GET http://tl.godok.cn/ip.php HTTP/1.1
Host:daili.com
Proxy-Connection:keep-alive
代理请求的报文跟直接请求的报文相似,只需要注意3点即可:
1. 报文发送给代理服务器,不发送给最终请求地址的服务器
2. 报文第一行的URI 路径要写完整的
3. Connection 改成 Proxy-Connection
我们组织一个这样的报文通过TCP/IP协议发送给代理服务器的IP就可以通过代理服务器来访问网页了