我已经用Python 3编写了一个微型代理模块,使其仅位于浏览器和Web之间。我的目标是仅代理来回的流量。该程序的一种行为是将我得到的网站响应保存在本地目录中。

除了在循环中使用socket.recv()似乎永远不会产生examples provided in the docs中隐含的空白bytes对象这样简单的事实外,一切都按我期望的方式运行。几乎每个在线示例都讨论服务器关闭时通过套接字传来的空白字符串。

我的假设是通过keep-alive header 进行操作,除非达到自己的超时阈值,否则远程服务器将永远不会关闭套接字。这样对吗?如果是这样,我到底要如何检测到何时完成有效载荷的发送?由于TCP功能的原因,观察到接收到的数据小于我声明的数据块大小是根本行不通的。

为了演示,下面的代码在Google的Web服务器上的图像文件上打开一个套接字。我从浏览器自己的请求中复制了实际的请求字符串。运行该代码(请记住,Python 3!)表明已接收到二进制图像数据,但该代码永远无法击中break语句。仅当服务器关闭套接字时(大约3分钟的空闲时间),此代码才实际到达文件末尾的print命令。

到底该如何解决?我的目标是不修改浏览器请求的行为-我不想将keep-alive header 设置为false或类似的华丽内容。使用一些丑陋的超时值的答案(通过socket.settimeout())吗?似乎很可笑,但我不知道还能做些什么。

提前致谢。

import socket

remote_host = 'www.google.com'
remote_port = 80

remote_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
remote_socket.connect((remote_host, remote_port))
remote_socket.sendall(b'GET http://www.google.com/images/logos/ps_logo2a_cp.png HTTP/1.1\r\nHost: www.google.com\r\nCache-Control: max-age=0\r\nPragma: no-cache\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.794.0 Safari/535.1\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Encoding: gzip,deflate,sdch\r\nAccept-Language: en-US,en;q=0.8\r\nAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3\r\n\r\n')

content = b''
while True:
    msg = remote_socket.recv(1024)
    if not msg:
        break
    print(msg)
    content += msg

print("DONE: %d" % len(content))

最佳答案

如果您有保持 Activity 的连接,则响应的 header 中将显示一些消息长度的信息。参见HTTP Message。缓冲recv,直到获得完整的 header (由空行终止),确定邮件正文长度并准确读取那么多信息。

这是一个用于缓冲TCP读取的简单类,直到读取了消息终止符或特定数量的字节为止。我将其添加到您的示例中:

import socket
import re

class MessageError(Exception): pass

class MessageReader(object):
    def __init__(self,sock):
        self.sock = sock
        self.buffer = b''

    def get_until(self,what):
        while what not in self.buffer:
            if not self._fill():
                return b''
        offset = self.buffer.find(what) + len(what)
        data,self.buffer = self.buffer[:offset],self.buffer[offset:]
        return data

    def get_bytes(self,size):
        while len(self.buffer) < size:
            if not self._fill():
                return b''
        data,self.buffer = self.buffer[:size],self.buffer[size:]
        return data

    def _fill(self):
        data = self.sock.recv(1024)
        if not data:
            if self.buffer:
                raise MessageError('socket closed with incomplete message')
            return False
        self.buffer += data
        return True

remote_host = 'www.google.com'
remote_port = 80

remote_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
remote_socket.connect((remote_host, remote_port))
remote_socket.sendall(b'GET http://www.google.com/images/logos/ps_logo2a_cp.png HTTP/1.1\r\nHost: www.google.com\r\nCache-Control: max-age=0\r\nPragma: no-cache\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.794.0 Safari/535.1\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Encoding: gzip,deflate,sdch\r\nAccept-Language: en-US,en;q=0.8\r\nAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3\r\n\r\n')
mr = MessageReader(remote_socket)
header = mr.get_until(b'\r\n\r\n')
print(header.decode('ascii'))
m = re.search(b'Content-Length: (\d+)',header)
if m:
    length = int(m.group(1))
    data = mr.get_bytes(length)
    print(data)
remote_socket.close()

输出
HTTP/1.1 200 OK
Content-Type: image/png
Last-Modified: Thu, 12 Aug 2010 00:42:08 GMT
Date: Tue, 21 Jun 2011 05:03:35 GMT
Expires: Tue, 21 Jun 2011 05:03:35 GMT
Cache-Control: private, max-age=31536000
X-Content-Type-Options: nosniff
Server: sffe
Content-Length: 6148
X-XSS-Protection: 1; mode=block


b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01l\x00\x00\x00~\x08\x03\x00\ (rest omitted)

09-27 21:37
查看更多