我使用下面的语句来获取html字符串:
import urllib3
url ='http://urllib3.readthedocs.org/'
http_pool = urllib3.connection_from_url(url)
r = http_pool.urlopen('GET',url)
print (r.data)
但是输出是:
b'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "b'\n<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"\n "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n\n\n<html xmlns="http://www.w3.org/1999/xhtml">\n <head>\n <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n \n\n .......................................\n</script>\n\n\n\n </body>\n</html>''
如何获取原始的html字符串?
最佳答案
答案是print (r.data.decode('utf-8'))
但是,这句话将在崇高的文字2中破译。
由于this issue。
当我使用IDLE时,输出会很好。
关于python - 如何使用urllib3打印原始html字符串?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/17257912/