python爬虫

扫码查看

预:网页的组成

HTML(结构)+css(样式)+javascript(功能)

爬虫主要针对的是HTML和css

HTML:

<div></div>div标签 代表网页中某个区域的框架

<p></p>写文字的内筒

<li>列表

<img>插入图

<a herf=>

1.python中RE的使用

python若想使用re 需要先import re

re自带的两个重要函数:

1.re.findall('',string)  可以用()将待查找的RE括起来,则只返回()中的RE

2.

2.python如何通过端口号访问网络

import socket

mysock=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

mysock.connect(('www.',80))

mysock.send('GET http://www.***  HTTP/1.0\n\n')

while True:

  data=mysock.recv(512)

  if len(data)<1:

  break;

  print data

mysock.close()

python爬虫-LMLPHP  

4.coursera读取html

import urllib

fhand=urllib.urlopen('http://www.')

5.用beautiful soup分析HTML

04-18 20:18
查看更多