我是蟒蛇新手。下面是我在Python2.7.5上的代码
import urllib2
import sys
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
print data
得到这样的html标记,它就工作了。
我想做的是,从
<font class="big"></font>
标记内部获取值。例如,我需要这个示例中的数据值:<font class="big">Data</font>
怎么做?
最佳答案
您可以使用html解析器模块,如BeautifulSoup
:
from bs4 import BeautifulSoup as BS
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
soup = BS(data)
print soup.find('font', {'class':'big'}).text
这将找到带有
<font>
的标记class="big"
。然后打印内容。