我试图进行网页抓取,并使用以下代码:
import mechanize
from bs4 import BeautifulSoup
url = "http://www.thehindu.com/archive/web/2010/06/19/"
br = mechanize.Browser()
htmltext = br.open(url).read()
link_dictionary = {}
soup = BeautifulSoup(htmltext)
for tag_li in soup.findAll('li', attrs={"data-section":"Chennai"}):
for link in tag_li.findAll('a'):
link_dictionary[link.string] = link.get('href')
print link_dictionary[link.string]
urlnew = link_dictionary[link.string]
brnew = mechanize.Browser()
htmltextnew = brnew.open(urlnew).read()
articletext = ""
soupnew = BeautifulSoup(htmltextnew)
for tag in soupnew.findAll('p'):
articletext += tag.text
print articletext
我无法使用此获取任何打印的值。但是在使用
attrs={"data-section":"Business"}
代替attrs={"data-section":"Chennai"}
时,我能够获得所需的输出。有人能帮我吗? 最佳答案
报名前请阅读本网站的服务条款
如果您在Chrome中使用Firebug或inspect元素,则可能会看到一些内容,如果您使用的是Mechanize或Urllib2,则这些内容将不会显示。
例如,当您查看由您发送的页面的源代码时。 (在Chrome中右键单击查看源代码)。并搜索data-section
标签,您将看不到chennai
的任何标签,我不确定100%,但是我会说那些内容需要用Javascript ..etc填充。这需要浏览器的功能。
如果我是您,我将使用硒打开页面,然后从那里获取源页面,然后以这种方式收集的HTML将更像您在浏览器中看到的那样。
Cited here
from selenium import webdriver
from bs4 import BeautifulSoup
import time
driver = webdriver.Firefox()
driver.get("URL GOES HERE")
# I noticed there is an ad here, sleep til page fully loaded.
time.sleep(10)
soup = BeautifulSoup(driver.page_source)
print len(soup.findAll(...}))
# or you can work directly in selenium
...
driver.close()
对我来说输出是
8