python+lxml xpath获取数据

    本文会介绍使用xpath来获取数据，并附上相应的代码片段来做说明。
    lxml是python语言里处理XML以及HTML工作的功能最丰富和最容易使用的库。当然scrapy框架里也是使用xpath来解析数据的。lxml的安装在这里就不用赘述了，下面列举的代码片段是没有使用scrapy框架。

1. xpath简介
    xpath基本上是用一种类似目录树的方法来描述在XML文档中的路径。比如用“/”来作为上下层级间的分隔。
    第一个“/”表示文档的根节点。比如对于一个HTML文件来说，最外层的节点应该是"/html"。定位某一个HTML标签，可以使用类似文件路径里的绝对路径，如page.xpath("/html/body/h1")，它会找到body这个节点下所有的h1标签；也可以使用类似文件路径里的相对路径，可以这样使用：page.xpath("//h1")，它会找到整个html代码里的所有h1标签。
     '.'----选取当前节点
     '..'----选取当前节点的父元素节点
     '@'----选取属性
     '*'----匹配任何元素
     '@*'----匹配任何属性
     xpath的返回结果会是一个列表，是某个节点下的所有子节点、子标签。

2. xpath使用
     上面的两个例子可能是我们获取数据的一种手段，但是它并不能准确地定位我们需要的标签、属性或数据。
     定位标签我们可以通过id、class或者其他属性来获得此标签。我们爬取页面以http://sports.sina.com.cn/g/premierleague/index.shtml作为例子。
    根据class定位标签：
        tree.xpath("//span[@class='sec_blk_title']")
        tree.xpath("//div[@class='contest']")
    其中'//'表示使用的是相对路径，其中可能从根节点到要查找的节点之间省略了很多其他节点，也可以使用'/descendant::'来代替。毕竟从根节点逐层往下来查找标签会使标签路径很长，不方面阅读。    '@class'表示选取标签中的class属性，class也可以替换成其他属性，比如：id，name，title，src等等
    上面第一句的意思是获取属性class的值为'sec_blk_title'的span标签，虽然这样获取的标签可能不止一个，但是已经比'//span'方式好很多了（当然我们可以使用其他更多的过滤条件来精确获取数据，如下）。注意这里获取的是标签本身，不是标签的文本或其他数据。
    tree.xpath("//span[@class='sec_blk_title']")[0]          #这样就获取到了刚才列表中的第一个标签
    tree.xpath("//div[@class='sec_blk mrg_b_30']/div[@class='sec_blk_top']")
    tree.xpath("//div[@class='sec_blk mrg_b_30']//span[@class='sec_blk_title']")
    tree.xpath("//div[@class='sec_blk mrg_b_30']/ul/li[1]")

    获取到标签后我们可以获取标签中的属性值
    tree.xpath("//div[@class='sec_blk mrg_b_30']/ul/li[1]/a/text()")     #获取a的文本，li标号是从1开始，而不是从0开始
    tree.xpath("//div[@class='sec_blk mrg_b_30']/ul/li[1]/a/@href")   #获取a的链接地址

    当然还有其他类似的xpath例子：
    "//input[@id='city']/@value"
    "//div[@class='venueDetal']/p/img[@class='img']/@src"
    "//div[@class='detail_info_title']//a[@class='hotel_star']/@title"

yueys_canedy

python+lxml xpath获取数据