页面解析与数据提取

实际上爬虫一共就四个主要步骤:

以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。

数据,可分为非结构化数据结构化数据

非结构化的数据处理

文本、电话号码、邮箱地址

HTML文件

  • 正则表达式
  • XPath
  • CSS选择器

结构化的数据处理

JSON文件

  • JSON Path
  • 转化为Python类型进行操作(json类)

XML文件

    • 转化为Python类型(xmltodict)
    • XPath
    • CSS选择器
    • 正则表达式
01-25 23:04
查看更多