网络爬虫的基本操作是抓取网页。首先要了解下URL~~

  在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@||

  什么是URI?

  Web上每种可用的资源,如:html文档、视频,图片等都由一个通用的资源标志符(Universal Resources Identifier,即URI)进行定位

  URI的组成

  URI通常由三部分组成:(1)访问资源的命名机制;(2)存放资源的主机名;(3)资源自身的名称,由路径表示。

  例如:http://www.cnblogs.com/lmei/p/3463371.html,这就是URI。

这个URI我们可以这样来解释它:这是一个通过HTTP协议访问的资源,位于主机www.cnblogs.com上,通过路径"/lmei/p/3463371.html "访问。

     那什么是URL呢?

URL(Uniform Resources Locator)是URI的一个子集。它被译为“统一资源定位符”。

URL是Internet上描述信息资源的字符串,主要用于各种www客户程序和服务器程序上。

URL的组成:

(1)协议(或称为服务方式);

(2)存有该资源的主机的IP地址(有时也包括端口号);

(3)主机资源的具体地址,如:目录和文件名等。

:(1)和(2)不可省略,(3)有时可以省略

URL和URI的联系与区别

04-02 06:54
查看更多