网络爬虫的基本操作是抓取网页。首先要了解下URL~~
在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@||
什么是URI?
Web上每种可用的资源,如:html文档、视频,图片等都由一个通用的资源标志符(Universal Resources Identifier,即URI)进行定位
URI的组成
URI通常由三部分组成:(1)访问资源的命名机制;(2)存放资源的主机名;(3)资源自身的名称,由路径表示。
例如:http://www.cnblogs.com/lmei/p/3463371.html,这就是URI。
这个URI我们可以这样来解释它:这是一个通过HTTP协议访问的资源,位于主机www.cnblogs.com上,通过路径"/lmei/p/3463371.html "访问。
那什么是URL呢?
URL(Uniform Resources Locator)是URI的一个子集。它被译为“统一资源定位符”。
URL是Internet上描述信息资源的字符串,主要用于各种www客户程序和服务器程序上。
URL的组成:
(1)协议(或称为服务方式);
(2)存有该资源的主机的IP地址(有时也包括端口号);
(3)主机资源的具体地址,如:目录和文件名等。
注:(1)和(2)不可省略,(3)有时可以省略
URL和URI的联系与区别