爬虫的全名叫网络爬虫,简称爬虫。他还有其他的名字,比如网络机器人,网络蜘蛛等等。这个现象在计算机工程里很常见。同一个事有很多名字。
网络爬虫也被称为网络蜘蛛是一个在互联网中访问不同网站的各个页面的互联网软件或者机器人。我们可以把它理解为一个渣男,把互联网理解成这个渣男的朋友圈。渣男要干什么,当然是从自己的人际网中大量搜寻各类美女的联系方式然后整理储存了,“项目部”、“省领导”、“财务部”……在渣男的手机里,每个女人都有一个奇怪的代号,以方便下次聊天使用。
简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
你可以简单地想象:每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。
你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。
就例如:抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。
大多数搜索引擎是“渣男一号”,他使用爬虫来收集来自公共网站的越来越多的内容(朋友圈利用人际关系收集各种美女的身高体重三维性格爱好),后期有需要就提取使用。
许多商业机构是“渣男二号”,使用网络爬虫专门搜索人们的电子邮件地址和电话号码,以便他们可以向你发送促销优惠和其他方案(这也是渣男的惯用伎俩,得到微信或者手机号以后给你发送他的心灵鸡汤、定时问候或者健身照片隐藏炫富什么的)它们基本上是垃圾邮件,但这是大多数公司创建邮件列表的方式。
爬虫也分善恶。
像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为「善意爬虫」。
但是,像抢票软件这样的爬虫,对着 火车售票网站每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为「恶意爬虫」。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)
黑客使用网络爬虫来查找网站中的文件,主要是 HTML 和 Javascript,然后他们尝试通过使用 XSS 来攻击网站。渣男身边注定有一个女人,爱嫉妒搞些小破坏,于是她半夜偷偷摸到渣男的手机删掉里面所有的“项目部”、“省领导”、“财务部”……
因为在网络爬虫抓取信息的过程中,如果抓取频率超过了网站的设置阀值,将会被禁止访问。渣男不能总用同一个微信号同一部手机撩妹,否则很容易被查。通常,网站的反爬虫机制都是依据IP来标识爬虫的。如果确认是爬虫,肯定立马封IP地址,所以需要大量的IP地址。一旦被识别为爬虫则会禁止此IP地址的访问,导致爬虫爬不到信息,因此对于有爬虫限制的网站,必须采取措施让网站识别不出你的爬虫行为,动态IP来变化不同的IP就是一种策略之一。下载一个兔子IP满足切换IP的要求