深网是网络的一部分,与浅网(surface Web)对立。浅网是互联网上搜索引擎可以抓
到的那部分网络。据不完全统计,互联网中其实约90% 的网络都是深网。因为谷歌不
能做像表单提交这类事情,也找不到那些没有直接链接到顶层域名上的网页,或者因
为有robots.txt 禁止而不能查看网站,所以浅网的数量相对深网还是比较少的。
暗网,也被称为Darknet 或dark Internet,完全是另一种“怪兽”。它们也建立在已有
的网络基础上,但是使用Tor 客户端,带有运行在HTTP 之上的新协议,提供了一个
信息交换的安全隧道。这类暗网页面也是可以采集的,就像你采集其他网站一样,不
过这些内容超出了本书的范围。
和暗网不同,深网是相对容易采集的。