【Website蝴蝶结构】
网页的其正向链接连结在一起表现为一种蝴蝶结结构。
1、蝴蝶结中部(SCC, Strongly Connected Componnet)
这种网页彼此相连。
2、蝴蝶结左部(IN)
导航页居多,通过这类网页,可以正向链接到SCC。
3、蝴蝶结右部(OUT)
权威性网页,因为大多数SCC都链接向了这些站点。
4、蝴蝶结的须脚(Tendrils)
无论采用何种方法都只能遍历有限的网页。
所以,scrawler尽量选择IN部分的网页,另外可以看出,正向链接远大于反向链接的网页,就是权威网页。
【Website直径】
从网页A链接到网页B所需要的最少点击次数(即链接次数)称为A到B的最短路径。网络上所有的(u,v)网页对所构造的最短路径的平均值即为Web直径。根据计算,这个直径大概为17左右。
网页出度,是一个网页所有的正向链接的个数。平均网页出席,即为所有网页出度的平均值,这个值大概为25-26左右。
上面可以看到网络结构并非一个深度结构,而是一个较宽的结构。所以在构造scrawler时,多采用BFS。另外,可以根据网络直径,来进行有效的DFS,防止一条道走到黑。
【网络的特征】
就像人口是在变化中稳定一样,网页数量也是一样。每天有大量的网页产生,每天也有大量的网页消失。大约23%的网页是每天更新,其中40%的.com网页每天更新。网页的半衰期为10天。