Website蝴蝶结构

  网页的其正向链接连结在一起表现为一种蝴蝶结结构。

  Website蝴蝶结构-LMLPHP

  1、蝴蝶结中部(SCC, Strongly Connected Componnet)

    这种网页彼此相连。

  2、蝴蝶结左部(IN)

    导航页居多,通过这类网页,可以正向链接到SCC。

  3、蝴蝶结右部(OUT)

    权威性网页,因为大多数SCC都链接向了这些站点。

  4、蝴蝶结的须脚(Tendrils)

    无论采用何种方法都只能遍历有限的网页。

  所以,scrawler尽量选择IN部分的网页,另外可以看出,正向链接远大于反向链接的网页,就是权威网页。

Website直径

  从网页A链接到网页B所需要的最少点击次数(即链接次数)称为A到B的最短路径。网络上所有的(u,v)网页对所构造的最短路径的平均值即为Web直径。根据计算,这个直径大概为17左右。

  网页出度,是一个网页所有的正向链接的个数。平均网页出席,即为所有网页出度的平均值,这个值大概为25-26左右。

  上面可以看到网络结构并非一个深度结构,而是一个较宽的结构。所以在构造scrawler时,多采用BFS。另外,可以根据网络直径,来进行有效的DFS,防止一条道走到黑。

网络的特征

  就像人口是在变化中稳定一样,网页数量也是一样。每天有大量的网页产生,每天也有大量的网页消失。大约23%的网页是每天更新,其中40%的.com网页每天更新。网页的半衰期为10天。

05-11 09:43