重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

1 pagerank算法的基本原理

Pagerank算法是Google的网页排名算法,由拉里佩奇发明。其基本思想是民主表决。在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。同时,排名高的网站链接可靠,所以这些链接的权重会更大。

网页的排名来自于所有指向这个网页的其他网页的权重之和。y的排名=x1+x2+x3+x4=0.081

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

接下来的问题是x1,x2,x3,x4的权重是多少?这些权重应该来自这些网站本身的网页的排名。这就是说在计算一个网页y的排名的过程中需要用到其他网页的排名。是一个矛盾的问题。

布林将问题变成二维矩阵相乘的问题,并用迭代的方法解决了这个问题。首先假设所有网页的排名是相同的,根据这个初始值,计算出各个网页的第一次迭代排名,根据第一次迭代排名算出第二次的排名。他在理论上证明了无论初始值如何选取,这个算法都保证了网页排名的估计值能收敛到排名的真实值,并且不需要人工干预。在实际实现的过程中,又利用稀疏矩阵计算的技巧大大简化计算量。

pagerank计算方法

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

A中第i行第j列代表着第i个网页到第j个网页的连接数。

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

对于这样一个包含四个网页的图,箭头表示有链接存在。M的第一行分别是ABCD转移到页面A的概率,这样在和上图中的向量B相乘,得到的就是A B C D网页的重要性,也就是网页的排名。

2 随机游走算法

随机游走算法的基本思想是,从一个或一系列顶点开始遍历一张图。在任意一个顶点,遍历者将以概率1-a游走到这个顶点的邻居顶点,以概率a随机跳跃到图中的任何一个顶点,称a为跳转发生概率,每次游走后得出一个概率分布,该概率分布刻画了图中每一个顶点被访问到的概率。用这个概率分布作为下一次游走的输入并反复迭代这一过程。当满足一定前提条件时,这个概率分布会趋于收敛。收敛后,即可以得到一个平稳的概率分布。随机游走模型广泛应用于数据挖掘和互联网领域,PageRan算法可以看作是随机游走模型的一个实例。

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

3 重启随机游走算法

重启随机游走算法是在随机游走算法的基础的改进。从图中的某一个节点出发,每一步面临两个选择,随机选择相邻节点,或者返回开始节点。算法包含一个参数a为重启概率,1-a表示移动到相邻节点的概率,经过迭代到达平稳,平稳后得到的概率分布可被看作是受开始节点影响的分布。重启随机游走可以捕捉两个节点之间多方面的关系,捕捉图的整体结构信息。

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

重启随机游走算法(RWR:Random Walk with Restart)-LMLPHP

05-06 04:08