我正在学习PageRanking算法,因此对一些新手问题感到抱歉。
我知道PR值是通过每个页面自身链接的总和来计算的。

现在,我被声明为wikipedia的“PageRank值总和为1”困扰。

如Wikipedia所示的示例,如果每个页面都有出站链接,则每个页面的整体概率之和应为1。但是,如果页面没有示例中的任何出站链接(例如页面A),则总和不应为值1,对吗?

因此,Pagerank算法是否必须假设每个页面至少具有一个出站链接? 有人可以详细说明Pageranking如何处理没有任何入站或出站链接的页面吗? 公式将如何相应更改?谢谢

最佳答案

正如原始文章和Wikipedia文章中描述的页面排名一样,当为某些out-degree(v)=0添加v时,确实未定义页面排名,因为您获得了P(v,u)=d/n+(1-d)*0/0-这是未定义的

没有输出边缘的节点称为悬空节点,基本上有3种常见的方式来处理它们:

  • 从图中消除此类节点(并反复重复该过程,直到没有悬空的节点为止。)
  • 考虑将这些页面链接回与其链接的页面(即-对于每个边缘(u,v),如果out-degree(v) = 0,则将(v,u)视为边缘)。
  • 将悬空节点链接到所有页面(通常包括其自身),并有效地使从该节点随机跳转的概率变为1。

  • 关于没有传入节点的页面-这应该不是问题,因为所有内容都已完美定义。这样的节点的页面排名将精确地为d/n-因为您只能通过从任何节点随机浏览来到达它-这就是出现在其中的可能性。

    希望能回答您的问题!

    关于algorithm - 页面排名算法如何处理没有出站链接的网页?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21507375/

    10-11 23:12
    查看更多