这是 TextRank 的路线:

  • 要汇总的文档,表示为 tf-idf 矩阵
  • (tf-idf 矩阵)*(tf-idf 矩阵).Transpose = 某个图的邻接矩阵,其顶点为
    其实上面的文档
  • 的句子
  • 页面排名应用于此图 -> 返回每个句子的 PR 值

  • 现在, 这个 PR 值实际上是那个邻接矩阵 的特征值
    这背后的物理意义或直觉是什么。?

    为什么特征值实际上是排名?

    这是页面排名的链接:
    http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm

    这是上页的摘录:
    PageRank 或 PR(A) 可以使用简单的迭代算法计算,并且对应于网络归一化链接矩阵的主要特征向量。

    TextRank 的链接:
    https://joshbohde.com/blog/document-summarization

    最佳答案

    首先,你的问题有点错误。特征值不是分数。相反,平稳特征向量的条目是分数。

    Textrank 适用于 graphical approach to words 。它有许多变体,但它们具有以下共同步骤:

  • 创建一个加权图,其中顶点是实体(单词或句子),权重是实体之间的转移概率。
  • 找到与图关联的stochastic matrix,并根据其平稳分布对每个实体进行评分。

  • 在这种情况下,图构建如下。首先,构建一个矩阵,其中行是句子,列是单词。矩阵的条目由 TF-IDF 指定。为了找到句子之间的相似性,将归一化矩阵乘以其变换。这是因为,对于每两个句子和一个单词,基于每个句子中单词的 TF-IDF 的乘积,句子之间存在相似性,我们需要对所有单词进行总结。如果您仔细考虑一下,总结乘积正是转置矩阵乘法的作用。

    所以现在我们有一个随机矩阵 P 可以解释为从句子 i 到句子 j 的转换概率。得分是平稳分布 x,这意味着

    P x = x = 1 x。

    这意味着 x 是与特征值 1 相关联的特征向量。通过 Perron-Frobenius Theorem ,这个特征向量存在于一些温和的条件下,1 是最大的特征值。最后一部分基本上是 Pagerank。

    10-07 19:08
    查看更多