脱离语料库,仅对单篇文档提取
(1) pageRank算法:有向无权,平均分配贡献度
基本思路:
链接数量:一个网页越被其他的网页链接,说明这个网页越重要
链接质量:一个网页被一个越高权值的网页链接,表明这个网页越重要
思路:将每个网页初始得分为1
通过多次迭代对每个网页进行收敛
若收敛,则收敛时的得分为最终得分,否则设置最大迭代次数
公式:
In(Vi)为Vi的入链集合,Out(Vj)为Vj的出链集合,|Out(Vj)|为出链数量
每个网页将自身的分数平均贡献给每个出链,Vj的贡献度:S(Vj) / |Out(Vj)|
Vi 的得分:S(Vi)= ∑【S(Vj) / |Out(Vj)|】
Vi 的得分:S(Vi)= (1-d)+d*∑【S(Vj) / |Out(Vj)|】
(2) textRank算法:有向有权,通过权重分配贡献度
思路:权重--计算两个句子之间的相似度--距离,夹角余弦
Vi 的得分:WS(Vi)= (1-d)+d*∑【Wji / ∑ Wjk *WS(Vj)】
注意:当textRank应用到关键词提取时,与自动摘要有两点不同:
词与词的关联没有权重
每个词不是与文档中的所有词链接
第一点不同:WS(Vi)=(1-d)+d*∑【S(Vj) / |Out(Vj)|】
第二点不同:窗口:每个窗口内的所有词之间都有链接关系