我正在使用nltk库对文本进行汇总,能够提取双字母组的字母组合词和字母组合词并按频率对其进行排序
由于我是该领域(NLP)的新手,所以我想知道我是否可以使用统计模型来自动选择正确的Ngram大小(我的意思是将N-gram的长度为一个单词unigram,两个字的二字组,或3个字的三字组)
例如,假设我有要总结的文本,作为总结,我将仅保留5个最相关的N-gram:
"A more principled way to estimate sentence importance is using random walks
and eigenvector centrality. LexRank[5] is an algorithm essentially identical
to TextRank, and both use this approach for document summarization. The two
methods were developed by different groups at the same time, and LexRank
simply focused on summarization, but could just as easily be used for
keyphrase extraction or any other NLP ranking task." wikipedia
然后作为我想要的输出,“随机游走”,“ texRank”,“ lexRanks”,“文档摘要”,“关键字提取”,“ NLP排名任务”
换句话说,我的问题是:如何推断一个单字组比一个二元组或三元组更相关? (仅将频率用作N-gram的相关性度量并不能给我想要的结果)
谁能指出我已经使用或解释过这种方法的研究论文,算法或课程?
先感谢您。
最佳答案
考虑到您有语料库,您可以尝试使用主题建模技术(例如Biterm)来帮助您推断与给定主题最相关的术语,因为您的术语也可以是n-gram。正如您提到的那样,这将是一个概率近似值,因为仅对频率进行计数不会产生良好的结果。
当然,这种方法考虑了词素化和停用词的去除。