之前,我必须先使用small script来写Text::DeDupe,以删除博客文章的重复项。

阅读实现基础的Syntactic Clustering of the Web论文后,我希望能够找到重叠的文档(例如,与全文相反的博客片段,也可能是引号)。

您是否知道在编写自己的C,C ++或perl的任何其他实现之前可以尝试的实现?

最佳答案

SpotSigs似乎正好适合我的要求,这里有一些参考资料:


http://dbpubs.stanford.edu/pub/2008-10
http://infoblog.stanford.edu/2008/08/spotsigs-are-stopwords-finally-good-for.html
http://ilpubs.stanford.edu:8090/860/


该模块的源代码托管在GitHub上:

http://github.com/jzawodn/perl-text-spotsig

10-07 21:19