之前,我必须先使用small script来写Text::DeDupe,以删除博客文章的重复项。
阅读实现基础的Syntactic Clustering of the Web论文后,我希望能够找到重叠的文档(例如,与全文相反的博客片段,也可能是引号)。
您是否知道在编写自己的C,C ++或perl的任何其他实现之前可以尝试的实现?
最佳答案
SpotSigs似乎正好适合我的要求,这里有一些参考资料:
http://dbpubs.stanford.edu/pub/2008-10
http://infoblog.stanford.edu/2008/08/spotsigs-are-stopwords-finally-good-for.html
http://ilpubs.stanford.edu:8090/860/
该模块的源代码托管在GitHub上:
http://github.com/jzawodn/perl-text-spotsig