我必须找到类似的网址
' http://teethwhitening360.com/teeth-whitening-treatments/18/ '
' http://teethwhitening360.com/laser-teeth-whitening/22/ '
' http://teethwhitening360.com/teeth-whitening-products/21/ '
' http://unwanted-hair-removal.blogspot.com/2008/03/breakthroughs-in-unwanted-hair-remo '
' http://unwanted-hair-removal.blogspot.com/2008/03/unwanted-hair-removal-products.html '
' http://unwanted-hair-removal.blogspot.com/2008/03/unwanted-hair-removal-by-shaving.ht '
并将它们聚集在一起。我的问题:
我将不胜感激对此的任何建议。
最佳答案
这里有一些问题。首先,您可能想用字典清洗 URL,例如转换http://teethwhitening360.com/teeth-whitening-treatments/18/
至teeth whitening 360 com teeth whitening treatments 18
那么您可能想以某种方式阻止单词,例如使用 Porter 词干分析器:teeth whiten 360 com teeth whiten treatment 18
那么你可以使用一个简单的向量空间模型将 URL 映射到一个 n 维空间中,然后对它们运行 k-means 聚类?这是一种基本方法,但它应该有效。
所涉及的 URL 数量应该不是问题,这取决于您使用的语言/环境。我认为 Matlab 能够处理它。
关于url - 对大量 URL 进行聚类,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9062438/