我必须找到类似的网址

' http://teethwhitening360.com/teeth-whitening-treatments/18/ '
' http://teethwhitening360.com/laser-teeth-whitening/22/ '
' http://teethwhitening360.com/teeth-whitening-products/21/ '
' http://unwanted-hair-removal.blogspot.com/2008/03/breakthroughs-in-unwanted-hair-remo '
' http://unwanted-hair-removal.blogspot.com/2008/03/unwanted-hair-removal-products.html '
' http://unwanted-hair-removal.blogspot.com/2008/03/unwanted-hair-removal-by-shaving.ht '

并将它们聚集在一起。我的问题:

  • URL 数量很大 (1,580,000)
  • 我不知道哪种聚类或寻找相似性的方法更好

  • 我将不胜感激对此的任何建议。

    最佳答案

    这里有一些问题。首先,您可能想用字典清洗 URL,例如转换
    http://teethwhitening360.com/teeth-whitening-treatments/18/

    teeth whitening 360 com teeth whitening treatments 18
    那么您可能想以某种方式阻止单词,例如使用 Porter 词干分析器:
    teeth whiten 360 com teeth whiten treatment 18
    那么你可以使用一个简单的向量空间模型将 URL 映射到一个 n 维空间中,然后对它们运行 k-means 聚类?这是一种基本方法,但它应该有效。

    所涉及的 URL 数量应该不是问题,这取决于您使用的语言/环境。我认为 Matlab 能够处理它。

    关于url - 对大量 URL 进行聚类,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9062438/

    10-12 05:37