是否有一个库(用于Java)比较网页之间的相似性(HTML,dom相似性)?

在我的应用程序中,我想对网站的链接进行分类。
例如:group 1: Product detail pagegroup 2: Category page(用于在线购物网站等)。

对于这样的分类html结构(dom),相似性是我认为的最佳方法。请对此提供帮助。

最佳答案

并非完全符合您的要求,但是如果HTM1是XML有效的,则可以使用XMLUnit,即very simple来与它比较相似性。

09-25 17:08