http - 比较搜索机器人的URI？

对于搜索机器人，我正在设计：
*比较uri和
*确定哪些uri实际上是同一页
处理重定向和别名：
案例1：重定向
案例2：别名，如www
案例3:url参数，例如sukshma.net/node参数
我有两种方法可以遵循，一种是显式检查重定向以捕获case 1。另一种方法是“硬编码”别名，如www，在案例2中有效。第二种方法（硬代码）别名很脆弱。http的url规范没有提到使用www作为别名（rfc 2616）
我还打算使用规范化的元标记（http/html），但是如果我理解正确的话——我不能在任何情况下都依赖标记。
一定要分享你自己的经验。你知道在搜索机器人程序中检测重复项的参考白皮书实现吗？

最佳答案

构建自己的网络爬虫是一个lot of work。考虑查看一些已经可用的开源蜘蛛，比如JSpider、OpenWebSpider或many others。