对于搜索机器人,我正在设计:
*比较uri和
*确定哪些uri实际上是同一页
处理重定向和别名:
案例1:重定向
案例2:别名,如www
案例3:url参数,例如sukshma.net/node参数
我有两种方法可以遵循,一种是显式检查重定向以捕获case 1。另一种方法是“硬编码”别名,如www,在案例2中有效。第二种方法(硬代码)别名很脆弱。http的url规范没有提到使用www作为别名(rfc 2616)
我还打算使用规范化的元标记(http/html),但是如果我理解正确的话——我不能在任何情况下都依赖标记。
一定要分享你自己的经验。你知道在搜索机器人程序中检测重复项的参考白皮书实现吗?
最佳答案
构建自己的网络爬虫是一个lot of work。考虑查看一些已经可用的开源蜘蛛,比如JSpider、OpenWebSpider或many others。