我需要调试我的web应用程序,它是由asp.net编写的,以了解在为googlebot这样的爬虫程序呈现内容时它是如何工作的。我发现的第一件事是一些联机/脱机工具,但它们都不能传递request.browser.iscrawler标志。
然后我试图模拟一个手工请求,添加googlebot用户代理,但仍然没有机会。
最佳答案
我使用telerik fidler和chrome,同时将用户代理设置为googlebot/2.1(+http://www.googlebot.com/bot.html),在uri中包含了转义片段,并从爬虫的角度成功地看到了页面。
关于asp.net - 在我的网站上模拟爬虫,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/30423996/