本文介绍了支持在开始爬行之前与目标站点进行交互的网络爬行工具的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在寻找一种能够使用 Ajax 处理页面并能够在开始抓取站点之前与目标站点执行某些用户交互(例如,单击某些菜单项、填写某些表单等)的爬虫...).我尝试了 webdriver/selenium(它们是真正的网络抓取工具),现在我想知道是否有任何可用的爬虫支持在开始爬取之前模拟某些用户交互?(在 Java 或 Python 或 Ruby 中...)

I am looking for a crawler which is capable of handling pages with Ajax and being able to perform certain user interactions with the target site before starting to crawl the site (e.g., clicking on certain menu items, filling some forms, etc...).I tried webdriver/selenium (which are really web scraping tools) and now I am want to know if there is any crawler available that supports emulating certain user interactions before starting to crawl ? (In Java or Python or Ruby ...)

谢谢

ps - nutch 能做到吗?如果是,我感谢任何描述此内容的链接.

ps - Can nutch do this ? If yes, I appreciate any link describing this.

推荐答案

Nutch 不处理 AJAX、cookie 或您描述的任何用户交互.

Nutch does not handle AJAX, cookies or any of the user interactions that you described.

这篇关于支持在开始爬行之前与目标站点进行交互的网络爬行工具的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-06 03:23