本页面您可以通过关键字搜索来获取信息。

理性使用爬虫

爬虫是一种灰色的应用,虽然作为Hawk的设计者,但我依然不得不这么说。

各大网站都在收集和整理数据上花费了大量的精力,因此抓取的数据应当仅仅作为科学研究使用。作者对Hawk的使用者的行为,不承担任何连带责任。

建议您理性使用爬虫,在不影响网站正常运营的情况下抓取数据。Hawk的好处是,较大地降低了爬虫的开发成本,能让普通用户也能使用。在这一理念下,我们仅仅提供最为实用的功能,而更多高级的功能则不会提供。比如代理切换和验证码识别。

在并行模式下,仅提供单机并行,而分布式并行也不会提供。

尽管如此,我们还是会简单讨论如何验证码识别,代理和并行的问题。

验证码识别

验证码识别确实有难度,因为各大网站都不相同,简单的如普通四位数字验证码,难的如12306的变态验证码。因此提供通用的识别几乎是不可能的。

如果您愿意付费,并使用第三方的图形验证码服务,则可以将其配置为一个网页采集器,再调用之。

代理

代理实现并不复杂,在代码层面上只需要几行代码。但基于之前提过的原因,开源版本不提供代理的支持。

同时的,代理切换策略也值得讨论,如每次调用都更换代理,或在执行一定次数后切换,或在屏蔽之后再切换。

启动后软件只有外边框,没有其他任何显示

老版本的Hawk(<=1.2)在Win7和Win8下的兼容性不佳,请升级最新版本的Hawk.

添加从爬虫转换后,没有任何反应

请留意日志中给出的信息,很有可能是没有在 从爬虫转换 模块中配置采集器名称。

在早期版本的Hawk中,系统会自动将第一个网页采集器作为默认采集器。但这样可能会导致歧义。因此在之后的版本取消了这个功能。

不小心关掉了某个侧边栏

Hawk采用了Visual Stuido风格的Dock系统,所有的布局都可以调节大小,设定位置,常见的错误是,不小心关闭了某个面板。如何恢复呢?

目前恢复不了。

05-08 08:35