nutch开发环境搭建
nutch-1.3导入eclipse
nutch-1.7导入eclipse
nutch部署
nutch-1.3linux下部署
nutch-1.7编译
nutch-1.2与nutch1.3部署的改变
nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1集群部署
nutch各个模块及功能
nutch二次开发的遇到的一些问题
nutch的参数传递策略,元数据metadata,通过此功能将nutch改为定向爬虫
nutch一些重要的配置文件 nutch-default.xml nutch-site.xml regex-urlfilter.txt 及一些常用的参数项
设置抓取间隔策略
增量采集
网页编码问题
unfetched的url过多
采集效率的问题
nutch二次开发
对外链的处理
开放式分类目录
nutch常见异常及解决方案
Exception in thread "Thread-12751" java.lang.OutOfMemoryError: PermGen space
java.io.IOException: Cannot run program "bash": error=12, Cannot allocate memory
failed with: java.lang.NullPointerException
文章截断及解决方案:(2014-09-01)注:只需要改配置文件
nutch 分段传输 transfer-encoding:chunked (2014-09-04) 注解:需修改源代码,重新编译
采集效率问题--缩小采集间隔(20140905)注:更改配置文件就好,不需要重编译
采集到的数量与实际不符(20140905)注:只需要改配置,不需要编译
写一个最简易的小爬虫
做网络爬虫的一些辅助工具 配置文件举例