搭建GuozhongCrawler开发环境有两种方式。

1、构建源码项目方式

一、首先下载源码或者jar包

源码在github:https://github.com/CreditTone/GuozhongCrawler。如果网速或者不能访问github可以访问开源中国的git地址:http://www.oschina.net/p/guozhongcrawler。

读者可以用git工具checkout下载。这里我们就直接选择以下载方式了。

解压Crawler-master.zip,如果在开源中国git下载的zip名字略有不同。

解压后如下:

GuozhongCrawler开发环境搭建-LMLPHP

二、下载下来后我们打开Eclipse。新建一个空的javaProject。选择新建Java Project。项目名字这里使用GuozhongCrawler。点击finish。

GuozhongCrawler开发环境搭建-LMLPHP

三、把src下的源码和libs目录拷贝到项目中。并且展开libs目录全选所有jar右击build Path--》Add  to  Build Path。

完成后如图:

GuozhongCrawler开发环境搭建-LMLPHP

四、再新建一个空java项目,这个作为你的爬虫项目。这里取名为GuozhongCrawlerImpl。

如图:

GuozhongCrawler开发环境搭建-LMLPHP

五、右击GuozhongCrawlerImpl选择中Properties--》Java Build Path--》选中Projects选卡--》Add--》选中GuozhongCrawler--》点击OK--》点击OK。

如图:

GuozhongCrawler开发环境搭建-LMLPHP

六、在GuozhongCrawlerImpl中新建一个类命名为HelloGuozhong。生成main方法。并且贴入如下代码。

CrawlTask crawlTask = new CrawlTask( "百度新闻任务" );
CrawlManager.prepareCrawlTask(crawlTask)
.withStartUrl( "http://news.baidu.com/" )
.addPageProccess( new PageProcessor() {
     
     @Override
     public void process(OkPage page, StartContext context,
             List<Proccessable> result) throws Exception {
         Document doc = Jsoup.parse(page.getContent());
         System.out.println(doc.select( "title" ).text());
     }
     
     @Override
     public void proccessErrorPage(Page page, StartContext context)
             throws Exception {
         
     }
     
     @Override
     public String getTag() {
         return null ;
     }
     
     @Override
     public Pattern getNormalContain() {
         return null ;
     }
     
     @Override
     public PageScript getJavaScript() {
         return null ;
     }
})
.start();

七、运行HelloGuozhong。出现如下提示说明运行成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取
 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK
 百度新闻搜索——全球最大的中文新闻平台
13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务

2、通过加入Jar库方式搭建开发换

目前jar包只有在开源中国git库中有提供。当然也可以自己编译源码项目得到。

开源中国git:地址.http://git.oschina.net/woshidaniu/GuozhongCrawler

下载后直接将GuozhongCrawler.jar加入项目的build Path中即可。

重复第六、七步骤出现如下信息说明搭建成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取
 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK
 百度新闻搜索——全球最大的中文新闻平台
13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务






05-09 13:28