网页蜘蛛 - 文档

网页蜘蛛

LMLPHP的网页抓取工具可以很方便的对全站资源进行抓取。目前网页蜘蛛可以抓取指定网站的指定URL下的所有图片资源。网页蜘蛛采用正则作为其配置，要使用该工具，需要具备正则表达式的知识。

网页蜘蛛类"LmlSpider"实现了LmlToolInterface接口，可以算是LMLPHP的第一个扩展工具。如下代码示例：

<?php
// after require LMLPHP

$config = array(
    'url' => 'http://www.sina.com.cn',
    'target_url_regexp' => 'http:\/\/www\.sina\.com\.cn$',
    'savedir' => realpath(dirname(__FILE__)).'/data140921'
);

lml('spider')->setConfig($config)->start();
?>

上面的代码抓取新浪首页的所有图片资源，并保存在程序目录下面的"data140921文件夹下"。下载的过程中，程序会将下载的信息写入日志，日志包括页面的HTML代码，下载的图片数量，链接的数量，图片的地址等。日志文件写入调用的是fileDebug()方法，默认在程序目录下的LMLPHP_debug目录下。