序言
基础
配置
架构
路由
控制器
模板
调试
安全
工具
代码压缩
网页蜘蛛
数据库操作
部署
网页蜘蛛
LMLPHP的网页抓取工具可以很方便的对全站资源进行抓取。目前网页蜘蛛可以抓取指定网站的指定URL下的所有图片资源。网页蜘蛛采用正则作为其配置,要使用该工具,需要具备正则表达式的知识。
网页蜘蛛类"LmlSpider"实现了LmlToolInterface接口,可以算是LMLPHP的第一个扩展工具。如下代码示例:
<?php
// after require LMLPHP

$config = array(
    
'url' => 'http://www.sina.com.cn',
    
'target_url_regexp' => 'http:\/\/www\.sina\.com\.cn$',
    
'savedir' => realpath(dirname(__FILE__)).'/data140921'
);

lml('spider')->setConfig($config)->start();
?>
上面的代码抓取新浪首页的所有图片资源,并保存在程序目录下面的"data140921文件夹下"。下载的过程中,程序会将下载的信息写入日志,日志包括页面的HTML代码,下载的图片数量,链接的数量,图片的地址等。日志文件写入调用的是fileDebug()方法,默认在程序目录下的LMLPHP_debug目录下。
© 2024 LMLPHP 关于我们 联系我们 友情链接 耗时0.000471(s)
2024-12-23 03:39:43 1734896383