随着互联网的发展,爬虫技术在现代化的数据采集、数据分析和业务决策当中已经扮演了越来越重要的角色。学会如何利用爬虫技术,将会极大的提高我们处理数据的效率和准确性。在这篇文章中,我们将使用PHP编写一个爬虫,用于抓取慕课网上的课程信息。
本文将使用的工具如下:
- PHP编程语言,版本为PHP 7.0
- 第三方库Guzzle HTTP Client,用于发送HTTP请求和接收HTTP响应
- 一个简单的MySQL数据库,用于存储我们抓取到的课程信息
1.准备工作
首先,我们需要在本地环境中安装PHP 7.0版本,安装过程略。
Guzzle HTTP Client是一个常用的HTTP客户端工具库,我们可以使用Composer进行安装。在命令行中切换到一个空白目录下,然后创建一个新的composer.json文件,添加如下内容:
{
"require": { "guzzlehttp/guzzle": "^6.3" }
}
然后在同级目录下执行composer install,等待执行完成后,我们就成功安装了Guzzle HTTP Client。
2.分析目标网站结构
在开始编写代码之前,我们需要对目标网站的结构进行分析。我们选择的是慕课网(www.imooc.com)的Python课程,我们需要抓取的信息包括课程名称、课程编号、课程难度、课程时长和课程链接。
打开目标网站并进行一定的操作后(例如搜索“Python”课程),我们可以查看到网站返回的响应内容。我们可以使用浏览器的开发工具查看响应内容和网页结构。
我们可以看到,在慕课网上Python课程的列表是通过AJAX进行动态加载的。为了便于爬取数据,我们可以直接去查找AJAX请求的URL和参数,然后构造自己的HTTP请求来获取数据。
通过查看目标网站的XHR请求,我们可以发现Python课程实际请求的URL是 http://www.imooc.com/course/AjaxCourseMore?&page=1。
请求参数中的page表示当前要访问的页码。我们可以通过HTTP GET方法向该URL发送请求,并根据返回结果进行解析。
3.编写爬虫程序
在上一步我们已经获取了目标网站Python课程的列表URL,现在我们只需要编写PHP代码,使用Guzzle HTTP Client发送HTTP请求,然后解析返回结果即可。
首先,我们需要引入Guzzle HTTP Client库。在PHP文件的顶部添加如下代码:
require 'vendor/autoload.php';
然后创建一个Guzzle HTTP Client对象:
$client = new GuzzleHttpClient();
接下来,我们可以使用该对象发送HTTP请求:
$response = $client->request('GET', 'http://www.imooc.com/course/AjaxCourseMore?&page=1');
上述代码中,我们使用了Guzzle HTTP Client对象的request()方法,指定请求的方式是GET,请求的URL是我们在上一步中获取到的URL。
最后,我们需要从HTTP响应中获取到我们需要的课程信息。通过检查响应内容,我们可以看到课程信息包含在一个HTML标签中,标签的class属性为course-card-container。
我们可以使用PHP的DOMDocument类遍历HTML标签,将符合条件的标签解析出来。
最终的代码实现如下:
require 'vendor/autoload.php';
use GuzzleHttpClient;
$client = new Client([
'base_uri' => 'http://www.imooc.com'
]);
$response = $client->request('GET', '/course/AjaxCourseMore?&page=1');
if ($response->getStatusCode() == 200) {
$dom = new DOMDocument(); @$dom->loadHTML($response->getBody()); $xpath = new DOMXPath($dom); $items = $xpath->query("//div[@class='course-card-container']"); foreach ($items as $item) { $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent); $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card'], $item)->item(0)->getAttribute('href')); $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent); $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent); $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href')); // 将抓取到的数据存储到MySQL数据库中 // ... echo "课程名称:" . $courseName . "
";
echo "课程编号:" . $courseId . "
";
echo "课程难度:" . $courseDifficulty . "
";
echo "课程时长:" . $courseDuration . "
";
echo "课程链接:" . $courseLink . "
";
}
}
我们使用DOMDocument读取HTML响应内容,在使用DOMXPath遍历标签。最终,我们将抓取到的信息打印到屏幕上。
4.存储数据
现在我们已经成功的抓取到了Python课程的信息,并将信息打印到了屏幕上。但是,将数据打印到屏幕上并不实用,我们需要将数据保存到数据库中。
在MySQL数据库中,我们创建了一个表来存储Python课程的信息。表结构如下:
CREATE TABLE python_courses
(
id
int(11) unsigned NOT NULL AUTO_INCREMENT,
course_name
varchar(255) NOT NULL DEFAULT '',
course_id
varchar(255) NOT NULL DEFAULT '',
course_difficulty
varchar(255) NOT NULL DEFAULT '',
course_duration
varchar(255) NOT NULL DEFAULT '',
course_link
varchar(255) NOT NULL DEFAULT '',
PRIMARY KEY (id
)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
在代码中,我们使用PDO连接MySQL数据库,并使用prepare()方法和execute()方法执行插入操作。最终的代码如下:
require 'vendor/autoload.php';
use GuzzleHttpClient;
$client = new Client([
'base_uri' => 'http://www.imooc.com'
]);
$response = $client->request('GET', '/course/AjaxCourseMore?&page=1');
if ($response->getStatusCode() == 200) {
$dom = new DOMDocument(); @$dom->loadHTML($response->getBody()); $xpath = new DOMXPath($dom); $items = $xpath->query("//div[@class='course-card-container']"); $dsn = 'mysql:host=localhost;dbname=test'; $username = 'root'; $password = ''; $pdo = new PDO($dsn, $username, $password, [PDO::ATTR_ERRMODE => PDO::ERRMODE_EXCEPTION]); $stmt = $pdo->prepare("INSERT INTO `python_courses` (`course_name`, `course_id`, `course_difficulty`, `course_duration`, `course_link`) VALUES (:course_name, :course_id, :course_difficulty, :course_duration, :course_link)"); foreach ($items as $item) { $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent); $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card']", $item)->item(0)->getAttribute('href')); $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent); $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent); $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href')); $stmt->bindParam(':course_name', $courseName); $stmt->bindParam(':course_id', $courseId); $stmt->bindParam(':course_difficulty', $courseDifficulty); $stmt->bindParam(':course_duration', $courseDuration); $stmt->bindParam(':course_link', $courseLink); $stmt->execute(); }
}
现在,我们已经成功的构建了一个简单的PHP爬虫,用于抓取慕课网上的Python课程信息。经过这个例子的介绍,你应该可以使用PHP编写你自己的爬虫程序,并获取到你需要的数据了。
以上就是PHP爬虫实战:抓取慕课网课程信息的详细内容,更多请关注Work网其它相关文章!