PHP爬虫实战:抓取慕课网课程信息

随着互联网的发展,爬虫技术在现代化的数据采集、数据分析和业务决策当中已经扮演了越来越重要的角色。学会如何利用爬虫技术,将会极大的提高我们处理数据的效率和准确性。在这篇文章中,我们将使用PHP编写一个爬虫,用于抓取慕课网上的课程信息。

本文将使用的工具如下:

  • PHP编程语言,版本为PHP 7.0
  • 第三方库Guzzle HTTP Client,用于发送HTTP请求和接收HTTP响应
  • 一个简单的MySQL数据库,用于存储我们抓取到的课程信息

1.准备工作

首先,我们需要在本地环境中安装PHP 7.0版本,安装过程略。

Guzzle HTTP Client是一个常用的HTTP客户端工具库,我们可以使用Composer进行安装。在命令行中切换到一个空白目录下,然后创建一个新的composer.json文件,添加如下内容:

{

"require": {
    "guzzlehttp/guzzle": "^6.3"
}

}

然后在同级目录下执行composer install,等待执行完成后,我们就成功安装了Guzzle HTTP Client。

2.分析目标网站结构

在开始编写代码之前,我们需要对目标网站的结构进行分析。我们选择的是慕课网(www.imooc.com)的Python课程,我们需要抓取的信息包括课程名称、课程编号、课程难度、课程时长和课程链接。

打开目标网站并进行一定的操作后(例如搜索“Python”课程),我们可以查看到网站返回的响应内容。我们可以使用浏览器的开发工具查看响应内容和网页结构。

我们可以看到,在慕课网上Python课程的列表是通过AJAX进行动态加载的。为了便于爬取数据,我们可以直接去查找AJAX请求的URL和参数,然后构造自己的HTTP请求来获取数据。

通过查看目标网站的XHR请求,我们可以发现Python课程实际请求的URL是 http://www.imooc.com/course/AjaxCourseMore?&page=1。

请求参数中的page表示当前要访问的页码。我们可以通过HTTP GET方法向该URL发送请求,并根据返回结果进行解析。

3.编写爬虫程序

在上一步我们已经获取了目标网站Python课程的列表URL,现在我们只需要编写PHP代码,使用Guzzle HTTP Client发送HTTP请求,然后解析返回结果即可。

首先,我们需要引入Guzzle HTTP Client库。在PHP文件的顶部添加如下代码:

require 'vendor/autoload.php';

然后创建一个Guzzle HTTP Client对象:

$client = new GuzzleHttpClient();

接下来,我们可以使用该对象发送HTTP请求:

$response = $client->request('GET', 'http://www.imooc.com/course/AjaxCourseMore?&page=1');

上述代码中,我们使用了Guzzle HTTP Client对象的request()方法,指定请求的方式是GET,请求的URL是我们在上一步中获取到的URL。

最后,我们需要从HTTP响应中获取到我们需要的课程信息。通过检查响应内容,我们可以看到课程信息包含在一个HTML标签中,标签的class属性为course-card-container。

我们可以使用PHP的DOMDocument类遍历HTML标签,将符合条件的标签解析出来。

最终的代码实现如下:

require 'vendor/autoload.php';

use GuzzleHttpClient;

$client = new Client([

'base_uri' => 'http://www.imooc.com'

]);

$response = $client->request('GET', '/course/AjaxCourseMore?&page=1');

if ($response->getStatusCode() == 200) {

$dom = new DOMDocument();
@$dom->loadHTML($response->getBody());

$xpath = new DOMXPath($dom);

$items = $xpath->query("//div[@class='course-card-container']");

foreach ($items as $item) {
    $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent);
    $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card'], $item)->item(0)->getAttribute('href'));
    $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent);
    $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent);
    $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href'));

    // 将抓取到的数据存储到MySQL数据库中
    // ...

    echo "课程名称:" . $courseName . "

";

    echo "课程编号:" . $courseId . "

";

    echo "课程难度:" . $courseDifficulty . "

";

    echo "课程时长:" . $courseDuration . "

";

    echo "课程链接:" . $courseLink . "

";

}

}

我们使用DOMDocument读取HTML响应内容,在使用DOMXPath遍历标签。最终,我们将抓取到的信息打印到屏幕上。

4.存储数据

现在我们已经成功的抓取到了Python课程的信息,并将信息打印到了屏幕上。但是,将数据打印到屏幕上并不实用,我们需要将数据保存到数据库中。

在MySQL数据库中,我们创建了一个表来存储Python课程的信息。表结构如下:

CREATE TABLE python_courses (
id int(11) unsigned NOT NULL AUTO_INCREMENT,
course_name varchar(255) NOT NULL DEFAULT '',
course_id varchar(255) NOT NULL DEFAULT '',
course_difficulty varchar(255) NOT NULL DEFAULT '',
course_duration varchar(255) NOT NULL DEFAULT '',
course_link varchar(255) NOT NULL DEFAULT '',
PRIMARY KEY (id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

在代码中,我们使用PDO连接MySQL数据库,并使用prepare()方法和execute()方法执行插入操作。最终的代码如下:

require 'vendor/autoload.php';

use GuzzleHttpClient;

$client = new Client([

'base_uri' => 'http://www.imooc.com'

]);

$response = $client->request('GET', '/course/AjaxCourseMore?&page=1');

if ($response->getStatusCode() == 200) {

$dom = new DOMDocument();
@$dom->loadHTML($response->getBody());

$xpath = new DOMXPath($dom);

$items = $xpath->query("//div[@class='course-card-container']");

$dsn = 'mysql:host=localhost;dbname=test';
$username = 'root';
$password = '';
$pdo = new PDO($dsn, $username, $password, [PDO::ATTR_ERRMODE => PDO::ERRMODE_EXCEPTION]);

$stmt = $pdo->prepare("INSERT INTO `python_courses` (`course_name`, `course_id`, `course_difficulty`, `course_duration`, `course_link`) VALUES (:course_name, :course_id, :course_difficulty, :course_duration, :course_link)");
foreach ($items as $item) {
    $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent);
    $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card']", $item)->item(0)->getAttribute('href'));
    $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent);
    $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent);
    $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href'));

    $stmt->bindParam(':course_name', $courseName);
    $stmt->bindParam(':course_id', $courseId);
    $stmt->bindParam(':course_difficulty', $courseDifficulty);
    $stmt->bindParam(':course_duration', $courseDuration);
    $stmt->bindParam(':course_link', $courseLink);
    $stmt->execute();
}

}

现在,我们已经成功的构建了一个简单的PHP爬虫,用于抓取慕课网上的Python课程信息。经过这个例子的介绍,你应该可以使用PHP编写你自己的爬虫程序,并获取到你需要的数据了。

以上就是PHP爬虫实战:抓取慕课网课程信息的详细内容,更多请关注www.sxiaw.com其它相关文章!