phpspider — простой и быстрый фреймворк для обхода php

PHP
phpspider — простой и быстрый фреймворк для обхода php

предисловие

Некоторое время назад ко мне поступил проект по разработке и сбору данных сайта, я как PHP-разработчик сразу подумал об использовании PHP в качестве краулера. Хотя сканер python удобен, php в этом плане не слаб, что делает php лучшим языком в мире! Здесь мы рекомендуем фреймворк сканера php phpspider. Самому писать краулеры не рекомендуется, потому что эффективность слишком низкая. Использование сканера фреймворка действительно намного эффективнее.

Официальная документация:

https://doc.phpspider.org/


1. Скачать

Официальный адрес загрузки github:

https://github.com/owner888/phpspider

Адрес загрузки может быть недоступен, вот адрес загрузки сетевого диска:

https://pan.baidu.com/s/10n9ZOUQBlrJzOQx0ShOmMQ

Код извлечения: b2zc


2. Файловая структура

После скачивания и распаковки файловая структура phpspider показана на рисунке:


Папка demo содержит несколько вариантов phpspider, как показано на рисунке:


3. Создайте сканер и запустите его

Создайте файл сканера в папке demo. Следует отметить, что у phpspider есть два способа запуска файлов сканера: один из них — запуск из командной строки, другой — визуальная работа (запуск из-под браузера).


3.1 Запустите файл сканера в командной строке

Объектные ссылки для сканирования:

https://www.douban.com/photos/album/1616649448/

Содержимое для обхода показано на рисунке:

Сканировать содержимое, содержащееся в div, с идентификатором оболочки


3.1.1 Создайте новый файл spider.php в папке demo, код такой:

<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
    'name' => '豆瓣',//定义当前爬虫名称
    'log_show' => true, //显示日志调试信息
    'input_encoding' => 'UTF-8',//输入编码

    //定义爬虫爬取哪些域名下的网页, 非域名下的url会被忽略以提高爬取速度
    'domains' => array(
        'www.douban.com'
    ),

    //定义爬虫的入口链接, 爬虫从这些链接开始爬取,同时这些链接也是监控爬虫所要监控的链接
    'scan_urls' => array(
        'https://www.douban.com/photos/album/1616649448/'
    ),

    //爬虫爬取数据导出
    'export' => array( 
        'type' => 'csv', //type:导出类型 csv、sql、db
        'file' => '../data/abc.csv', //file:导出 csv、sql 文件地址,如果不存在文件自动创建
    ),


    //定义内容页的抽取规则
    'fields' => array(
        array(
            'name' => "wrapper",
            'selector' => "//div[@id='wrapper']",
        )
    )
);

$spider = new phpspider($configs);
$spider->start();


3.1.2 Откройте командную панель cmd прямо в папке demo, введите в командной строке php -f spider.php и нажмите Enter, запустится код, как показано на рисунке:


3.1.3 Просмотр просканированных данных

Найдите файл abc.csv в папке данных в файловой структуре phpspider и откройте файл, чтобы увидеть просканированные данные, как показано на рисунке:


3.2 Визуальная работа (запуск файла краулера под браузером)

Объектные ссылки для сканирования:

https://movie.douban.com/subject/26588308/?from=showing

Содержимое для обхода показано на рисунке:

Просканировать содержимое, содержащееся в div, чей класс — nav-items.


3.2.1 Создайте еще один файл test.php в папке demo со следующим кодом:

<?php

header("Content-Type: text/html;charset=utf-8");
date_default_timezone_set("Asia/Shanghai");
ini_set("memory_limit", "10240M");

require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$html = requests::get('https://movie.douban.com/subject/26588308/?from=showing');
$data = selector::select($html, "//div[@class='nav-items']");
echo $data;


3.2.2 Откройте браузер и введите адрес файла


Эпилог

Выше приведен простой пример сканера, вы также можете выполнять многопроцессорный обход, прокси-сканер, очень весело, дополнительные операции см. в официальной документации.

https://doc.phpspider.org/


Наконец

Если вы считаете, что статья хорошая, подпишитесь на меня и поставьте лайк!

Если у вас есть какие-либо вопросы по статье или вы хотите пообщаться по техническим вопросам, вы можете подписаться на общедоступную учетную запись [GitWeb], чтобы исследовать и учиться вместе со мной!