Item Pipeline — это конвейер элементов, и в этом разделе мы подробно узнаем о его использовании.
Во-первых, давайте посмотрим на архитектуру Item Pipeline в Scrapy, как показано на следующем рисунке.
Крайняя левая часть рисунка — это Конвейер Предметов, который вызывается после того, как Паук сгенерирует Предмет. После того, как Spider проанализирует ответ, элемент будет передан в конвейер элементов, и определенные компоненты конвейера элементов будут вызываться последовательно для выполнения ряда процедур обработки, таких как очистка и хранение данных.
Основные функции Item Pipeline следующие:
Очистите HTML-данные.
Подтвердите просканированные данные и проверьте просканированные поля.
Проверяйте наличие дубликатов и удаляйте дубликаты.
Сохраните результаты сканирования в базе данных.
Один, основной метод
Мы можем настроить конвейер элементов, нужно только реализовать указанный метод, метод, который должен быть достигнут:process_item(item, spider)
.
Кроме того, есть еще несколько практических методов, а именно:
open_spider(spider)
.close_spider(spider)
.from_crawler(cls, crawler)
.
Ниже мы подробно опишем использование этих методов.
1. process_item(item, spider)
process_item()
Это метод, который должен быть реализован.Определенный Item Pipeline будет вызывать этот метод по умолчанию для обработки Item. Например, мы можем выполнять такие операции, как обработка данных или запись данных в базу данных. он должен вернутьсяItem
значение типа или выдаетDropItem
аномальный.
process_item()
Параметры метода следующие.
item
, является объектом Item, то есть обрабатываемым Item.spider
, является объектом Spider, то есть Spider, сгенерировавшим Item.
process_item()
Типы возвращаемых данных методов резюмируются следующим образом.
Если он возвращает объект Item, этот элемент будет конвейером элементов с низким приоритетом.
process_item()
Обработка методов до тех пор, пока не будут вызваны все методы.Если он выдает исключение DropItem, элемент будет отброшен и не будет обработан.
2. open_spider(self, spider)
open_spider()
Метод вызывается автоматически при запуске паука. Здесь мы можем выполнить некоторые операции инициализации, такие как открытие соединения с базой данных. Среди них параметрspider
Открывается объект Spider.
3. close_spider(spider)
close_spider()
Метод вызывается автоматически при закрытии паука. Здесь мы можем сделать некоторые последние штрихи, такие как закрытие соединений с базой данных и т. д. Среди них параметрspider
Это объект Spider, который закрыт.
4. from_crawler(cls, crawler)
from_crawler()
Метод представляет собой метод класса, с@classmethod
Identity — это способ внедрения зависимостей. Его параметрыcrawler
,пройти черезcrawler
объект, мы можем получить все основные компоненты Scrapy, такие как каждая информация о глобальной конфигурации, а затем создать экземпляр Pipeline. параметрcls
Является классом и, наконец, возвращает экземпляр класса.
Давайте воспользуемся примером, чтобы углубить наше понимание использования Item Pipeline.
2. Задачи этого раздела
Давайте возьмем сканирование 360 фотографий в качестве примера для реализации трех конвейеров хранилища MongoDB, хранилища MySQL и хранилища изображений.
3. Подготовка
Убедитесь, что установлены базы данных MongoDB и MySQL, а также установлены платформы Python PyMongo, PyMySQL и Scrapy.
В-четвертых, анализ захвата
Целевой веб-сайт, который мы сканируем на этот раз: https://image.so.com. Откройте эту страницу и перейдите на страницу фотографии, где много красивых фотографий. Мы открываем инструменты разработчика браузера, переключаем фильтр на параметр XHR, а затем опускаем страницу. Мы видим, что многие запросы Ajax будут отображаться ниже, как показано на следующем рисунке.
Мы смотрим на детали запроса и наблюдаем за возвращаемой структурой данных, как показано на следующем рисунке.
Формат возврата — JSON. вlist
Поле представляет собой подробную информацию о каждом изображении, включая идентификатор, имя, ссылку, миниатюру и другую информацию о 30 изображениях. Кроме того, обратите внимание на информацию о параметрах запроса Ajax, есть параметрsn
Он все время меняется, и этот параметр, очевидно, является смещением. когдаsn
Когда sn равно 30, возвращаются первые 30 изображений, а когда sn равно 60, возвращаются изображения с 31-го по 60-е. Кроме того,ch
Параметр - категория фотографии,listtype
метод сортировки,temp
Параметры можно игнорировать.
Поэтому нам нужно только изменитьsn
значение в порядке.
Ниже мы используем SCRAPY для реализации захвата изображения, сохранить информацию о изображении на MongoDB, MySQL и хранить изображение локально.
5. Новые проекты
Сначала создайте новый проект с помощью следующей команды:
scrapy startproject images360
Далее создаем нового Паука, команда следующая:
scrapy genspider images images.so.com
Итак, мы успешно создали Паука.
6. Сформируйте запрос
Затем определите количество страниц для обхода. Например, чтобы просканировать 50 страниц и 30 страниц на страницу, то есть 1500 изображений, мы можем сначала определить переменную в settings.py.MAX_PAGE
Добавьте следующее определение:
MAX_PAGE = 50
определениеstart_requests()
метод, используемый для генерации 50 запросов, следующим образом:
def start_requests(self):
data = {'ch': 'photography', 'listtype': 'new'}
base_url = 'https://image.so.com/zj?'
for page in range(1, self.settings.get('MAX_PAGE') + 1):
data['sn'] = page * 30
params = urlencode(data)
url = base_url + params
yield Request(url, self.parse)
Здесь мы сначала определяем начальные два параметра,sn
Параметры генерируются путем обхода цикла. затем используйтеurlencode()
метод преобразования словаря в URLGET
Параметры, построить полный URL, построить и генерировать запрос.
Также необходимо ввести модули SCRAPY.REQUEST и URLLIB.PARSE следующим образом:
from scrapy import Spider, Request
from urllib.parse import urlencode
Затем измените settings.py вROBOTSTXT_OBEY
переменная, установите ее вFalse
, в противном случае он не может быть просканирован следующим образом:
ROBOTSTXT_OBEY = False
Запустив краулер, вы увидите, что ссылки успешно запрошены, а команда выполнения выглядит следующим образом:
scrapy crawl images
Результат выполнения примера показан на следующем рисунке.
Код состояния всех запросов — 200, что свидетельствует об успешном сканировании информации об изображении.
Семь, для извлечения информации
Сначала определите Item, называемыйImageItem
,Следующее:
from scrapy import Item, Field
class ImageItem(Item):
collection = table = 'images'
id = Field()
url = Field()
title = Field()
thumb = Field()
Здесь мы определяем четыре поля, включая идентификатор изображения, ссылку, заголовок и миниатюру. Также есть два свойстваcollection
иtable
, определяются как строки изображений, представляющие имя коллекции, хранящееся в MongoDB, и имя таблицы, хранящееся в MySQL, соответственно.
Далее мы извлекаем соответствующую информацию в Пауке, и мыparse()
Метод перезаписи заключается в следующем:
def parse(self, response):
result = json.loads(response.text)
for image in result.get('list'):
item = ImageItem()
item['id'] = image.get('imageid')
item['url'] = image.get('qhimg_url')
item['title'] = image.get('group_title')
item['thumb'] = image.get('qhimg_thumb_url')
yield item
Сначала проанализируйте JSON, просмотрите его поле списка, извлеките информацию об изображении одно за другим, а затемImageItem
Назначение для создания объекта Item.
На этом извлечение информации завершено.
8. Информация о хранении
Далее нам нужно сохранить информацию об изображении в MongoDB, MySQL и сохранить изображение локально.
MongoDB
Сначала убедитесь, что MongoDB установлен и работает правильно.
Мы используем MongoPipeline для сохранения информации в MongoDB и добавляем реализацию следующих классов в pipens.py:
import pymongo
class MongoPipeline(object):
def __init__(self, mongo_uri, mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler(cls, crawler):
return cls(
mongo_uri=crawler.settings.get('MONGO_URI'),
mongo_db=crawler.settings.get('MONGO_DB')
)
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client[self.mongo_db]
def process_item(self, item, spider):
self.db[item.collection].insert(dict(item))
return item
def close_spider(self, spider):
self.client.close()
Здесь используются две переменные,MONGO_URI
иMONGO_DB
, то есть адрес ссылки и имя базы данных, хранящиеся в MongoDB. Мы добавляем эти две переменные в settings.py следующим образом:
MONGO_URI = 'localhost'
MONGO_DB = 'images360'
Такой конвейер, сохраненный в MongoDB, создается. Основным методом здесь являетсяprocess_item()
метод, который напрямую вызывает метод объекта Collection.insert()
Метод может завершить вставку данных и, наконец, вернуть объект Item.
MySQL
Сначала убедитесь, что MySQL правильно установлен и работает.
Создайте новую базу данных, имя по-прежнему images360, и оператор SQL выглядит следующим образом:
CREATE DATABASE images360 DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci
Создайте новую таблицу данных с четырьмя полями: id, url, title и thumb.Выражение SQL выглядит следующим образом:
CREATE TABLE images (id VARCHAR(255) NULL PRIMARY KEY, url VARCHAR(255) NULL , title VARCHAR(255) NULL , thumb VARCHAR(255) NULL)
После выполнения оператора SQL мы успешно создали таблицу данных. Затем вы можете сохранить данные в таблице.
Далее мы реализуемMySQLPipeline
, код выглядит так:
import pymysql
class MysqlPipeline():
def __init__(self, host, database, user, password, port):
self.host = host
self.database = database
self.user = user
self.password = password
self.port = port
@classmethod
def from_crawler(cls, crawler):
return cls(
host=crawler.settings.get('MYSQL_HOST'),
database=crawler.settings.get('MYSQL_DATABASE'),
user=crawler.settings.get('MYSQL_USER'),
password=crawler.settings.get('MYSQL_PASSWORD'),
port=crawler.settings.get('MYSQL_PORT'),
)
def open_spider(self, spider):
self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf8', port=self.port)
self.cursor = self.db.cursor()
def close_spider(self, spider):
self.db.close()
def process_item(self, item, spider):
data = dict(item)
keys = ', '.join(data.keys())
values = ', '.join(['%s'] * len(data))
sql = 'insert into %s (%s) values (%s)' % (item.table, keys, values)
self.cursor.execute(sql, tuple(data.values()))
self.db.commit()
return item
Как упоминалось ранее, используемый здесь метод вставки данных представляет собой метод динамического построения операторов SQL.
Здесь нам понадобится еще несколько конфигураций MySQL.Добавим несколько переменных в settings.py следующим образом:
MYSQL_HOST = 'localhost'
MYSQL_DATABASE = 'images360'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'
Здесь определяются адрес MySQL, имя базы данных, порт, имя пользователя и пароль.
Таким образом, конвейер MySQL завершен.
Image Pipeline
Scrapy предоставляет конвейер, предназначенный для обработки загрузок, включая загрузку файлов и загрузку изображений. Принцип загрузки файлов и изображений такой же, как и при сканировании страниц, поэтому процесс загрузки поддерживает асинхронность и многопоточность, а загрузка очень эффективна. Рассмотрим конкретный процесс реализации.
Официальный адрес документа: https://doc.scrapy.org/en/latest/topics/media-pipeline.html.
Сначала определите путь к файлу хранилища, вам нужно определитьIMAGES_STORE
добавьте следующий код в settings.py:
IMAGES_STORE = './images'
Здесь мы определяем путь как подпапку с изображениями по текущему пути, то есть загруженные изображения будут сохранены в папку с изображениями этого проекта.
ВстроенныйImagesPipeline
Элемент будет прочитан по умолчаниюimage_urls
поле и считает это поле списком, он проходит через элементimage_urls
поле, а затем выньте каждый URL для загрузки изображения.
Но поле ссылки на изображение сгенерированного элемента неimage_urls
Поле представлено не в виде списка, а в виде одного URL-адреса. Итак, чтобы реализовать загрузку, нам нужно переопределить загруженную частичную логику, то есть настроитьImagePipeline
Наследование встроенногоImagesPipeline
, переопределяя несколько методов.
мы определяемImagePipeline
,Следующее:
from scrapy import Request
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline
class ImagePipeline(ImagesPipeline):
def file_path(self, request, response=None, info=None):
url = request.url
file_name = url.split('/')[-1]
return file_name
def item_completed(self, results, item, info):
image_paths = [x['path'] for ok, x in results if ok]
if not image_paths:
raise DropItem('Image Downloaded Failed')
return item
def get_media_requests(self, item, info):
yield Request(item['url'])
Здесь мы достигаемImagePipeline
, наследуя встроенный в ScrapyImagesPipeline
, переопределите следующие методы.
get_media_requests()
. его первый параметрitem
Это объект Item, созданный при сканировании. мы это сделаемurl
Поле вынимается, а затем непосредственно генерируется объект Запрос. Этот запрос добавляется в очередь планирования, ожидая запланированного выполнения загрузки.file_path()
. его первый параметрrequest
Это объект запроса, соответствующий текущей загрузке. Этот метод используется для возврата сохраненного имени файла, а последняя часть ссылки на изображение может быть непосредственно использована в качестве имени файла. он используетsplit()
Функция разбивает ссылку и извлекает последнюю часть, возвращая результат. Таким образом, имя, сохраненное после загрузки изображения, является именем файла, возвращаемым функцией.item_completed()
, который является методом обработки после завершения загрузки одного элемента. Поскольку не каждое изображение будет успешно загружено, нам необходимо проанализировать результаты загрузки и удалить изображения, которые не удалось загрузить. Если изображение не загружается, то нам не нужно сохранять этот элемент в базе данных. Первый параметр методаresults
Это результат загрузки, соответствующий Item, который представлен в виде списка, и каждый элемент списка представляет собой кортеж, который содержит информацию об успехе или неудаче загрузки. Здесь мы перебираем результаты загрузки, чтобы найти все списки успешных загрузок. Если список пуст, изображение, соответствующее элементу, не может быть загружено, возникает исключение DropItem, и элемент игнорируется. В противном случае возвращается Item, указывающий, что Item допустим.
На данный момент определения трех конвейеров элементов завершены. Наконец, вам нужно только включить его, изменить settings.py, установитьITEM_PIPELINES
,Следующее:
ITEM_PIPELINES = {
'images360.pipelines.ImagePipeline': 300,
'images360.pipelines.MongoPipeline': 301,
'images360.pipelines.MysqlPipeline': 302,
}
Обратите внимание на порядок вызовов здесь. Нам нужно сначала позвонитьImagePipeline
Элементы фильтруются после загрузки. Элементы, которые не удалось загрузить, будут напрямую игнорироваться и не будут сохранены в MongoDB и MySQL. Затем вызовите два других сохраненных конвейера, чтобы обеспечить успешную загрузку изображений, хранящихся в базе данных.
Затем запустите программу для выполнения сканирования следующим образом:
scrapy crawl images
Искатель загружается во время сканирования, и скорость загрузки очень высока. Соответствующий выходной журнал показан на следующем рисунке.
Проверьте папку «Локальные изображения» и найдите, что изображения были успешно загружены, как показано на следующем рисунке.
Проверьте MySQL, информация о загруженном изображении также была успешно сохранена, как показано на следующем рисунке.
При просмотре MongoDB информация о загруженном изображении также была успешно сохранена, как показано на следующем рисунке.
Таким образом, мы можем успешно загрузить изображение и сохранить информацию о нем в базе данных.
Девять, этот код раздела
Кодовый адрес этого раздела: https://github.com/Python3WebSpider/Images360.
Х. Заключение
Item Pipeline является очень важным компонентом Scrapy, почти все данные, хранящиеся в этом компоненте, достигаются. Читатели внимательно воспринимают это содержание.
Этот ресурс был впервые опубликован в личном блоге Цуй Цинцай Цзин Ми:Практическое руководство по разработке веб-краулера на Python3 | Цзин Ми
Если вы хотите узнать больше информации о поисковых роботах, обратите внимание на мой личный публичный аккаунт WeChat: Coder of Attack.
WeChat.QQ.com/Day/5 Это радость VE Z…(автоматическое распознавание QR-кода)