Введение в сканеры Python (1)

Python рептилия
Введение в сканеры Python (1)

Чтобы прочитать эту статью, требуется около 4 минут.

предисловие

Многие люди более-менее слышали о рептилиях Python, меня они очень заинтересовали, поэтому потребовалось немного облегченной записи послеобеденных рептилий. Почему это легкие рептилии, потому что некоторые страницы более сложны, например, для доступа требуется код подтверждения или учетные данные для входа в систему, мы понимаем концепцию и архитектуру рептилий, просто выполняем некоторую простую работу, которая может сканировать, например, сканировать веб-страницы. страницы Baidu Baike это чистый информационный дисплей, статические страницы, которые необходимы для входа в систему. Еще более сложная паутина рептилий и каркас рептилий, по сути, неотделимы от этого базового набора архитектуры рептилий.

Введение в Краулер

Сканер — это программа, которая автоматически сканирует информацию в Интернете.Каждая веб-страница имеет URL-адрес, начиная с записи веб-страницы и формируя взаимные указывающие отношения посредством перехода между различными URL-адресами и, наконец, формируя сетевую структуру, которой является Интернет. Теоретически, огромный веб-проект, начиная со входа, всегда может достичь любой веб-страницы в системе проектов через определенный путь прыжка.Когда мы вручную получаем информацию с веб-страницы, мы можем только следовать шагам, шаг за шагом. Нажмите, чтобы перейти, и, наконец, получить информацию, которую мы хотим.

Например, как правило, вчера я хотел усыновить кошку, я сначала щелкнул на том же городском веб-сайте, затем нашел категорию домашних животных, затем нашел категорию кошек, а затем выбрал некоторые элементы, такие как усыновление, а не покупка, возраст менее половины годовалый, енотовидные кошки и т. д. После ожидания этих функций и, наконец, нажатия на кнопку поиска, веб-страница предоставила мне список конкретных предметов, и я получил нужную информацию вручную. Хотя позиционирование точное, это пустая трата сил и времени.

Сканер - это такая автоматическая программа. Мы устанавливаем нужные нам темы и цели, такие как "кот", "6 месяцев" и другие теги. Сканер будет запускаться с определенного URL-адреса и автоматически получать доступ к URL-адресу, связанному с ним. , и извлекаем нужные нам данные. Можно сказатьСканер — это программа, которая автоматически подключается к Интернету и извлекает ценные данные.

Ценность краулеров заключается в том, что я могу получать и использовать огромное количество данных в Интернете для собственного использования. С помощью этих данных мы можем учиться и анализировать или использовать данные для создания сопутствующих продуктов.

Просматривая проекты GitHub с наибольшим количеством просмотров страниц и продвижением звезд за один день, с помощью этих данных вы можете сделать проект, рекомендованный проектами GitHub с открытым исходным кодом.

Сейчас песни на крупных сайтах защищены авторским правом, и скачивать песни не очень удобно, можно просканировать все ссылки на бесплатное скачивание в интернете через название песни, так что можно легко создать инструмент кластеризации для поиска и скачивания песен.

Можно сказать, что пока есть данные, нет ничего, что нельзя было бы сделать, только то, о чем вы не можете подумать. Данные находятся в Интернете. С помощью сканера мы можем заставить данные воспроизводиться лучше. Роль и значение В эпоху больших данных краулер, несомненно, является передовой технологией.

Базовая структура краулера

Давайте сначала посмотрим на простую архитектурную диаграмму краулера.

Прежде всего, нам нужен терминал планирования искателя, чтобы запускать и останавливать искатель, а также использовать его для мониторинга состояния искателя и предоставлять через него интерфейс для определенных приложений данных. Эта часть не принадлежит самому сканеру.

Часть в затененной коробке на рисунке - наш гусеничный. Поскольку некоторые страницы имеют много входов, мы можем получить доступ к этому интерфейсу через разные пути планирования URL-адреса, так как интеллектуальное программное обеспечение для гусениц, когда встречаются с URL-адресом, который мы уже заползли, он должен выбрать фильтровать, а не снова ползание. URL-менеджер - это инструмент, используемый для хранения URL-адресов, которые были выполнены, и URL-адреса, которые будут заползли.

Выберите URL-адрес для сканирования в диспетчере URL-адресов, отправьте его загрузчику веб-страницы, загрузчик загрузит веб-страницу в виде строки и передаст строку анализатору веб-страницы для анализа, анализатор веб-страницы включен С одной стороны, информация о ценности, которую вам нужно получить, будет извлечена и возвращена планировщику, а с другой стороны, если на веб-странице есть новый URL-адрес для сканирования, URL-адрес будет отправлен диспетчеру URL-адресов. С этого момента эти три модуля циклически повторяются до тех пор, пока не будут просканированы все URL-адреса, связанные с веб-страницей.

Более ясный динамический процесс можно представить диаграммой последовательности. Вы можете выполнить шаги, описанные выше, чтобы понять.

Не по теме, диаграмма последовательности - это мой любимый вид диаграмм, помогающий разобраться в логике, можете выучить, очень поможет в процессе работы и учебы~

В следующей статье будут подробно описаны менеджеры URL, загрузчики и преобразователи.

Справочное содержание:

Курс MOOC: Python разрабатывает простой краулер - crazyant

Канал оценки iOS

Интерпретируйте жизнь со страстью и выражайте индивидуальность с помощью кода

END