3 инструмента Crawler, которые вы должны знать

внешний интерфейс рептилия Ресурсы изображений Icon

Добавить Автора

Публичный аккаунт WeChat:PythonНаука о данных

Знаю почти:Аналитик данных


Этот блогер поделится с вами несколькими очень полезными爬虫小工具, эти гаджеты значительно сократят ваши временные затраты на фактическую разработку сканера и в то же время повысят эффективность вашей работы, это действительно очень практичный инструмент.

Эти инструменты на самом делеGoogleНа сайте есть плагины и некоторые расширения, которые протестированы блогерами без проблем.Наконец, блоггер предоставит способ получить гаджет.

Что ж, без лишних слов, давайте представим.

JSON-handle

1. Интерпретация:

Как мы упоминали ранее, когда клиент запрашивает у сервера<ajax>Асинхронные запросы (например,<xhr>), он будет возвращен в ответе<json>форматировать данные.

В инструментах разработчика мы увидим<json>Эффект визуализации данных формата очень плохой, это длинная строка, и трудно увидеть ключевую информацию напрямую.

Таким образом, чтобы найти ключевую информацию напрямую и эффективно,<JSON-handle>инструменты будут сложными<json>Данные формата становятся простой и понятной древовидной диаграммой, что значительно улучшает эффект визуализации.

2. Инструкция по применению:

Способ очень простой, если вы установили гаджет, нажмите на иконку, чтобы всплыло框框,Пучок<json>данные复制Просто войти.

Конечно, вы также можете принести его из любого места<json>Данные вводятся, не ограничиваясь асинхронным ответом браузера.

3. Пример:

просто возьми<天猫网站>Например, чтобы случайным образом найти асинхронный запрос,responseЭто происходит следующим образом.

jsonp_46336857({"201509290":{"data":[{"_pos_":1,"entityType":"13","acm":"201509290.1003.1.1286473","title":"【抢券减400】Apple/苹果iPhone X 全网通4G智能手机苹果10 苹果X","typ.......

Введите код в поле и нажмитеOK, он становится следующими данными (данные относительно длинные, перехватывается только часть).

User-Agent Switcher

1. Интерпретация:

Часть 1Расшифровка секретов HTTP в краулерах (базовый)мы представили请求头, а этот инструмент для заголовка запросаUser-Agentполе. Его функция заключается в изменении User-Agent браузера по желанию.

Например, вы используетеChrome浏览器просматривать веб-страницы, браузер默认身份даChrome, но с помощью этого инструмента вы можете перейти на любое другое удостоверение.

Самым большим преимуществом этого является то, что его можно напрямую заменить на手机身份Просматривайте веб-страницы без необходимости переключаться между инструментами разработчика.

2. Инструкция по применению:

использоватьChromeУстановите плагин в браузере, нажмите на иконку и выберите нужную идентификацию.

3. Пример:

(браузер Chrome по умолчанию такой)

(превращается в IOS-iphone6)

Xpath-Helper

1. Интерпретация:

противXpathметод разбора,Xpath-HelperОн может предоставить результат запроса указанного оператора Xpath текущей веб-страницы.

2. Инструкция по применению:

Нажмите на значок, и появится черная рамка.

  • ЗАПРОС: оператор Xpath
  • РЕЗУЛЬТАТЫ: результаты запроса

3. Пример:

1. Предположим, цель находится под QR-кодом<百度>два персонажа

2. Инструменты разработчика находят соответствующее расположение исходного кода, щелкните правой кнопкой мышиcopy xpath

3. Скопируйте вQUERYВнутри результат выходит автоматически

Примечание:Xpath-HelperТребуется после установки гаджета重启ChromeПрежде чем его можно будет использовать, пожалуйста, обратите внимание на эту яму.

способ установки

  1. Скачать браузер Хром
  2. Скачать плагин виджета
  3. Откройте дополнительные инструменты Chrome -> Расширения
  4. Перетащите плагин виджета <.crx> в расширение
  5. Установить

После завершения установки в правом верхнем углу появятся три маленькие иконки:

способ получения

Способ получения очень прост, обратите внимание на публичный номер<Python数据科学>,Отправить<爬虫小工具>чтобы получить ссылку для скачивания и пароль. Я надеюсь, что это будет полезно для вас, и с нетерпением жду более интересных вещей!


Обратите внимание на WECHAT общественный счетPythonНаука о данных,Получать120GУчебные материалы по искусственному интеллекту.