Как использовать веб-краулер Python для захвата динамики WeChat Moments (Часть 1)

Сегодня Xiaobian поделится с вами тем, как использовать веб-краулер Python для сканирования динамической информации WeChat Moments, На самом деле будет очень сложно сканировать только моменты, потому что WeChat не предоставляет интерфейс API для NetEase Cloud Music. легко найти дверь. Но не паникуйте, редактор нашел сторонний инструмент в Интернете, он может экспортировать круг друзей, и тогда вы можете сканировать информацию, как наш обычный веб-страница краулера.

[Publish Books] предоставляет такую услугу, поддерживает экспорт из Moments и верстку для создания книг WeChat. Основная ссылка на эту статью взята из этого сообщения в блоге:блог woo woo woo.cn на.com/sheng-pick/afraid…, Спасибо за интерфейс и идеи, предоставленные большим парнем. Конкретный учебник заключается в следующем.

1. Получить ввод данных круга друзей

1. Обратите внимание на паблик аккаунт [книга опубликована]

2, затем нажмите [Книга создания] -> [Книга WeChat] на главной странице.

3. Нажмите [Начать производство] --> [Добавить случайно назначенного редактора книг в друзья], а затем нажмите и удерживайте QR-код, чтобы добавить друзей.

4. Затем терпеливо дождитесь создания книги WeChat.После завершения вы получите сообщение-напоминание, отправленное редактором, как показано на рисунке ниже.

На данный момент мы завершили ввод данных WeChat Moments и получили внешнюю цепочку.

Убедитесь, что для круга друзей установлено значение [Все открыты]. По умолчанию открыты все. Если вы не знаете, как это установить, пожалуйста, Baidu.

5. Нажмите на внешнюю ссылку, а затем войдите на веб-страницу, вам нужно использовать WeChat для сканирования кода для авторизации входа.

6. После сканирования кода для авторизации можно войти в веб-версию книги WeChat, как показано на рисунке ниже.

7. Далее мы можем получить информацию в обычной программе написания рептилии. Здесь в небольшой серии используется фрейм рептилий Scrapy, а Python использует 3 версии, а интегрированная среда разработки — Pycharm. Изображение ниже — это домашняя страница книги WeChat, а изображение — самоопределение с небольшими краями.

2. Создайте проект сканера

1. Убедитесь, что Scrapy установлен на вашем компьютере. Затем выберите папку, введите командную строку под папку и введите команду выполнения:

scrapy startproject weixin_moment

, ожидая создания проекта сканера Scrapy.

2. Введите cd weixin_moment в командной строке, чтобы войти в созданный каталог weixin_moment. Затем введите команду:

scrapy genspider 'moment' 'chushu.la'

, создайте поисковый робот круг друзей, как показано на следующем рисунке.

3. Структура папок после выполнения двух вышеуказанных шагов выглядит следующим образом:

3. Анализировать данные веб-страницы

1. Войдите на домашнюю страницу книги WeChat, нажмите F12, рекомендуется использовать Google Chrome, просмотрите элементы, перейдите на вкладку «Сеть», а затем установите флажок «Сохранить журнал», чтобы сохранить журнал, как показано на следующем рисунке. Вы можете видеть, что метод запроса домашней страницы — get, а возвращаемый код состояния — 200, что означает, что запрос выполнен успешно.

2. Нажмите «Ответ» (ответ сервера), вы увидите, что данные, возвращаемые системой, имеют формат JSON. Объясните, что нам нужно обработать данные в формате JSON в программе позже.

3. Щелкните окно «Навигация» WeChat Book, и вы увидите, что данные загружаются по месяцам. При нажатии кнопки навигации загружаются данные моментов за соответствующий месяц.

4. Когда вы нажмете месяц [2014/04], а затем проверите данные ответа сервера, вы увидите, что данные, отображаемые на странице, соответствуют ответу сервера.

5. Проверьте метод запроса, вы можете видеть, что метод запроса в это время стал POST. Внимательные партнеры могут видеть, что при нажатии кнопки «в следующем месяце» или других месяцах навигации URL-адрес главной страницы не изменился, что указывает на то, что веб-страница загружается динамически. После сравнения нескольких запросов веб-страницы мы видим, что параметры пакета данных в разделе «Полезная нагрузка запроса» постоянно меняются, как показано на следующем рисунке.

6. Разверните данные, полученные от сервера, и поместите данные в онлайн-парсер JSON, как показано на следующем рисунке:

Вы можете увидеть, что данные в кругу друзей хранятся под узлом Paras / Data.

На данный момент был определен источник анализа веб-страниц и данные. Далее напишите процедуру для захвата, поэтому оставайтесь настроен на следующую статью ~~