Пошаговый анализ проверки зрения неба, краулер

рептилия анализ данных

Этот проект появился совсем недавно. Я должен вернуться к этому проекту еще раз, а затем потратить некоторое время сегодня, чтобы проанализировать его.Этот сайт часто пересматривается, что является головной болью.
Я также хотел бы поблагодарить сообщение в блоге здесь, Это было его начало, которое дало мне представление о том, как ползать.
А вот и Китай с открытым исходным кодом:Токен интерфейса Тяньянча, приобретение _utm

Новая версия Тяньянчи, беда в том, что есть проблема с логином Auth, а так же проблема с правами, и много данных не совпадает с вышеперечисленным, можно напрямую все сразу получить.Моя первая версия использовалась mysql, но эта версия ж. Я планирую использовать MongoDB для кэширования и записи в mysql.

Первым делом нужно проанализировать ввод логина: Во-первых, когда мы логинимся здесь


картинка.png
картинка.png

Подождите, пока бродяга вернет информацию и сохранит ее в файлах cookie.

static.Sky Eyes.com/Web-require…
В этом js вы можете получить информацию об операции входа в систему

картинка.png картинка.png картинка.png

Вполне возможно, что здесь используется то, что ContentType должен быть application/json, а почтовый запрос


картинка.png картинка.png

Требуемые файлы cookie интересны? ?

картинка.png

Да, это использовать последний запрос, чтобы дать следующий ключ.

Таким образом можно получить практически всю информацию на странице


картинка.png

Затем он дополнительно анализируется здесь, то есть приведенный выше json возвращается и содержит такую ​​​​информацию, как auth_token.

Другой


картинка.png

Проблема с пагинацией здесь.
Если вы нажмете напрямую, он сообщит об ошибке 403.
столкнуться с этой проблемой

картинка.png картинка.png

Также замените два параметра _csrf и _csrf_bk из запроса на загрузку.
csrfToken практически не изменился.
Затем есть еще один массив, код для анализа которого таков:
_sgAttr
его положение


картинка.png

такие URL


картинка.png

Почти все ваши потребности могут быть удовлетворены здесь, а остальное зависит от того, как вы пишете парсинг страницы.