Научу вас использовать python для входа в Douban и сканирования обзоров фильмов

задняя часть Python Байду регулярное выражение

Полазив по 250 лучшим фильмам Дубана в прошлой статье, я подумал, что раз я залез на фильм, я даже залез на обзор фильма, чтобы посмотреть фильм, который люди оценили, а только что вышедшая мобильная фан-официальная 3 вроде бы будет очень жарко. , просто заберитесь на него и посмотрите, хорошо ли он выглядит после лазания!


введите тему


1. Перейдите на целевую страницу и найдите нужные данные.


Как только вы заходите на веб-страницу, условное отражение открывает инструменты разработчика, и в этом легко убедиться.


То, что щелкнуло мышью, — это веб-сайт, который я хочу просканировать следующим. Давайте сначала посмотрим на его ответ и заголовки запросов и другую информацию. Его метод запроса — get, а ответ — структура веб-страницы. С этим легко справиться, мы можем использовать Для соответствия нужным данным используется регуляризация, регуляризация все же очень полезная штука, обязательно изучите ее. Тогда начинайте вводить код!


2.Получить данные с помощью re+requests


получение информации

Сначала запишите данные в txt-файл (открытый файл должен быть закодирован как utf-8, иначе будут проблемы с кодировкой, потому что метод кодирования окна по умолчанию — gbk, а ваша кодировка — utf-8)

Регулярные выражения и URL-адреса


Как только я нажал «Выполнить», он пробежал всего две страницы, и что-то пошло не так, потому что этот обзор был больше двух страниц.


После отладки, после получения второй страницы, он вернул несуществующую веб-страницу, из-за чего мое регулярное выражение не захватило данные, и появилась пустая страница, поэтому были загружены только две страницы, которые должны быть у меня антисканированы , и я продолжал возвращаться на веб-страницу, чтобы посмотреть, какие заголовки запроса нужно добавить. Тем не менее, я добавил всю информацию заголовка запроса, но это все равно было бесполезно. Это задело мое слепое пятно (смущенное лицо), но я могу Baidu Ах, посмотрев на Baidu, я увидел, что кто-то сказал, что достаточно смоделированного входа в систему. Что ж, я смоделирую волну входов в систему! ! !


3. Имитация наземной панели


Сначала нужно посмотреть какие нужны параметры входа, этот параметр посадочная площадка кресс-салата, открыть лендинг, открыть инструменты разработчика (см. страница не должна быть меньше этой последней нужной), заполнить информацию нажать на лендинг, а затем нажмите на страницу входа, вы увидите, что из данных вытащите это поле, этот параметр является желаемой посадкой


Просто скопируйте их


Затем используйте сообщение, чтобы отправить информацию на сервер для завершения входа в систему, но есть проблема, как сохранить информацию для входа? Это нужно использоватьSession()Это зарезервировано, но обратите внимание, что вам нужно только установить информацию о сеансе.Не все используют этот метод.Я сделал эту ошибку, когда был новичком, и я долгое время не мог успешно войти в систему. код показывает, как показано ниже

Тогда используйте этот пост, чтобы подняться, обратите внимание! Уведомление! Уведомление! URL поста - это URL входа, а не URL, который вы хотите сканировать.Когда я только учился, я был в ловушке этого в течение длительного времени (как я чувствую, что у меня много проблем), и другие запросы которые необходимо заменить наself.ssession()

Наконец, как это

Дачал, потому что только 500 могут быть получены, потому что Douban открыт только для 500 комментариев, и человек не желает дать


4. Если вы входите слишком часто, вам необходимо ввести код подтверждения


Так как я много раз входил и выходил из системы, то мне нужно ввести код подтверждения.Однако для меня это все еще сложно.Я все еще анализирую веб-страницу, чтобы найти изображение кода подтверждения, скачать его и заполнить самостоятельно. Заполните, код выглядит следующим образом


И сохраняйте данные в базу, выкладывать не буду, код аналогичен предыдущей статье


Благодаря этому я научился использовать сеанс для сохранения информации о сеансе для входа на простую веб-страницу, а также могу ввести код подтверждения. Я все еще чувствую себя немного высоким, хи-хи. Так как я не научился анализу данных, то могу приходить только сюда, а генерировать облака слов не умею, прямо копировать и вставлять скучно, поэтому пока не буду писать, подождите, пока вы напишете !


Наконец, большое спасибо за чтение моей статьи.Если вы найдете ее полезной, вы можете поставить лайк и переслать! Если вам нужен полный код в общедоступной учетной записи WeChatИзучайте Python каждый деньФоновый ответобзор фильмаВот и все, если вам нужны электронные книги, связанные с питоном, вы также можете ответитьpdfПолучите это, больше преимуществ будет предоставлено вам в будущем


Предыдущая статья:Python использует запросы + re, чтобы просто начать работу с поисковым роботом.


Изучайте Python каждый день


1802054148.png

Публичный аккаунт, ориентированный на python