Есть слово «Марш-краулер», которое относится к тому факту, что некоторым студентам необходимо собирать данные для написания дипломной работы после выпуска, поэтому я нашел несколько руководств в Интернете и немного узнал о запросах и даже urllib. и регулярные выражения Я начал писать поисковые роботы, чтобы сканировать данные из Интернета как сумасшедший. Эти сканеры почти ничего не делают, чтобы скрыться, не меняют IP, не устанавливают заголовки, не ограничивают скорость, легко блокируются веб-сайтами с антисканированием и легко создают нагрузку на небольшие веб-сайты без антисканирования.
Позже они не знали, какую статью они читали, они знали, как использовать IP-адрес прокси и модифицировать UserAgent. Таким образом, они действительно устанавливают только UserAgent в заголовках, и ни один из других элементов не установлен. Вы ему на это указали, а он обосновал: Вот видите, я могу и так лазить по данным, остальные пункты в шапках бесполезны.
Это действительно так?
Давайте проведем эксперимент, сначала используйте Chrome для доступаhttpbin.org/headersЭтот сайт может отображать ваши текущие заголовки. Эффект операции показан на следующем рисунке:
Затем используйте запросы без установки заголовков для запроса этого URL-адреса, и эффект операции показан на следующем рисунке:
Наконец, мы просто настроили UserAgent, чтобы увидеть эффект:
Видно, что между простой настройкой UserAgent и доступом к заголовкам через браузер существует много различий. Многие предметы отсутствуют. Веб-сайту нужно только обнаружить эти отсутствующие элементы, чтобы определить, используете ли вы программу для инициирования запроса или браузер для инициирования запроса.
Вернемся к веб-версии WeChat. Многие люди используют сторонние библиотеки, такие как wxpy или itchat, для управления своими учетными записями WeChat через Python для выполнения многих автоматизированных операций. Но вскоре после этого он сообщил, что ему запретили входить в веб-версию WeChat, думая, что его поведение было обнаружено WeChat, например, отправка десятков сообщений в течение секунды или ответ на сообщения нескольких людей одновременно.
Но я хочу сказать, что вы переоцениваете себя, и WeChat не должен быть таким хлопотным, чтобы обнаружить вас. Он просто проверяет заголовки напрямую.
Давайте посмотрим на исходный код wxpy, где задействованы сетевые запросы:
wxpy основан на вторичной разработке itchat, а функция входа реализована через itchat. Давайте взглянем на место, где делается сетевой запрос в itchat:
один из нихself.core.sЭто сеанс запросов, как показано на следующем рисунке:
видеть это? Для этих двух библиотек в шапки ставится только UserAgent, а остальные поля не ставятся. Таким образом, в тот момент, когда вы входите в систему, WeChat уже знает, что вход в вашу учетную запись выполнен не через браузер!
Поэтому те, кому запрещен вход в веб-версию WeChat после использования wxpy или itchat, не сомневайтесь, что вам вредят эти две библиотеки. В этих двух библиотеках задействован соответствующий код сетевых запросов, на уровне это код, написанный человеком, изучавшим краулер два-три дня.
Вы используете эти две библиотеки, чтобы ваша учетная запись WeChat умерла.
Не только эти две библиотеки, давайте взглянем на пакет экрана пули Python, который используют многие люди.Это еще более преувеличено.При получении информации о прямом эфире Douyu запросы используются непосредственно для запроса URL, и даже заголовки не устанавливаются , как показано на следующем рисунке:
Это чистая смерть.
В настоящее время группа по борьбе с машинным поведением крупных веб-сайтов обычно отделяет поисковые роботы от блокирующих сканеров. Поскольку существует больше стратегий защиты от сканеров, неизбежно будут случайные травмы. Чтобы максимально снизить уровень случайных травм, подозрительность запроса будет оцениваться при проверке сканера. Если вы подозреваете поведение сканера, добавьте некоторые указывают на ваш запрос. , некоторые виды поведения имеют высокие баллы, а некоторые — низкие. Когда общее количество очков достигнет определенного уровня, вызовите процесс бана.
Поскольку HTTP не имеет состояния, если веб-сайт, который вы хотите сканировать, не требует входа в систему, вам может быть полезно часто менять IP-адрес.
Но для WeChat, где вам нужно войти в систему, все ваши точки подозрительного поведения будут напрямую связаны с вашей учетной записью. Таким образом, в начале у вас может не быть проблем со входом в веб-версию WeChat с помощью wxpy.В настоящее время ваш подозрительный балл недостаточно высок.Может быть, есть какие-то старые браузеры с заголовками, в которых отсутствует много элементов? Но ты уже в списке подозреваемых. Если у вас есть другие подозрительные действия, а количество подозрительных точек продолжает расти, то, когда WeChat может быть на 100% уверен, что вы используете автоматизированную программу для входа в веб-версию WeChat, вполне естественно заблокировать вас.