«Разработка поискового робота на Python3 (второе издание)» наконец-то здесь! ! ! !

Всем привет! Меня зовут Цуй Цинцай.

Позвольте мне сообщить вам сегодня хорошие новости: «Разработка поискового робота на Python3 (второе издание)» уже на полках! ! ! !

Правильно, вот этот:

В мае 2018 года было опубликовано первое издание моей книги "Разработка поискового робота на Python3". За более чем три года с момента запуска было продано около 10 ватт экземпляров. Я очень ценю вашу поддержку. Позже, в связи с некоторыми техническими изменениями, я начал планировать второе издание этой книги.

В ноябре 2021 года эта книга прошла различные этапы неоднократных доработок, рецензирования и т. д., и сегодня она, наконец, на полках!

В последние несколько месяцев я получил слишком много запросов от читателей, когда же выйдет второе издание, мне очень жаль, что заставил всех долго ждать.

Правильно, это здесь сегодня!

Обновления второго издания

Первый вопрос, который вы можете задать: какой контент обновлен во втором издании по сравнению с первым?

Поскольку технология постоянно развивается и совершенствуется, то же самое происходит и с технологией краулеров, которая постоянно развивается в процессе постоянной борьбы между краулерами и антикраулерами. Например, все больше и больше веб-страниц в настоящее время принимают различные меры защиты, такие как сжатие и обфускация внешнего кода, шифрование параметров API и обнаружение WebDriver.Для достижения эффективного сканирования данных нам необходимо знать некоторые методы обратного анализа JavaScript. связанные технологии. То же самое относится и к приложениям.Защита приложения от захвата пакетов, защита оболочки, нативизация и обнаружение контроля риска затрудняют сканирование все большего и большего количества данных приложения, поэтому мы также должны понимать некоторые технологии, связанные с обратной связью, такие как Xposed, Frida, IDA Pro использует другие инструменты. Кроме того, в последние годы развитие глубокого обучения и искусственного интеллекта также идет полным ходом, поэтому поисковые роботы также могут быть объединены с искусственным интеллектом, например, распознавание проверочного кода на основе глубокого обучения, интеллектуальный анализ и извлечение веб-контента и другие. технологии, чтобы узнать и понять. Кроме того, технологии управления, эксплуатации и обслуживания некоторых крупномасштабных поисковых роботов также постоянно развиваются. В настоящее время очень популярны облачные технологии, такие как Kubernetes, Docker и Prometheus. облачные технологии, такие как Kubernetes, также очень популярны. Однако в первом издании предыдущей книги эти новые технологии, упомянутые выше, почти не упоминались.

Кроме того, в первом издании книги упоминалось множество случаев и сервисов в процессе объяснения краулинга данных, таких как веб-сайт Maoyan Movies, веб-сайт Taobao и веб-сайт службы агентства.Однако прошло несколько лет, и некоторые веб-сайты и сервисы уже были пересмотрены, или прекратить обслуживание, из-за чего многие случаи в первом издании книги больше не работают должным образом. На самом деле это большая проблема, потому что провал программы сильно снизит энтузиазм и чувство достижения в обучении, а также приведет к пустой трате времени. Кроме того, даже если соответствующий кейсу код краулера будет своевременно обновлен, мы не знаем, когда сайт и сервис этих кейсов будут снова пересмотрены, потому что это неконтролируемо. Итак, чтобы полностью решить эту проблему, я потратил почти полгода на создание платформы для гусеничного корпуса (scrape.center), платформа включает в себя десятки случаев сканирования, в том числе веб-сайты рендеринга на стороне сервера (SSR), веб-сайты одностраничных приложений (SPA), различные веб-сайты, предотвращающие сканирование, веб-сайты с проверочным кодом, веб-сайты с имитацией входа в систему, различные приложения и т. д., охватывающие текущий Большинство технологий, связанных с краулерами и антикраулерами, вся платформа поддерживается мной, и почти все кейсы в книге из кейс-платформы, таким образом решается проблема ревизии страниц.

Таким образом, по сравнению с первым изданием обновленное содержание этой книги в основном выглядит следующим образом:

Большинство из них мигрировали на самодельную кейс-платформу, и нет необходимости беспокоиться об истечении срока действия или пересмотре кейса в будущем.
Заменена исходная глава об установке среды в Главе 1, а также обобщены и перенесены все части конфигурации среды на платформу случая (setup.scrape.center) и прикреплены в виде внешних ссылок в книге, чтобы обеспечить своевременное обновление инструкций по настройке и установке среды.
Добавлено введение некоторых новых библиотек запросов, библиотек синтаксического анализа, репозиториев и т. д., таких как httpx, parsel, Elasticsearch и другие библиотеки.
Добавлено введение асинхронного сканера, такого как основной принцип сопрограммы, использование aiohttp и внедрение практики сканирования.
Добавлено введение некоторых новых инструментов автоматизации, таких как внедрение Pyppeteer, Playwright.
Добавлен контент, связанный с глубоким обучением, например графические проверочные коды и схемы идентификации для скользящих проверочных кодов.
Содержание главы о моделируемом входе в систему было обогащено, например, введением и фактическим сражением с имитацией входа в систему JWT, а также оптимизацией крупномасштабных пулов учетных записей.
Добавлена глава об обратном JavaScript, включая технологию шифрования и обфускации веб-сайтов, методы обратной отладки JavaScript, различные методы имитации выполнения JavaScript, запутанный код восстановления AST, WebAssembly и другие связанные технологии.
Расширенные главы о технологии автоматического сканирования приложений, такие как внедрение новой платформы Airtest, внедрение группового управления мобильными телефонами и технологии облачных мобильных телефонов.
Android Увеличенные обратные главы, такие как декомпилируемое, разборку, вводят технологию крючка, обстрела, поэтому файловый анализ и исполнение моделирования.
Увеличение интеллектуальных глав веб-аналитики, включая страницу списка, алгоритм извлечения содержимого страницы подробностей и алгоритм классификации.
Расширено введение глав, связанных со Scrapy, таких как стыковка Pyppeteer, стыковка RabbitMQ, стыковка Prometheus и т. д.
Добавлено введение решений по управлению сканерами, эксплуатации и обслуживанию на основе облачных технологий, таких как Kubernetes, Docker, Prometheus и Grafana.

Это основные обновления второго издания.

Введение в главу

Чтобы каждый мог лучше понять содержание книги, вот оглавление:

Верно! Книга имеет в общей сложности более 900 страниц, ее толщина составляет 4,3 см, а цена составляет 139,8 юаня.

Могу ли я посмотреть второй выпуск напрямую?

Конечно, некоторые друзья также будут беспокоиться, нужно ли мне изучать первое издание, прежде чем я смогу изучить второе издание?

Ответ таков: вы можете напрямую изучить второе издание.Система знаний по содержанию книг второго издания завершена.В первом издании были удалены некоторые старые технологии.Книга второго издания представляет собой новое обновление для всех систем знаний сканеров. .

Можно ли учиться без фундамента?

Некоторые друзья также могут спросить, могу ли я учиться без краулера или Python Foundation?

Ответ: Да, эта книга специально подготовлена для друзей с нулевым фундаментом краулера.Эта книга начинается с самой базовой конфигурации среды и объяснения базовых знаний, а также шаг за шагом знакомит с каждой точкой знаний краулера, так что не о чем беспокоиться. про отсутствие обходчика вообще.проблема не изучения основ. Если у вас нет основы Python, это нормально (конечно, это лучше).В книге также упоминается конфигурация среды Python и прикрепляются некоторые вводные учебные материалы Python (ссылки), а также объясняются различные фрагменты кода Python. , Многие случаи также очень просты и легки для понимания, и Python будет постепенно осваиваться при обучении сканированию.

Рекламные цветные страницы

Кроме того, редактор также сделал несколько рекламных цветных страниц для книги, которые представляют собой рекламное введение ко всей книге. Вы можете прочитать это ниже:

Электронная версия есть?

Увидев это, вы также можете спросить, а есть ли электронная версия? Некоторые друзья могут привыкнуть использовать электронные версии книг для учебы, а некоторым друзьям может быть неудобно покупать книги за границей, поэтому они хотят электронные версии.

Но, к сожалению, электронной версии нет.

Потому что знаете, если будет электронная версия, то сразу будет всякое пиратство, и будет всякое вредоносное распространение в интернете.

Поэтому в целях защиты авторских прав эта книга не имеет электронной версии.

ссылка на покупку

Да, последняя часть волнует всех больше всего, где ее можно купить?

Перед тем, как поставить ее на полки, я разными способами общался с редактором: изначально я хотел дать читателям и поклонникам эксклюзивную скидку, но это было сложно реализовать, поэтому в конце концов я решил, что вся книга теперь продается по сниженной цене. Скидка 30% на всю сеть!

Другими словами, первоначальная цена составляла 139,8 юаня, а сейчас его можно купить всего за 97,9 юаня.

Тем не менее, это также в течение ограниченного времени.Скидка 30% действует только до следующей пятницы, то есть 3 декабря, а затем будет возобновлена скидка 14%, что составляет 117 юаней.

Еще одна новость, разве я не подписал 1000 книг на днях? Таким образом, на данном этапе все проданные экземпляры являются подписанными изданиями, всего 1000 экземпляров, а запасы сохраняются в порядке живой очереди.

Если вам не нужна подписанная версия, вы можете подождать еще немного.Когда подписанная версия будет распродана, это будет не подписанная версия.

Ссылка на покупку:item.JD.com/13527222.Контракт…