Научит вас использовать Python для сканирования сети червей

задняя часть Python GitHub рептилия

TuChong_Spider

(Новичок проекта рептилии Дэниэл не распыляет)

Я случайно увидел это приложение на Douyin и обнаружил, что есть много качественных мобильных обоев и картинок.Для новичка в рептилиях это очень красиво.Много европейских и американских дам и сестер, хе-хе-хе....

Tubug.com совместно использует поисковый робот библиотеки и получает идентификатор изображения, используя Ajax для сохранения изображения.

Просканируйте веб-сайт:https://stock.tuchong.com

Результаты сканирования

Рабочая среда:

  • Python 3.5+
  • Windows 10
  • VSCode

как пользоваться

Скачать исходный код проекта

https://github.com/cexll/tuchong_Spider.git

Установить зависимости

$ pip install -r requirements.txt

запустить проект

$ python spider.py
输入想要搜索的内容: 少女
获取图片ID.....
解析imageID
存在ID,解析
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/199813*************89.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/189***********417.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/1**************25.png
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/2***********62820.jpg
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/************2.jpg
拼接url访问网页
...

Ссылка на картинку большого размера, чтобы не бить....

Идеи (впереди высокая энергия, пожалуйста, обратите внимание на дорожную группу)

Сначала просканируйте веб-страницу, первый шаг — открыть эту веб-страницу (/ funny,

После открытия сначала посмотрите, как искать картинки, скачивать картинки..

Хмм~~, выглядит так красиво...(Зачем я здесь....

Вернемся к теме~

Откройте инструменты разработчика (F12 или щелкните правой кнопкой мыши, затем обновите

Тогда посмотрите, нет ли чего полезного... Кажется, я внимательно искал и ничего полезного не нашел... Что мне делать?

Я не могу найти его, что мне делать?

Прокрутите страницу вниз,

В середине картины есть奸细....это то, что надо, но не открывается, почему нет ссылки на скачивание картинки??

Эй, не паникуй, зайди на сайт и открой картинку, чтобы увидеть структуру...

Здесь мы обнаружили, что ссылка URL-адреса веб-страницы имеетimageID=Эта штука кажется такой же, как когда я нашла шпиона раньше, открыв ее, я обнаружила, что это действительно то же самое

Тогда общая структура ясна, сначала откройте шпионскую ссылку прямо сейчас, чтобы увидеть, что это такое.

Была совершена интенсивная фобия... Присмотревшись повнимательнее, я обнаружил, что в начале былиimageID, то идея имеет

Получить каждую страницу, перейдя по шпионской ссылкеimageID,С использованиемhttps://stock.tuchong.com/free/image/? + imageIDВы можете получить доступ к изображениям, так что за один раз

код

Полный код смотрите по адресу проекта:GitHub.com/tested down/highlighted…

Суммировать

Сканирование всех веб-страниц — аналогичная идея. Сначала найдите данные с помощью человеческой логики, а затем получите их с помощью кода. Не начинайте сразу с кода.

Внимательные друзья должно быть заметили, что мы ловим картинки из бесплатной галереи.Да, что касается того, почему мы не захватили предпочитаемую галерею и галерею высокого класса, 1. Я только узнал, что они разные.Что делать, если вы попасться...

Если у вас есть возможность, вы можете подумать об этом сами.В прошлый раз, когда я смотрел на imageID, на этот раз он был сохранен в HTML, что немного похоже на сегодняшние заголовки.

адрес проекта:GitHub.com/tested down/highlighted…