TuChong_Spider
(Новичок проекта рептилии Дэниэл не распыляет)
Я случайно увидел это приложение на Douyin и обнаружил, что есть много качественных мобильных обоев и картинок.Для новичка в рептилиях это очень красиво.Много европейских и американских дам и сестер, хе-хе-хе....
Tubug.com совместно использует поисковый робот библиотеки и получает идентификатор изображения, используя Ajax для сохранения изображения.
Просканируйте веб-сайт:https://stock.tuchong.com
Результаты сканирования
Рабочая среда:
- Python 3.5+
- Windows 10
- VSCode
как пользоваться
Скачать исходный код проекта
https://github.com/cexll/tuchong_Spider.git
Установить зависимости
$ pip install -r requirements.txt
запустить проект
$ python spider.py
输入想要搜索的内容: 少女
获取图片ID.....
解析imageID
存在ID,解析
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/199813*************89.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/189***********417.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/1**************25.png
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/2***********62820.jpg
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/************2.jpg
拼接url访问网页
...
Ссылка на картинку большого размера, чтобы не бить....
Идеи (впереди высокая энергия, пожалуйста, обратите внимание на дорожную группу)
Сначала просканируйте веб-страницу, первый шаг — открыть эту веб-страницу (/ funny,
После открытия сначала посмотрите, как искать картинки, скачивать картинки..
Хмм~~, выглядит так красиво...(Зачем я здесь....
Вернемся к теме~
Откройте инструменты разработчика (F12 или щелкните правой кнопкой мыши, затем обновите
Тогда посмотрите, нет ли чего полезного... Кажется, я внимательно искал и ничего полезного не нашел... Что мне делать?
Я не могу найти его, что мне делать?
Прокрутите страницу вниз,
В середине картины есть奸细
....это то, что надо, но не открывается, почему нет ссылки на скачивание картинки??
Эй, не паникуй, зайди на сайт и открой картинку, чтобы увидеть структуру...
Здесь мы обнаружили, что ссылка URL-адреса веб-страницы имеетimageID=
Эта штука кажется такой же, как когда я нашла шпиона раньше, открыв ее, я обнаружила, что это действительно то же самое
Тогда общая структура ясна, сначала откройте шпионскую ссылку прямо сейчас, чтобы увидеть, что это такое.
Была совершена интенсивная фобия... Присмотревшись повнимательнее, я обнаружил, что в начале былиimageID
, то идея имеет
Получить каждую страницу, перейдя по шпионской ссылкеimageID
,С использованиемhttps://stock.tuchong.com/free/image/? + imageID
Вы можете получить доступ к изображениям, так что за один раз
код
Полный код смотрите по адресу проекта:GitHub.com/tested down/highlighted…
Суммировать
Сканирование всех веб-страниц — аналогичная идея. Сначала найдите данные с помощью человеческой логики, а затем получите их с помощью кода. Не начинайте сразу с кода.
Внимательные друзья должно быть заметили, что мы ловим картинки из бесплатной галереи.Да, что касается того, почему мы не захватили предпочитаемую галерею и галерею высокого класса, 1. Я только узнал, что они разные.Что делать, если вы попасться...
Если у вас есть возможность, вы можете подумать об этом сами.В прошлый раз, когда я смотрел на imageID, на этот раз он был сохранен в HTML, что немного похоже на сегодняшние заголовки.
адрес проекта:GitHub.com/tested down/highlighted…