Оригинальная ссылка:Сканер Node JS: Сканирование веб-страницы потока водопада HD-изображение
Статические веб-страницы часто используют метод get для получения всего содержимого страницы. Динамические веб-страницы, то есть веб-страницы, запрашивающие данные асинхронно, должны быть загружены браузером перед сканированием. В этой статье описывается, как непрерывно сканировать каскадные веб-страницы.
упоминается в чжихуpython
Должна быть большая группа людей, которые упоминают рептилий, давайтеNode JS
Краулер тоже очень простой, иpython
Сравнение — это просто сравнение производительности «асинхронного» и «многопоточного». правильноpython
Я мало в этом разбираюсь, поэтому комментировать не буду.
phantomjsявляется «бескорпусным»chrome
, проверьте конкретный метод установкиphantomjs.org.phantomjs
Предоставьте инструменты командной строки для запуска, вам нужно использовать команду для запускаphantom xxx.js
. использоватьphantom-node
Эту библиотеку можно найти вNode Js
играть вphantomjs
, так что вы можете использоватьpm2
Демон процесса и балансировка нагрузки.
Цель
Просканировать более 2001920*1080
разрешение аниме обои, веб-страницыФото водопада Байду
Способ
Поток водопада основан на положении прокрутки страницы, чтобы определить, следует ли продолжать загрузку, поэтому необходимо использоватьphantomjs
Прокрутите страницу, чтобы увидеть больше ссылок на изображения. Страница сведений об одном изображении представляет собой сжатое изображение при первом входе. Это мера Baidu для оптимизации скорости доступа. Через несколько секунд изображение src будет заменено ссылкой на изображение большего размера. Таким образом, при входе на страницу сведений об изображении вы должны задержаться на несколько секунд перед получением источника изображения. Конкретная задержка зависит от скорости вашей сети.
шаг
получить ссылку
Сначала используйте фантом, чтобы открыть веб-страницу
const phantom = require('phantom')
(async function() {
const instance = await phantom.create();
const page = await instance.createPage();
const status = await page.open(url);
const size = await page.property('viewportSize', {
width: 1920,
height: 1080
})
}())
Получить количество ссылок, прокрутить страницу, если меньше 200
// 添加一个延时函数,等待页面加载后再滚动
function delay(second) {
return new Promise((resolve) => {
setTimeout(resolve, second * 1000);
});
}
async function pageScroll(i) {
await delay(5)
await page.property('scrollPosition', {
left: 0,
top: 1000 * i
})
let content = await page.property('content')
let $ = cheerio.load(content)
console.log($('.imgbox').length)
if($('.imgbox').length < 200) {
await pageScroll(++i)
}
}
await pageScroll(0)
Извлечь ссылку на изображение
let urlList = []
$('.imgbox').each(function() {
urlList.push('https://image.baidu.com'+$(this).find('a').attr('href'))
})
сохранить изображение
Определите функцию для сохранения изображения
const request = require('request')
const fs = require('fs')
function save(url) {
let ext = url.split('.').pop()
request(url).pipe(fs.createWriteStream(`./image/${new Date().getTime()}.${ext}`));
}
траверсurlList
, рекомендуется использовать рекурсивный обход, циклический обходdelay
не работает
async function imgSave(i) {
let page = await page.open(urlList[i])
delay(1)
let content = await page.property('content')
$ = cheerio.load(content)
let src = $('#currentImg').attr('src')
save(src)
if(i<urlList.length) {
await imgSave(++i)
}
}
await imgSave(0)
Окончательные результаты сканирования показаны на рисунке, все они имеют высокое разрешение, а некоторые изображения были защищены от сканирования.
полный код
const phantom = require('phantom')
const cheerio = require('cheerio')
const request = require('request')
const fs = require('fs')
function delay(second) {
return new Promise((resolve) => {
setTimeout(resolve, second * 1000);
});
}
let url = 'https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%8A%A8%E6%BC%AB+%E5%A3%81%E7%BA%B8&oq=%E5%8A%A8%E6%BC%AB+%E5%A3%81%E7%BA%B8&rsp=-1'
function save(url) {
let ext = url.split('.').pop()
request(url).pipe(fs.createWriteStream(`./image/${new Date().getTime()}.${ext}`));
}
(async function() {
let instance = await phantom.create();
let page = await instance.createPage();
let status = await page.open(url);
let size = await page.property('viewportSize', {
width: 1920,
height: 1080
})
let $
async function pageScroll(i) {
await delay(1)
await page.property('scrollPosition', {
left: 0,
top: 1000 * i
})
let content = await page.property('content')
$ = cheerio.load(content)
if($('.imgbox').length < 200) {
await pageScroll(++i)
}
}
await pageScroll(0)
let urlList = []
$('.imgbox').each(function() {
urlList.push('https://image.baidu.com'+$(this).find('a').attr('href'))
})
async function imgSave(i) {
let status = await page.open(urlList[i])
await delay(1)
let content = await page.property('content')
$ = cheerio.load(content)
let src = $('#currentImg').attr('src')
save(src)
if(i<urlList.length) {
await imgSave(++i)
}
}
await imgSave(0)
await instance.exit()
}());
мой блог:www.bougieblog.cn, добро пожаловать в чат.