При работе в качестве поискового робота обычно существует большой спрос на IP-адреса прокси. Потому что в процессе сканирования информации веб-сайта многие веб-сайты внедрили стратегии предотвращения сканирования, которые могут контролировать частоту каждого IP-адреса. Таким образом, нам нужно много IP-адресов прокси, когда мы сканируем веб-сайт.
IP-адрес прокси можно получить следующими способами:
- Получите его с бесплатного веб-сайта, очень низкого качества, очень мало доступных IP-адресов.
- Покупайте платные услуги агентства, качество намного выше
- Создайте свой собственный прокси-сервер, который стабилен, но требует много ресурсов сервера.
Пул IP-адресов прокси-сервера в этой статье предназначен для получения IP-адресов прокси-сервера с нескольких бесплатных веб-сайтов через сканер заранее, а затем проверить, доступен ли IP-адрес.Если он доступен, он хранится в MongoDB и, наконец, отображается на передней панели. -конечная страница.
Получить доступный прокси
Основным кодом для получения прокси является ProxyManager, который реализован RxJava2 и в основном выполняет следующие функции:
- Создайте ParallelFlowable для параллельного сканирования каждой страницы, предлагающей бесплатный IP-адрес прокси-сервера. Для студентов, которые не знают ParallelFlowable, вы можете прочитать мою предыдущую статьюParallelFlowable для RxJava
Flowable.fromIterable(ProxyPool.proxyMap.keySet())
.parallel()
-
Сканировать каждую страницу и возвращать список
map(new Function<String, List<Proxy>>() { @Override public List<Proxy> apply(String s) throws Exception { try { return new ProxyPageCallable(s).call(); } catch (Exception e) { e.printStackTrace(); } return null; } }) -
Проверьте список IP-адресов прокси, полученный на каждой странице, чтобы определить, доступен ли он.
flatMap(new Function<List<Proxy>, Publisher<Proxy>>() { @Override public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception { if (proxies == null) return null; List<Proxy> result = proxies .stream() .parallel() .filter(new Predicate<Proxy>() { @Override public boolean test(Proxy proxy) { HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType()); return HttpManager.get().checkProxy(httpHost); } }).collect(Collectors.toList()); return Flowable.fromIterable(result); } }) -
Сохранить в proxyList по очереди
subscribe(new Consumer<Proxy>() { @Override public void accept(Proxy proxy) throws Exception { log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort()); proxy.setLastSuccessfulTime(new Date().getTime()); ProxyPool.proxyList.add(proxy); } });
Прикрепите полную блок-схему
Затем прикрепите полный код ProxyManager:
import com.cv4j.proxy.domain.Proxy;
import com.cv4j.proxy.http.HttpManager;
import com.cv4j.proxy.task.ProxyPageCallable;
import io.reactivex.Flowable;
import io.reactivex.functions.Consumer;
import io.reactivex.functions.Function;
import lombok.extern.slf4j.Slf4j;
import org.apache.http.HttpHost;
import org.reactivestreams.Publisher;
import org.springframework.stereotype.Component;
import java.util.Date;
import java.util.List;
import java.util.function.Predicate;
import java.util.stream.Collectors;
/**
* Created by tony on 2017/10/25.
*/
@Slf4j
@Component
public class ProxyManager {
/**
* 抓取代理,成功的代理存放到ProxyPool中
*/
public void start() {
Flowable.fromIterable(ProxyPool.proxyMap.keySet())
.parallel()
.map(new Function<String, List<Proxy>>() {
@Override
public List<Proxy> apply(String s) throws Exception {
try {
return new ProxyPageCallable(s).call();
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
})
.flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
@Override
public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {
if (proxies == null) return null;
List<Proxy> result = proxies
.stream()
.parallel()
.filter(new Predicate<Proxy>() {
@Override
public boolean test(Proxy proxy) {
HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
return HttpManager.get().checkProxy(httpHost);
}
}).collect(Collectors.toList());
return Flowable.fromIterable(result);
}
})
.sequential()
.subscribe(new Consumer<Proxy>() {
@Override
public void accept(Proxy proxy) throws Exception {
log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
proxy.setLastSuccessfulTime(new Date().getTime());
ProxyPool.proxyList.add(proxy);
}
});
}
}
задача на время
Запускайте запланированную задачу каждые несколько часов, удаляйте старые данные после получения задачи, а затем вставляйте новые данные в MongoDB.
import com.cv4j.proxy.ProxyManager;
import com.cv4j.proxy.ProxyPool;
import com.cv4j.proxy.dao.ProxyDao;
import com.cv4j.proxy.domain.Proxy;
import com.safframework.tony.common.utils.Preconditions;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import java.util.concurrent.CopyOnWriteArrayList;
/**
* Created by tony on 2017/11/22.
*/
@Component
public class ScheduleJobs {
@Autowired
ProxyDao proxyDao;
@Autowired
ProxyManager proxyManager;
/**
* 每六个小时跑一次任务
*/
@Scheduled(cron = "0 0 */6 * * ?")
public void cronJob() {
System.out.println("Job Start...");
proxyManager.start();
CopyOnWriteArrayList<Proxy> list = ProxyPool.proxyList;
// 先删除旧的数据
proxyDao.deleteAll();
// 然后再进行插入新的proxy
if (Preconditions.isNotBlank(list)) {
for (Proxy p:list) {
proxyDao.saveProxy(p);
}
}
System.out.println("Job End...");
}
}
Показать на передний план
Весь проект собран с помощью Spring Boot, и после запуска локальный адрес доступа:
http://localhost:8080/load?pagename=proxy_list
Эффект предварительного просмотра выглядит следующим образом:
Перед использованием вы также можете выполнить еще один тест, просто дважды щелкнув IP-адрес прокси.
При втором обнаружении просроченный IP-адрес будет удален ProxyPool.
Суммировать
При работе в качестве сканера необходимо поддерживать доступный пул IP-адресов прокси.Конечно, если вы хотите использовать более стабильный IP-адрес прокси, лучше подумать о его покупке.
Наконец, прикрепите адрес github:
GitHub.com/Zonda71…