Создайте пул прокси-IP для сканеров

Spring Boot рептилия RxJava

При работе в качестве поискового робота обычно существует большой спрос на IP-адреса прокси. Потому что в процессе сканирования информации веб-сайта многие веб-сайты внедрили стратегии предотвращения сканирования, которые могут контролировать частоту каждого IP-адреса. Таким образом, нам нужно много IP-адресов прокси, когда мы сканируем веб-сайт.

IP-адрес прокси можно получить следующими способами:

  • Получите его с бесплатного веб-сайта, очень низкого качества, очень мало доступных IP-адресов.
  • Покупайте платные услуги агентства, качество намного выше
  • Создайте свой собственный прокси-сервер, который стабилен, но требует много ресурсов сервера.

Пул IP-адресов прокси-сервера в этой статье предназначен для получения IP-адресов прокси-сервера с нескольких бесплатных веб-сайтов через сканер заранее, а затем проверить, доступен ли IP-адрес.Если он доступен, он хранится в MongoDB и, наконец, отображается на передней панели. -конечная страница.

Получить доступный прокси

Основным кодом для получения прокси является ProxyManager, который реализован RxJava2 и в основном выполняет следующие функции:

  1. Создайте ParallelFlowable для параллельного сканирования каждой страницы, предлагающей бесплатный IP-адрес прокси-сервера. Для студентов, которые не знают ParallelFlowable, вы можете прочитать мою предыдущую статьюParallelFlowable для RxJava
Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                .parallel()
  1. Сканировать каждую страницу и возвращать список

    map(new Function<String, List<Proxy>>() {
                     @Override
                     public List<Proxy> apply(String s) throws Exception {
    
                         try {
                             return new ProxyPageCallable(s).call();
                         } catch (Exception e) {
                             e.printStackTrace();
                         }
    
                         return null;
                     }
                 })
  2. Проверьте список IP-адресов прокси, полученный на каждой странице, чтобы определить, доступен ли он.

    flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
                     @Override
                     public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {
    
                         if (proxies == null) return null;
    
                         List<Proxy> result = proxies
                                 .stream()
                                 .parallel()
                                 .filter(new Predicate<Proxy>() {
                             @Override
                             public boolean test(Proxy proxy) {
    
                                 HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                                 return HttpManager.get().checkProxy(httpHost);
                             }
                         }).collect(Collectors.toList());
    
                         return Flowable.fromIterable(result);
                     }
                 })
  3. Сохранить в proxyList по очереди

    subscribe(new Consumer<Proxy>() {
                     @Override
                     public void accept(Proxy proxy) throws Exception {
                         log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                         proxy.setLastSuccessfulTime(new Date().getTime());
                         ProxyPool.proxyList.add(proxy);
                     }
                 });

Прикрепите полную блок-схему

ProxyPool流程.png
Процесс ProxyPool.png

Затем прикрепите полный код ProxyManager:

import com.cv4j.proxy.domain.Proxy;
import com.cv4j.proxy.http.HttpManager;
import com.cv4j.proxy.task.ProxyPageCallable;
import io.reactivex.Flowable;
import io.reactivex.functions.Consumer;
import io.reactivex.functions.Function;
import lombok.extern.slf4j.Slf4j;
import org.apache.http.HttpHost;
import org.reactivestreams.Publisher;
import org.springframework.stereotype.Component;

import java.util.Date;
import java.util.List;
import java.util.function.Predicate;
import java.util.stream.Collectors;

/**
 * Created by tony on 2017/10/25.
 */
@Slf4j
@Component
public class ProxyManager {

    /**
     * 抓取代理,成功的代理存放到ProxyPool中
     */
    public void start() {

        Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                .parallel()
                .map(new Function<String, List<Proxy>>() {
                    @Override
                    public List<Proxy> apply(String s) throws Exception {

                        try {
                            return new ProxyPageCallable(s).call();
                        } catch (Exception e) {
                            e.printStackTrace();
                        }

                        return null;
                    }
                })
                .flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
                    @Override
                    public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                        if (proxies == null) return null;

                        List<Proxy> result = proxies
                                .stream()
                                .parallel()
                                .filter(new Predicate<Proxy>() {
                            @Override
                            public boolean test(Proxy proxy) {

                                HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                                return HttpManager.get().checkProxy(httpHost);
                            }
                        }).collect(Collectors.toList());

                        return Flowable.fromIterable(result);
                    }
                })
                .sequential()
                .subscribe(new Consumer<Proxy>() {
                    @Override
                    public void accept(Proxy proxy) throws Exception {
                        log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                        proxy.setLastSuccessfulTime(new Date().getTime());
                        ProxyPool.proxyList.add(proxy);
                    }
                });
    }
}

задача на время

Запускайте запланированную задачу каждые несколько часов, удаляйте старые данные после получения задачи, а затем вставляйте новые данные в MongoDB.

import com.cv4j.proxy.ProxyManager;
import com.cv4j.proxy.ProxyPool;
import com.cv4j.proxy.dao.ProxyDao;
import com.cv4j.proxy.domain.Proxy;
import com.safframework.tony.common.utils.Preconditions;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;

import java.util.concurrent.CopyOnWriteArrayList;

/**
 * Created by tony on 2017/11/22.
 */
@Component
public class ScheduleJobs {

    @Autowired
    ProxyDao proxyDao;

    @Autowired
    ProxyManager proxyManager;

    /**
     * 每六个小时跑一次任务
     */
    @Scheduled(cron = "0 0 */6 * * ?")
    public void cronJob() {
        System.out.println("Job Start...");

        proxyManager.start();

        CopyOnWriteArrayList<Proxy> list = ProxyPool.proxyList;

        // 先删除旧的数据
        proxyDao.deleteAll();

        // 然后再进行插入新的proxy
        if (Preconditions.isNotBlank(list)) {

            for (Proxy p:list) {

                proxyDao.saveProxy(p);
            }
        }

        System.out.println("Job End...");
    }
}

Показать на передний план

Весь проект собран с помощью Spring Boot, и после запуска локальный адрес доступа:
http://localhost:8080/load?pagename=proxy_list

Эффект предварительного просмотра выглядит следующим образом:

代理列表.jpeg
список прокси.jpeg

Перед использованием вы также можете выполнить еще один тест, просто дважды щелкнув IP-адрес прокси.

检测某个代理.jpeg
Обнаружить прокси.jpeg

При втором обнаружении просроченный IP-адрес будет удален ProxyPool.

Суммировать

При работе в качестве сканера необходимо поддерживать доступный пул IP-адресов прокси.Конечно, если вы хотите использовать более стабильный IP-адрес прокси, лучше подумать о его покупке.

Наконец, прикрепите адрес github:
GitHub.com/Zonda71…