Flink учится от 0 до 1 — как настроить источник данных?

Java

предисловие

существует«Учиться от 0 до 1 FLINK» — введение в источник данныхВ статье я представил источник данных Flink и кратко представил пользовательский источник данных, В этой статье я представлю его более подробно и напишу демо, чтобы все поняли.

Flink Kafka source

Готов к работе

Давайте сначала посмотрим на демонстрацию того, как Flink получает данные из топика Kafka.Во-первых, вам нужно установить FLink и Kafka.

Запустите, чтобы запустить Flink, Zookepeer, Kafka,

Хорошо, все началось!

maven-зависимости

<!--flink java-->
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-java</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>
<!--日志-->
<dependency>
    <groupId>org.slf4j</groupId>
    <artifactId>slf4j-log4j12</artifactId>
    <version>1.7.7</version>
    <scope>runtime</scope>
</dependency>
<dependency>
    <groupId>log4j</groupId>
    <artifactId>log4j</artifactId>
    <version>1.2.17</version>
    <scope>runtime</scope>
</dependency>
<!--flink kafka connector-->
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.11_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
</dependency>
<!--alibaba fastjson-->
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.51</version>
</dependency>

Тестовая отправка данных в тему кафки

Класс сущности, Metric.java

package com.zhisheng.flink.model;

import java.util.Map;

/**
 * Desc:
 * weixi: zhisheng_tian
 * blog: http://www.54tianzhisheng.cn/
 */
public class Metric {
    public String name;
    public long timestamp;
    public Map<String, Object> fields;
    public Map<String, String> tags;

    public Metric() {
    }

    public Metric(String name, long timestamp, Map<String, Object> fields, Map<String, String> tags) {
        this.name = name;
        this.timestamp = timestamp;
        this.fields = fields;
        this.tags = tags;
    }

    @Override
    public String toString() {
        return "Metric{" +
                "name='" + name + '\'' +
                ", timestamp='" + timestamp + '\'' +
                ", fields=" + fields +
                ", tags=" + tags +
                '}';
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public long getTimestamp() {
        return timestamp;
    }

    public void setTimestamp(long timestamp) {
        this.timestamp = timestamp;
    }

    public Map<String, Object> getFields() {
        return fields;
    }

    public void setFields(Map<String, Object> fields) {
        this.fields = fields;
    }

    public Map<String, String> getTags() {
        return tags;
    }

    public void setTags(Map<String, String> tags) {
        this.tags = tags;
    }
}

Запишите классы инструментов данных в kafka: KafkaUtils.java

import com.alibaba.fastjson.JSON;
import com.zhisheng.flink.model.Metric;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.HashMap;
import java.util.Map;
import java.util.Properties;

/**
 * 往kafka中写数据
 * 可以使用这个main函数进行测试一下
 * weixin: zhisheng_tian 
 * blog: http://www.54tianzhisheng.cn/
 */
public class KafkaUtils {
    public static final String broker_list = "localhost:9092";
    public static final String topic = "metric";  // kafka topic,Flink 程序中需要和这个统一 

    public static void writeToKafka() throws InterruptedException {
        Properties props = new Properties();
        props.put("bootstrap.servers", broker_list);
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); //key 序列化
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); //value 序列化
        KafkaProducer producer = new KafkaProducer<String, String>(props);

        Metric metric = new Metric();
        metric.setTimestamp(System.currentTimeMillis());
        metric.setName("mem");
        Map<String, String> tags = new HashMap<>();
        Map<String, Object> fields = new HashMap<>();

        tags.put("cluster", "zhisheng");
        tags.put("host_ip", "101.147.022.106");

        fields.put("used_percent", 90d);
        fields.put("max", 27244873d);
        fields.put("used", 17244873d);
        fields.put("init", 27244873d);

        metric.setTags(tags);
        metric.setFields(fields);

        ProducerRecord record = new ProducerRecord<String, String>(topic, null, null, JSON.toJSONString(metric));
        producer.send(record);
        System.out.println("发送数据: " + JSON.toJSONString(metric));

        producer.flush();
    }

    public static void main(String[] args) throws InterruptedException {
        while (true) {
            Thread.sleep(300);
            writeToKafka();
        }
    }
}

бегать:

Если он отображается, как показано на рисунке выше, это означает, что он может непрерывно отправлять данные в kafka.

Флинк программа

Main.java

package com.zhisheng.flink;

import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011;

import java.util.Properties;

/**
 * Desc:
 * weixi: zhisheng_tian
 * blog: http://www.54tianzhisheng.cn/
 */
public class Main {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        Properties props = new Properties();
        props.put("bootstrap.servers", "localhost:9092");
        props.put("zookeeper.connect", "localhost:2181");
        props.put("group.id", "metric-group");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");  //key 反序列化
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("auto.offset.reset", "latest"); //value 反序列化

        DataStreamSource<String> dataStreamSource = env.addSource(new FlinkKafkaConsumer011<>(
                "metric",  //kafka topic
                new SimpleStringSchema(),  // String 序列化
                props)).setParallelism(1);

        dataStreamSource.print(); //把从 kafka 读取到的数据打印在控制台

        env.execute("Flink add data source");
    }
}

вверх и работает:

Не видел программы, данные печати консоли программы Flink могут быть постоянным потоком.

пользовательский источник

Выше приведен исходный код Kafka, который поставляется с Flink, а затем имитирует написание исходного кода, который считывает данные из MySQL.

Первый в pom.xmlДобавить зависимость MySQL:

<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>5.1.34</version>
</dependency>

таблица базы данныхследующее:

DROP TABLE IF EXISTS `student`;
CREATE TABLE `student` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(25) COLLATE utf8_bin DEFAULT NULL,
  `password` varchar(25) COLLATE utf8_bin DEFAULT NULL,
  `age` int(10) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

вставить данные:

INSERT INTO `student` VALUES ('1', 'zhisheng01', '123456', '18'), ('2', 'zhisheng02', '123', '17'), ('3', 'zhisheng03', '1234', '18'), ('4', 'zhisheng04', '12345', '16');
COMMIT;

новый класс сущностей:student.java

package com.zhisheng.flink.model;

/**
 * Desc:
 * weixi: zhisheng_tian
 * blog: http://www.54tianzhisheng.cn/
 */
public class Student {
    public int id;
    public String name;
    public String password;
    public int age;

    public Student() {
    }

    public Student(int id, String name, String password, int age) {
        this.id = id;
        this.name = name;
        this.password = password;
        this.age = age;
    }

    @Override
    public String toString() {
        return "Student{" +
                "id=" + id +
                ", name='" + name + '\'' +
                ", password='" + password + '\'' +
                ", age=" + age +
                '}';
    }

    public int getId() {
        return id;
    }

    public void setId(int id) {
        this.id = id;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public String getPassword() {
        return password;
    }

    public void setPassword(String password) {
        this.password = password;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

Создайте новый исходный классSourceFromMySQL.java, наследование класса RichSourceFunction, реализованное внутри метода открытия, закрытия, запуска, отмены:

 package com.zhisheng.flink.source;

import com.zhisheng.flink.model.Student;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;


/**
 * Desc:
 * weixi: zhisheng_tian
 * blog: http://www.54tianzhisheng.cn/
 */
public class SourceFromMySQL extends RichSourceFunction<Student> {

    PreparedStatement ps;
    private Connection connection;

    /**
     * open() 方法中建立连接,这样不用每次 invoke 的时候都要建立连接和释放连接。
     *
     * @param parameters
     * @throws Exception
     */
    @Override
    public void open(Configuration parameters) throws Exception {
        super.open(parameters);
        connection = getConnection();
        String sql = "select * from Student;";
        ps = this.connection.prepareStatement(sql);
    }

    /**
     * 程序执行完毕就可以进行,关闭连接和释放资源的动作了
     *
     * @throws Exception
     */
    @Override
    public void close() throws Exception {
        super.close();
        if (connection != null) { //关闭连接和释放资源
            connection.close();
        }
        if (ps != null) {
            ps.close();
        }
    }

    /**
     * DataStream 调用一次 run() 方法用来获取数据
     *
     * @param ctx
     * @throws Exception
     */
    @Override
    public void run(SourceContext<Student> ctx) throws Exception {
        ResultSet resultSet = ps.executeQuery();
        while (resultSet.next()) {
            Student student = new Student(
                    resultSet.getInt("id"),
                    resultSet.getString("name").trim(),
                    resultSet.getString("password").trim(),
                    resultSet.getInt("age"));
            ctx.collect(student);
        }
    }

    @Override
    public void cancel() {
    }

    private static Connection getConnection() {
        Connection con = null;
            try {
                Class.forName("com.mysql.jdbc.Driver");
                con = DriverManager.getConnection("jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8", "root", "root123456");
            } catch (Exception e) {
                System.out.println("-----------mysql get connection has exception , msg = "+ e.getMessage());
            }
        return con;
    }
}

Флинк программа:

package com.zhisheng.flink;

import com.zhisheng.flink.source.SourceFromMySQL;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

/**
 * Desc:
 * weixi: zhisheng_tian
 * blog: http://www.54tianzhisheng.cn/
 */
public class Main2 {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.addSource(new SourceFromMySQL()).print();

        env.execute("Flink add data sourc");
    }
}

Запустите программу Flink, и вы увидите распечатанную информацию об ученике в журнале консоли.

RichSourceFunction

Из приведенного выше пользовательского исходного кода видно, что мы наследуем этот класс RichSourceFunction, так что давайте посмотрим:

Абстрактный класс, наследуемый от AbstractRichFunction. Предоставляет базовые возможности для реализации Rich SourceFunction. Существует три подкласса этого класса, два из которых являются абстрактными классами, предоставляющими более конкретные реализации на этой основе, а другой — ContinuousFileMonitoringFunction.

  • MessageAcknowledgingSourceBase: предназначен для сценариев, в которых источником данных является очередь сообщений, и предоставляет механизм ответа на основе идентификатора.
  • MultipleIdsMessageAcknowledgingSourceBase: на основе MessageAcknowledgingSourceBase механизм ответа с идентификатором более разделен, и поддерживаются две модели ответа с идентификатором: идентификатор сеанса и уникальный идентификатор сообщения.
  • OndowerFileMonitoringFunction: это одномагнитный (непараллельный) задачи мониторинга, она принимает fileInputformat, а также в соответствии с файловой обработкойMode и filepathfilter, который отвечает за путь мониторинга, предоставляемый пользователем; определяет, какие файлы должны быть дополнительно прочитаны и обработаны; fileInputsplit создает эти файлы; Соответствующее разделению, назначьте их в нижнюю задачу для дальнейшей обработки.

Наконец

В этой статье в основном рассказывается об использовании Kafka Source с Flink и представлена ​​демонстрация, которая научит вас настраивать Source и читать данные из MySQL.Конечно, вы также можете читать из других мест, чтобы реализовать свой собственный источник данных. Может быть, обычная работа будет сложнее, чем эта, и всем нужно быть гибкими!

Подписывайтесь на меня

Пожалуйста, обязательно указывайте оригинальный адрес для перепечатки:Woohoo 54 дня жизни Talent/2018/10/30/…Публичный аккаунт WeChat:zhisheng

Кроме того, я сам разобрался с некоторыми учебными материалами Flink, все они размещены в публичном аккаунте WeChat (zhisheng), вы можете ответить на ключевые слова:Flinkможно получить безоговорочно. Вы также можете добавить мой WeChat Вы можете добавить мой WeChat:yuanblog_tzs, обсуждать технологии!

Для получения дополнительной личной информации, пожалуйста, присоединяйтесь к Планете Знаний!

Репозиторий кода Github

GitHub.com/только 17/…

В дальнейшем весь код этого проекта будет размещен в этом репозитории, включая некоторые демки и блоги для самостоятельного изучения флинка.

блог

1,Изучение Flink от 0 до 1 — Введение в Apache Flink

2,Изучите Flink от 0 до 1. Начало работы с созданием среды Flink 1.6.0 на Mac, создание и запуск простых программ

3.Flink учится от 0 до 1 — подробное объяснение файла конфигурации Flink

4.Обучение с помощью 0-1 - Источник данных Введение

5.Flink учится от 0 до 1 — как настроить источник данных?

6.Flink Learning from 0 to 1 — Введение в Data Sink

7.Flink учится от 0 до 1 — как настроить приемник данных?

8,Flink учится от 0 до 1 — Преобразование данных Flink

9,Flink Learning from 0 to 1 — Введение в Stream Windows в Flink

10.Flink учится от 0 до 1 — подробное объяснение нескольких раз во Flink

11.Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в ElasticSearch.

12.Flink учится от 0 до 1 — как работает проект Flink?

13.Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в Kafka

14.Flink учится от 0 до 1 — конфигурация высокой доступности Flink JobManager

15.Flink узнает от 0 до 1 - введение в параллелизм и слот и слот

16.Flink учится от 0 до 1 — Flink читает данные Kafka и записывает их в MySQL пакетами.

17.Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в RabbitMQ

18.Flink узнает от 0 до 1 - Flink читает данные кафка и пишет на HBase

19.Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в HDFS

20.Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в Redis

двадцать один,Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в Cassandra

двадцать два,THINK обучение от 0 до 1 - Flink прочитайте запись данных в кафка

двадцать три,Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в InfluxDB.

24,Flink учится от 0 до 1 — Flink читает данные Kafka и записывает в RocketMQ

25.Flink учится от 0 до 1 — куда идут ваши загруженные банки?

26.Flink Learning from 0-1 - Куда ведет ваш журнал заданий Flink?

27.Платформа для вычислений в реальном времени Blink с открытым исходным кодом от Alibaba действительно ароматна

28.Flink учится от 0 до 1 — как управлять конфигурацией во Flink?

29.Flink учится от 0 до 1 — не может ли Flink непрерывно разделяться?

30Исследование Flink от 0 до 1 - поделитесь четырьмя Flink за границей и более 20 бумажными документами.

31.Архитектура Flink, принцип и тест развертывания

32.Почему за потоковой обработкой будущее?

33.Краеугольный камень центра обработки данных OPPO: создание хранилища данных в реальном времени на базе Flink SQL.

34.Сравнение производительности между Flink и Storm, фреймворком для потоковых вычислений

35.Введение в управление состоянием Flink и механизмы отказоустойчивости

36.Apache Flink объединяет Kafka для создания сквозной обработки Exactly-Once.

37.360 Глубинная практика: протокол с флиндкой и штормом

38.Как создать интеллектуальную платформу обнаружения аномалий в реальном времени на основе Flink+TensorFlow? Просто прочитайте это

39.Предварительная интерпретация основных функций Apache Flink 1.9

40.Самые полные ресурсы Flink во всей сети (видео, блог, PPT, запись, реальный бой, анализ исходного кода, вопросы и ответы и т. д. постоянно обновляются)

41.Душа Флинка задает двести вопросов, кто выдержит такое?

42.Flink учится от 0 до 1 - как использовать боковой выход для шунтирования?

43.Вашей компании необходимо внедрить вычислительную машину реального времени?

44.Эта статья даст вам полное представление о Flink, вычислительной машине реального времени для больших данных.

Анализ исходного кода

1,Анализ исходного кода Flink - компиляция и работа с исходным кодом

2,Анализ исходного кода Flink — краткий обзор структуры проекта

3.Анализ исходного кода Flink — процесс запуска локального режима

4.Анализ исходного кода Flink — процесс запуска в автономном режиме сеанса

5.Анализ исходного кода Flink — запуск диспетчера заданий для углубленного анализа процесса запуска автономного сеансового кластера

6.Анализ исходного кода Flink — запуск диспетчера задач для углубленного анализа процесса запуска автономного сеансового кластера

7.Анализ исходного кода Flink - проанализировать процесс выполнения программы Batch WordCount

8,Анализ исходного кода Flink - анализ процесса выполнения программы Streaming WordCount

9,Анализ исходного кода Flink — как получить JobGraph?

10.Анализ исходного кода Flink — как получить StreamGraph?

11.Анализ исходного кода Flink — что делает Flink JobManager?

12.Анализ исходного кода Flink — что делает Flink TaskManager?

13.Анализ исходного кода Flink — процесс обработки SubmitJob JobManager

14.Анализ исходного кода Flink — процесс обработки SubmitJob TaskManager

15.Разбор исходного кода Flink — глубинный анализ Механизм Flink Checkpoint

16.Анализ исходного кода Flink — глубокий анализ механизма сериализации Flink

17.Анализ исходного кода Flink — углубленный анализ того, как Flink управляет памятью?

18.Анализ исходного кода Flink Metrics — Flink-metrics-core

19.Анализ исходного кода Flink Metrics — Flink-metrics-datadog

20.Анализ исходного кода Flink Metrics — Flink-metrics-dropwizard

двадцать один,Анализ исходного кода Flink Metrics - Flink-metrics-graphite

двадцать два,Исходный код исходного кода Flink - Flink-Metrics-IncoluxDB

двадцать три,Анализ исходного кода Flink Metrics — Flink-metrics-jmx

24,Анализ исходного кода Flink Metrics — Flink-metrics-slf4j

25.Анализ исходного кода Flink Metrics — Flink-metrics-statsd

26.Разрешение источника Flink Metrics — Flink-metrics-prometheus

26.Анализ исходного кода Flink Annotations

27.Анализ исходного кода Flink — как получить ExecutionGraph?

28.Блокбастер по работе с большими данными — фреймворк для вычислений в реальном времени Flink

29.Flink CheckPoint - легкий распределенный снимок

30.Анализ исходного кода клиентов FlinkПервоисточник:блог Чжишэна, добро пожаловать, чтобы обратить внимание на мой общедоступный номер: zhisheng