Содержание: мои заметки по изучению больших данных

Большие данные

предисловие

Вы можете подписаться на мой официальный аккаунт, нажав и удерживая QR-код, но он будет синхронизирован после обновления Nuggets.

В каталоге с правой стороны ПК действительно легко найти что-то.Каждый раз, когда я пишу, я уделяю большое внимание тому, чтобы макет не был аккуратным.Это действительно удобно использовать для прямого перехода к соответствующему контенту, так что я подумал Каталог, если вы напишете новый в будущем, вы также напишете заголовок в этой статье.

Согласно разделению различных технических рамок. Если вы уже написали его, напишите, а если еще не написали, оставьте поле пустым.

1. Распределенное хранилище HDFS

① Основные понятия HDFS

Краткое содержание: концепция и копия блока, стратегия хранения в стойке, три основных компонента: NameNode, DataNode, SecondaryNamenode, метаданные metaData, механизм пульса и механизм балансировки нагрузки.

② Процесс чтения и записи HDFS и некоторые важные стратегии

Аннотация:Процесс чтения и записи HDFS, высокая доступность Hadoop HA, федерация, HAR и Sequence File при хранении небольших файлов

③ Основные сведения и эволюция архитектуры HDFS

Краткое содержание: некоторые резюме и дополнения к предыдущим двум статьям

2. Распределенные вычисления MapReduce

① Введение в MapReduce

Краткое изложение содержания: код преобразователя и редьюсера, перемешивание, вторая строка, оценка и устранение неравномерности данных.

3. Пряжа для планирования ресурсов

① Погрузитесь в бездну больших данных (4) --- Платформа планирования ресурсов Yarn

Резюме: Это все теоретические вещи. Сценарии применения пряжи, основные компоненты, процесс планирования приложений, типичные применения пряжи

4. Распределенная координация Zookeeper

Когда написано zookeeper, это ориентировочно в соответствии сJava-подпрограммыНапишу, никакого отношения к работе с большими данными не имеет, и может соответственно дополняться позже

① Основная концепция Zookeeper

Краткое содержание: включая введение и характеристики zookeeper, механизм сеанса, состав данных и тип узла znode, а также механизм мониторинга zk.

② Zookeeper реализует распределенные блокировки

Краткое изложение содержания: характеристики блокировок, использование zkClient, использование неповторяющихся имен узлов + механизм наблюдения для достижения распределенных блокировок, а также использование числа + минимального числа для получения блокировки + принцип наблюдения для достижения распределенных блокировок.

③ Построение кластера Zookeeper и выборы лидера

Краткое содержание: построение кластера zookeeper в виде псевдокластера, подключение и мониторинг кластера, объяснение алгоритма paxos, механизм выбора лидера zookeeper.

④ Распределенная очередь Zookeeper

Краткое содержание: введение в протокол ZAB, синхронизация данных, отброшенные транзакции, восстановление после сбоя лидера, логика реализации и реализация кода распределенной очереди zookeeper.

⑤ Приложение центра конфигурации Zookeeper

Краткое содержание: Введение в Центр конфигурации, Структура данных, Реализация кода

⑥ Выборы главного смотрителя зоопарка и обзор официального сайта

Краткое содержание: реализация основных выборов и зоопарка, процесс просмотра самого официального сайта.

5. Исходный код Hadoop и оптимизация

Первые две основы RPC

High Concurrency from Scratch (7) --- Введение в RPC, протокол и инфраструктуру

Резюме содержания: кратко рассказал, что такое RPC, три процесса, зачем он нам нужен, его характеристики и применимые сценарии, определение процесса и протокола RPC, а также некоторые сведения о его структуре.

Простая реализация high concurrent (восемь) --- RPC framework с нуля

Краткое содержание: анализ процессов и задач RPC и реализация кода с оптимизацией процессов,Рекомендуется сразу перейти к общей карте, чтобы просмотреть часть оптимизации.

① Исходный код Hadoop --- Анализ процесса запуска NameNode

Резюме содержания: Как следует из названия, анализ процесса запуска NameNode, идеяУбедитесь, что NameNode является сервером RPC.

② Исходный код Hadoop --- Процесс инициализации и регистрации DataNode

Резюме содержания: Как следует из названия, анализ процесса запуска DataNode, идея состоит в том, чтобы проверить, является ли он клиентом RPC, и принципом решения высокой доступности Hadoop HA.

③ Исходный код Hadoop --- Управление метаданными Namenode и механизм двойной буферизации часто задают в интервью.

Краткое содержание: как заголовок

6.Hive

7.Hbase

① MySQL синхронизирует данные с HBase

Краткое содержание: как название, так и некоторые детали

8.Flume

9.Sqoop

10.azkaban

11.impala

12.Spark

① Знакомство со Spark с нуля

Краткое содержание: четыре основные функции Spark, инфраструктура, установка и некоторый контент для отправки задач.

② Эта статья знакомит вас с основными понятиями Spark RDD.

Краткое содержание: описание пяти функций RDD, описание оператора, зависимость RDD, кровное родство, механизм кэширования, механизм контрольных точек, генерация DAG и разделение стадий.

③ Дополнение к некоторым небольшим вопросам об основах Spark

Резюме содержания: добавьте некоторые знания, не упомянутые в первых двух статьях, такие как широковещательные переменные, планирование задач и проблемы с сериализацией.

④ В этой статье вы разъясните все аспекты настройки Spark Core.

Краткое содержание: обратитесь к предыдущей статье Meituan Spark, в которой упоминаются десять принципов разработки Spark и рабочий процесс Spark, а также настройка модели памяти и обработка перекосов данных.

⑤ Механизм отказоустойчивости Spark Streaming

Краткое содержание: Как следует из названия, отказоустойчивость Executor и Driver

⑥ Завершите свою первую программу Spark Streaming.

Краткое содержание: Как следует из названия, описание запущенного процесса и описание BlockInterval и BatchInterval, понимание setMaster дополнено

13. Основы Кафки

① Народный язык знакомит вас с Кафкой

Краткое содержание: введение в некоторые основные роли в Kafka, тема, раздел, производитель, потребитель, сообщение, реплика, группа потребителей, сотрудничество между контроллером, kafka и zookeeper, последовательная запись и нулевая копия Kafka, механизм хранения сегментов журнала иТрехслойная сетевая модель Кафки

② Практика развертывания, эксплуатации и обслуживания кластера Kafka

Краткое содержание: эта статья не о концепциях, а о некоторых параметрах кластера, важных параметрах для построения кластера, простых кластерных операциях и некоторых клиентах.

③ Принцип производителя Кафки и описание важных параметров

Аннотация:Принцип производителя (ProducerRecord, Partitioner, Buffer и Sender Thread), код производителя и некоторые параметры настройки

④ Анализ случая производителя и принципа потребления Кафки

Резюме содержания: небольшая реализация корпуса производителя иПотребительский принцип (зачет, координатор), потребительский код и основные параметры

⑤ Сводка запущенного процесса Kafka и подготовка исходного кода

Аннотация:Принцип обновления LEO&HW, общий процесс запуска кафки, среда чтения исходного кода

14. Исходный код Кафки

① Глава о разогреве исходного кода Kafka --- Java NIO

Краткое содержание: разница между традиционным вводом-выводом и NIO, введение NIO (буфер, канал, селектор, конвейер) и демонстрация кода блокирующего и неблокирующего сетевого взаимодействия, в основном для подготовки исходного кода Kafka.

② Исходный код Kafka --- Процесс инициализации производителя и получения метаданных, который вы должны иметь возможность получить

Краткое содержание: проанализируйте процесс инициализации и процесс отправки KafkaProducer на примере Producer.java, включенного в исходный код, а также управление метаданными иwaitOnMetadataрабочая логика

③ Исходный код Kafka --- вероятно, самая подробная интерпретация RecordAccumulator, которую вы когда-либо видели.

Резюме содержания: как заголовок, интерпретация исходного кода буфера RecordAccumulator

15.Flink

① Базовое введение в Flink

Краткое содержание: четыре основные функции Flink и описания случаев, отправка установки в разных режимах.

② Операции оператора Flink

Краткое содержание: использование оболочки Flink, источники данных и примеры распространенных операторов.

③ Пройдите различные состояния Flink.

Краткое содержание: пример кода состояния Flink, отображаемый в соответствии с официальным примером.

④ Механизм контрольных точек Flink

Краткое содержание: преобразование контрольной точки предыдущей программы, описание механизма контрольной точки и способов его использования.

16.ELK

① Elk Environment --- Быстро создайте свой ElasticSearch и Kibana локально

Краткое содержание: локальная сборка ElasticSearch и Kibana (предоставляются установочные пакеты) и некоторые простые операции ES.

finally

Несмотря на то, что фронт все еще полон шипов, у нас нет причин сдаваться...

Этот флаг является тестом как для вас, так и для меня.В первой HDFS я сказал, что хотя это похоже на учебную заметку, у нее определенно есть начало и конец, и я буду использовать самый ясный язык для описания точек знаний, я надеюсь, что каждый может получить что-то. Имея этот каталог в качестве доказательства, я верю, что смогу сделать то, что говорю.

Теперь я управляю собственной планетой знаний, она бесплатная, но это не значит, что не будет никаких достижений. Студенты, интересующиеся направлением больших данных, могут обратить внимание на