предисловие
Вы можете подписаться на мой официальный аккаунт, нажав и удерживая QR-код, но он будет синхронизирован после обновления Nuggets.
В каталоге с правой стороны ПК действительно легко найти что-то.Каждый раз, когда я пишу, я уделяю большое внимание тому, чтобы макет не был аккуратным.Это действительно удобно использовать для прямого перехода к соответствующему контенту, так что я подумал Каталог, если вы напишете новый в будущем, вы также напишете заголовок в этой статье.
Согласно разделению различных технических рамок. Если вы уже написали его, напишите, а если еще не написали, оставьте поле пустым.
1. Распределенное хранилище HDFS
① Основные понятия HDFS
Краткое содержание: концепция и копия блока, стратегия хранения в стойке, три основных компонента: NameNode, DataNode, SecondaryNamenode, метаданные metaData, механизм пульса и механизм балансировки нагрузки.
② Процесс чтения и записи HDFS и некоторые важные стратегии
Аннотация:Процесс чтения и записи HDFS, высокая доступность Hadoop HA, федерация, HAR и Sequence File при хранении небольших файлов
③ Основные сведения и эволюция архитектуры HDFS
Краткое содержание: некоторые резюме и дополнения к предыдущим двум статьям
2. Распределенные вычисления MapReduce
① Введение в MapReduce
Краткое изложение содержания: код преобразователя и редьюсера, перемешивание, вторая строка, оценка и устранение неравномерности данных.
3. Пряжа для планирования ресурсов
① Погрузитесь в бездну больших данных (4) --- Платформа планирования ресурсов Yarn
Резюме: Это все теоретические вещи. Сценарии применения пряжи, основные компоненты, процесс планирования приложений, типичные применения пряжи
4. Распределенная координация Zookeeper
Когда написано zookeeper, это ориентировочно в соответствии сJava-подпрограммыНапишу, никакого отношения к работе с большими данными не имеет, и может соответственно дополняться позже
① Основная концепция Zookeeper
Краткое содержание: включая введение и характеристики zookeeper, механизм сеанса, состав данных и тип узла znode, а также механизм мониторинга zk.
② Zookeeper реализует распределенные блокировки
Краткое изложение содержания: характеристики блокировок, использование zkClient, использование неповторяющихся имен узлов + механизм наблюдения для достижения распределенных блокировок, а также использование числа + минимального числа для получения блокировки + принцип наблюдения для достижения распределенных блокировок.
③ Построение кластера Zookeeper и выборы лидера
Краткое содержание: построение кластера zookeeper в виде псевдокластера, подключение и мониторинг кластера, объяснение алгоритма paxos, механизм выбора лидера zookeeper.
④ Распределенная очередь Zookeeper
Краткое содержание: введение в протокол ZAB, синхронизация данных, отброшенные транзакции, восстановление после сбоя лидера, логика реализации и реализация кода распределенной очереди zookeeper.
⑤ Приложение центра конфигурации Zookeeper
Краткое содержание: Введение в Центр конфигурации, Структура данных, Реализация кода
⑥ Выборы главного смотрителя зоопарка и обзор официального сайта
Краткое содержание: реализация основных выборов и зоопарка, процесс просмотра самого официального сайта.
5. Исходный код Hadoop и оптимизация
Первые две основы RPC
High Concurrency from Scratch (7) --- Введение в RPC, протокол и инфраструктуру
Резюме содержания: кратко рассказал, что такое RPC, три процесса, зачем он нам нужен, его характеристики и применимые сценарии, определение процесса и протокола RPC, а также некоторые сведения о его структуре.
Простая реализация high concurrent (восемь) --- RPC framework с нуля
Краткое содержание: анализ процессов и задач RPC и реализация кода с оптимизацией процессов,Рекомендуется сразу перейти к общей карте, чтобы просмотреть часть оптимизации.
① Исходный код Hadoop --- Анализ процесса запуска NameNode
Резюме содержания: Как следует из названия, анализ процесса запуска NameNode, идеяУбедитесь, что NameNode является сервером RPC.
② Исходный код Hadoop --- Процесс инициализации и регистрации DataNode
Резюме содержания: Как следует из названия, анализ процесса запуска DataNode, идея состоит в том, чтобы проверить, является ли он клиентом RPC, и принципом решения высокой доступности Hadoop HA.
③ Исходный код Hadoop --- Управление метаданными Namenode и механизм двойной буферизации часто задают в интервью.
Краткое содержание: как заголовок
6.Hive
7.Hbase
① MySQL синхронизирует данные с HBase
Краткое содержание: как название, так и некоторые детали
8.Flume
9.Sqoop
10.azkaban
11.impala
12.Spark
① Знакомство со Spark с нуля
Краткое содержание: четыре основные функции Spark, инфраструктура, установка и некоторый контент для отправки задач.
② Эта статья знакомит вас с основными понятиями Spark RDD.
Краткое содержание: описание пяти функций RDD, описание оператора, зависимость RDD, кровное родство, механизм кэширования, механизм контрольных точек, генерация DAG и разделение стадий.
③ Дополнение к некоторым небольшим вопросам об основах Spark
Резюме содержания: добавьте некоторые знания, не упомянутые в первых двух статьях, такие как широковещательные переменные, планирование задач и проблемы с сериализацией.
④ В этой статье вы разъясните все аспекты настройки Spark Core.
Краткое содержание: обратитесь к предыдущей статье Meituan Spark, в которой упоминаются десять принципов разработки Spark и рабочий процесс Spark, а также настройка модели памяти и обработка перекосов данных.
⑤ Механизм отказоустойчивости Spark Streaming
Краткое содержание: Как следует из названия, отказоустойчивость Executor и Driver
⑥ Завершите свою первую программу Spark Streaming.
Краткое содержание: Как следует из названия, описание запущенного процесса и описание BlockInterval и BatchInterval, понимание setMaster дополнено
13. Основы Кафки
① Народный язык знакомит вас с Кафкой
Краткое содержание: введение в некоторые основные роли в Kafka, тема, раздел, производитель, потребитель, сообщение, реплика, группа потребителей, сотрудничество между контроллером, kafka и zookeeper, последовательная запись и нулевая копия Kafka, механизм хранения сегментов журнала иТрехслойная сетевая модель Кафки
② Практика развертывания, эксплуатации и обслуживания кластера Kafka
Краткое содержание: эта статья не о концепциях, а о некоторых параметрах кластера, важных параметрах для построения кластера, простых кластерных операциях и некоторых клиентах.
③ Принцип производителя Кафки и описание важных параметров
Аннотация:Принцип производителя (ProducerRecord, Partitioner, Buffer и Sender Thread), код производителя и некоторые параметры настройки
④ Анализ случая производителя и принципа потребления Кафки
Резюме содержания: небольшая реализация корпуса производителя иПотребительский принцип (зачет, координатор), потребительский код и основные параметры
⑤ Сводка запущенного процесса Kafka и подготовка исходного кода
Аннотация:Принцип обновления LEO&HW, общий процесс запуска кафки, среда чтения исходного кода
14. Исходный код Кафки
① Глава о разогреве исходного кода Kafka --- Java NIO
Краткое содержание: разница между традиционным вводом-выводом и NIO, введение NIO (буфер, канал, селектор, конвейер) и демонстрация кода блокирующего и неблокирующего сетевого взаимодействия, в основном для подготовки исходного кода Kafka.
② Исходный код Kafka --- Процесс инициализации производителя и получения метаданных, который вы должны иметь возможность получить
Краткое содержание: проанализируйте процесс инициализации и процесс отправки KafkaProducer на примере Producer.java, включенного в исходный код, а также управление метаданными иwaitOnMetadataрабочая логика
③ Исходный код Kafka --- вероятно, самая подробная интерпретация RecordAccumulator, которую вы когда-либо видели.
Резюме содержания: как заголовок, интерпретация исходного кода буфера RecordAccumulator
15.Flink
① Базовое введение в Flink
Краткое содержание: четыре основные функции Flink и описания случаев, отправка установки в разных режимах.
② Операции оператора Flink
Краткое содержание: использование оболочки Flink, источники данных и примеры распространенных операторов.
③ Пройдите различные состояния Flink.
Краткое содержание: пример кода состояния Flink, отображаемый в соответствии с официальным примером.
④ Механизм контрольных точек Flink
Краткое содержание: преобразование контрольной точки предыдущей программы, описание механизма контрольной точки и способов его использования.
16.ELK
① Elk Environment --- Быстро создайте свой ElasticSearch и Kibana локально
Краткое содержание: локальная сборка ElasticSearch и Kibana (предоставляются установочные пакеты) и некоторые простые операции ES.
finally
Несмотря на то, что фронт все еще полон шипов, у нас нет причин сдаваться...
Этот флаг является тестом как для вас, так и для меня.В первой HDFS я сказал, что хотя это похоже на учебную заметку, у нее определенно есть начало и конец, и я буду использовать самый ясный язык для описания точек знаний, я надеюсь, что каждый может получить что-то. Имея этот каталог в качестве доказательства, я верю, что смогу сделать то, что говорю.
Теперь я управляю собственной планетой знаний, она бесплатная, но это не значит, что не будет никаких достижений. Студенты, интересующиеся направлением больших данных, могут обратить внимание на