Ган Луо, технический директор коммерческого рекламного центра Shell Search, будет в "Боевая платформа с низким кодом на основе Kafka Connect«Буклет поможет вам перейти от 0 к 1, чтобы создать доступную платформу для двунаправленной потоковой передачи гетерогенных данных промышленного уровня.
об авторе
Ганро,Технический директор коммерческой рекламы снарядов ищет дом, в основном отвечающая за исследования и разработки и управление коммерческой рекламой на Тайване. Возглавлял унификацию и реконструкцию механизма хранения данных рекламных материалов,从0到1搭建日均处理10亿+数据量级的、支持多种异构数据双向流式处理平台
. В настоящее время общая доступность основной службы распределения рекламного трафика на стороне C составляет 5 девяток, и она неуклонно переносит пик трафика Shell C-end со средним ежедневным распределением рекламного трафика более 1 миллиарда.
Он последовательно работал в Mogujie, Tencent и Huobi Group и хорошо разбирается в основных исследованиях и разработках и инфраструктуре в области транзакций электронной коммерции и маркетинга, социального контента и высокочастотной торговли цифровой валютой.
🚀 Проблемы управления данными в миллиардном масштабе
В эпоху больших данных нам часто нужно точно отфильтровать нужные данные из массивных данных. Вначале данные, которые нам нужно обработать, составляют порядка миллионов или даже меньше. В этом случае основные решения для офлайн-вычислений и обработки данных в режиме реального времени очень стабильны с точки зрения производительности.
Однако с быстрым развитием времени все чаще приходится обрабатывать миллиарды объемов данных.Однако технологии синхронизации и очистки данных большинства компаний все еще относительно традиционны, и существует ряд проблем, таких как высокая задержка, низкая пропускная способность и низкая производительность.. В результате общая техническая архитектура сервиса будет сталкиваться сПроблемы с удобством использования и стабильностью.
Например, бизнес-сторона обратилась к вам с просьбой: пожалуйста, синхронизируйте миллиарды автономных данных, хранящихся в MySQL и MongoDB, с Kafka для использования в режиме реального времени. Затем вам может понадобиться разработать службу, которая отслеживает MySQL Binlog / MongoDB Oplog для переноса массивных данных из MySQL / MongoDB в кластер Kafka, обеспечивая при этом согласованность данных.
Что, если бизнес-стороне необходимо синхронизировать автономные данные в Hive с Kafka для использования в режиме реального времени? На этом этапе вам может понадобиться использовать MapReduce или Spark для автономной потоковой передачи пакетов данных.Если это массивные данные, трудно гарантировать согласованность данных и отказоустойчивость.
Мы сгруппировали возможные проблемы в 4 сценария:
- Существуют огромные требования к синхронизации и очистке данных, ноНе знаете MapReduce/Spark/Flink или не хотите полагаться на тяжелое промежуточное ПО;
- Существуют различные требования к синхронизации и очистке данных для разнородных источников данных, ноНе хотите иметь объем разработки каждый раз, отсутствие масштабируемости и возможности повторного использования;
- Существуют различные требования к синхронизации и очистке данных для разнородных источников данных, ноОтсутствие аномальной отказоустойчивой системы управления и контроля состояния выполнения задач;
- Существуют огромные требования к синхронизации и очистке данных, ноНе хотите вкладывать много машинных вычислительных ресурсов или не хотите выполнять сложные работы по эксплуатации и обслуживанию кластера промежуточного программного обеспечения..
Столкнувшись с вышеуказанными проблемами, Kafka Connect должен быть вашим лучшим выбором.
🔥 Преимущества Kafka Connect
Проще говоря, Kafka Connect является частью Apache Kafka, которая в основном обеспечивает потоковую передачу интегрированных каналов данных для других внешних систем хранения данных и Kafka.
Kafka Connect естественно поддерживает передачу автономных данных (пакетных данных) в потоки реального времени (Kafka) или обратные потоки в пакеты под разнородными источниками данных (MySQL, MongoDB, Elasticsearch, Kafka), позволяя разработчикам выполнять структурированную очистку реальных данные в конвейере данных с высокой степенью гибкости.
В 2020 году команда под руководством автора Ган Луо создала сервис двусторонней потоковой синхронизации разнородных данных на основе Kafka Connect.Он запускает более 100 кластеров соединителей источника и приемника, охватывающих несколько разнородных механизмов хранения, таких как MySQL, MongoDB, Hive, Elasticsearch, Kafka, и обрабатывает в среднем 1 миллиард + миллиард данных в автономном режиме и в режиме реального времени ежедневно..
Кроме того, они также настроили разработку кластерной консоли Kafka Connect, которая не только отвечает ежедневному управлению кластером Connectors, но и реализует полномасштабное самообслуживание задач синхронизации данных из разнородного доступа к данным, выбора правил очистки данных, и выбор источников данных для записи.доступ,Он действительно реализует нулевую разработку для создания нового кластера соединителей для синхронизации разнородных потоков данных..
В процессе они разработали множество лучших практик, и автор Ган Луо очень хочет поделиться ими с вами в буклете.
🏆 Учебный буклет, какие улучшения вы можете получить?
Буклет будет разделен на 7 модулей,От выбора различных текущих основных платформ синхронизации данных до экосистемы с открытым исходным кодом, основанной на Kafka Connect, до создания новой архитектуры двунаправленной синхронизации потока данных и пользовательской разработки компонентов соединителя синхронизации двунаправленного потока гетерогенных данных..
В итоге вы не только получите一个工业级可用、可伸缩扩展、易接入维护的支撑日均处理数十亿级海量异构数据的双向流式处理平台
, но и перед лицом массивной синхронизации данных и работы по очистке, проще!
Более подробно вы получите:
- Общая схема технологии потоковой обработки и проектирование архитектуры массивных разнородных данных
- Доступная, масштабируемая и простая в обслуживании двунаправленная платформа для потоковой передачи разнородных данных промышленного уровня.
- Основополагающий принцип и производственная практика Kafka Connect, механизма CDC, маршрутизации и конвейера данных и других технологических стеков.
- Анализ архитектуры Master Source и Sink Connectors и расширенные возможности разработки
- Овладейте концепцией архитектурного проектирования Transforms и настройте разработку легких компонентов ETL.
- Освоить построение единой системы сбора и мониторинга показателей на базе JMX, Prometheus Exporter и Grafana
Наконец, если вы хотите精通或提升离线和实时数据同步和处理能力
, хотите освоить основные функции Kafka, базовый механизм хранения MySQL и MongoDB, концепцию и применимые сценарии архитектуры CDC, высокоуровневые операции, такие как сегментирование/маршрутизация/конвейер Elasticsearch, общие компоненты ETL данных и фреймворки и другие продвинутые навыки,那这本小册你一定不要错过!
上新优惠5折,限时14.95元
, нажмите на ссылку, чтобы купить:sourl.cn/cHk2xT