Данные стали основным активом многих компаний, и в процессе разработки данных будут возникать различные вопросы качества, эффективности, безопасности и другие вопросы, а управление данными заключается в постоянном устранении этих возникших проблем и обеспечении точности, полноты и полноты данных. , Создайте ценность для бизнеса, строго управляя разрешениями на доступ к данным, чтобы избежать бизнес-рисков, вызванных утечкой данных. Управление данными — очень важная основная возможность многих компаний в эпоху цифровых технологий.Эта статья знакомит с практикой управления данными на платформе Meituan Wine and Travel.
1. Предпосылки
1. Зачем нужно управление данными
С появлением мобильного Интернета офлайн-бизнес постепенно начал развиваться в онлайн-режиме, и скорость генерации данных значительно улучшилась. Все больше и больше компаний начинают осознавать важность данных и делают их основным активом для развития бизнеса. В областях, связанных с данными, тема «управления данными» была особенно актуальна в последние два года.Многие компании, особенно крупные интернет-компании, разрабатывают определенные планы и действия по управлению данными.
Зачем нужно управление данными? Потому что во всем процессе генерации, сбора, обработки, хранения, применения и уничтожения данных каждое звено может создавать различные проблемы, связанные с качеством, эффективностью или безопасностью. На ранней стадии развития компании эти проблемы с данными не оказывали большого влияния на развитие компании, и терпимость компании к проблемам была относительно высокой. Однако с развитием бизнеса требования компании к качеству и стабильности данных также возросли при использовании активов данных для создания ценности. Кроме того, когда накапливается все больше и больше данных, требования компании к уровню работы с уточненными данными также возрастают, и она постепенно обнаружит, что существует множество проблем, которыми необходимо управлять.
В то же время некоторые проблемы будут по-прежнему возникать в процессе разработки данных, и управление данными должно постоянно устранять эти проблемы, обеспечивать точность, полноту и целостность данных, создавать ценность для бизнеса и строго управлять разрешения данных, чтобы избежать утечки данных бизнес-риск. Таким образом, управление данными является очень важной основной возможностью для многих компаний в эпоху цифровых технологий.
2. Какие вопросы необходимо решить
Управление данными — это сложный проект, требующий долгосрочного внимания.Этот проект реализует полномочия, контроль и принятие решений в процессе управления активами данных путем создания системы принятия решений в отношении данных, которая отвечает потребностям предприятия и включает организацию. , процесс и управление, институциональные и технические системы. Вообще говоря, содержание управления данными в основном включает следующие части:
- Проблемы с качеством: Это самый важный вопрос.На фоне многих отделов данных компаний, приступающих к управлению данными, возникают проблемы с качеством данных, такими как своевременность, точность и стандартизация хранилищ данных, а также логическая согласованность показателей применения данных.
- вопрос стоимости: скорость распространения данных в интернет-индустрии очень высока.Стоимость крупных интернет-компаний в инфраструктуре больших данных составляет очень высокую долю, и с увеличением объема данных стоимость будет продолжать расти.
- Вопросы эффективности: В процессе разработки и управления данными могут возникать некоторые проблемы, влияющие на эффективность. Во многих случаях это делается «вслепую» путем накопления рабочей силы.
- Контрольный вопрос: Бизнес-департамент уделяет особое внимание пользовательским данным, поскольку их утечка оказывает очень большое влияние на бизнес и может даже повлиять на жизнь и смерть всего бизнеса.
- стандартный вопрос: Когда в компании много бизнес-подразделений, стандарты данных каждого бизнес-подразделения и команды разработчиков несовместимы, и в процессе подключения и интеграции данных будет много проблем.
3. Текущее состояние данных о винных путешествиях Meituan.
В 2014 году винный бизнес Meituan стал независимым бизнес-подразделением, а к 2018 году платформа винных путешествий стала одной из важных платформ онлайн-бронирования для внутреннего винного бизнеса. Скорость развития бизнеса высока, и скорость роста данных также высока. За два года, с 2017 по 2018 год, количество производственных задач ежегодно увеличивалось более чем вдвое, а объем данных ежегодно увеличивался более чем вдвое. Без управления, основанного на этой почти экспоненциальной тенденции роста данных, сложность и стоимость будущих задач по производству данных станут очень высокими. В начале 2019 года мы столкнулись со следующими пятью проблемами:
- Серьезные проблемы с качеством данных: во-первых, избыточность данных серьезная.С точки зрения темпов роста задач с данными появляется много новых онлайн-задач, меньше офлайн-задач и меньше контроля над жизненным циклом таблицы данных; во-вторых, в процессе обработки данных построение, множество данных прикладного уровня Это конструкция в стиле дымохода. Для многих индикаторов нет единой спецификации управления, и согласованность данных не может быть гарантирована. Феномен разных имен с одним и тем же именем и разных имен с одним и тем же именем часто имеет место.
- Стоимость данных растет слишком быстро: Стоимость машин для хранения больших данных и вычислительных ресурсов в некоторых направлениях бизнеса превысила 35%, если это не контролировать, стоимость больших данных будет только расти.
- Неэффективность работы с данными: Существует много использования данных и консультаций, и инженерам по разработке данных приходится тратить много времени, отвечая на различные вопросы бизнес-пользователей один на один. Однако этот метод не упрощает использование данных для пользователей, не может эффективно накапливать и ускорять знание данных, а также снижает эффективность работы научно-исследовательского персонала.
- Отсутствие контроля над безопасностью данных: Существует много данных, которыми можно обмениваться между бизнес-направлениями, и нет единого стандарта управления данными для каждого бизнес-направления.
- Отсутствие стандартов разработки: В первые дни, чтобы быстро реагировать на потребности бизнеса, персонал отдела исследований и разработок обычно использовал модель разработки в стиле дымохода из-за отсутствия соответствующих ограничений спецификации разработки и различий в рабочих идеях и методах инженеров данных. , в хранилище данных было много дублирующихся данных. , менее стандартизированных. Когда возникает проблема с данными, устранение проблемы также очень сложно и требует много времени.
4. Цели управления
В 2019 году группа данных Meituan Wine Travel начала активно инициировать работу по управлению данными, чтобы систематически управлять всем жизненным циклом данных, надеясь обеспечить долгосрочное улучшение данных, решить проблемы различных каналов передачи данных и поддерживать целостность данных. система данных, долговременная стабильность. Конкретные цели включают следующие аспекты:
- Установите стандартные спецификации для всей линии разработки данных, улучшите качество данных и управляйте калибрами индексов с помощью систематических средств для обеспечения согласованности данных.
- Контролируйте стоимость больших данных, избегайте влияния увеличения стоимости машин с большими данными на доходы бизнеса, разумно контролируйте жизненный цикл данных, избегайте дублирования построения данных, уменьшайте избыточность данных, а также архивируйте и очищайте холодные данные в своевременным образом.
- Управляйте безопасностью использования данных, установите полный процесс утверждения безопасности данных и спецификации использования, убедитесь, что данные используются разумно, и избегайте рисков безопасности и коммерческих потерь, вызванных утечкой пользовательских данных.
- Повысьте эффективность разработки и работы специалистов по работе с данными, сократите их затраты времени на работу с данными и улучшите автоматизацию и систематизацию операций с данными.
2. Практика управления данными
Фактически, еще в 2018 году группа данных о винных путешествиях занималась управлением данными, но в то время она только оптимизировала и стандартизировала процесс с единой точки моделирования хранилища данных, управления индикаторами и применения. После этого, основываясь на пяти упомянутых выше проблемах, мы провели систематическую работу по управлению данными. Далее будут представлены конкретные практики группы данных Meituan Wine Travel в различных направлениях управления данными.
1. Стратегия управления данными
Схема управления данными должна охватывать все звено жизненного цикла данных.Мы разделяем содержание управления данными на несколько частей: организация, стандартная спецификация, технология и показатели измерения. Путь реализации общего управления данными основан на стандартизированных спецификациях и организационных гарантиях, а реализация стратегии управления данными гарантируется общей технической системой. В то же время создайте систему измерения управления данными, наблюдайте и отслеживайте влияние управления данными в любое время и обеспечьте долгосрочное развитие управления данными в положительном направлении.
2. Стандартизация и организационное обеспечение
Мы сформулировали стандарт данных с полной связью, от сбора данных, разработки хранилища данных, управления индикаторами до управления жизненным циклом данных, чтобы установить стандарт для всей связи и совместно создали комитет по управлению данными бизнес-отдела во время стандартизации. обработать.
2.1 Стандартизация
Стандартизация данных включает в себя три аспекта: во-первых, формулирование стандарта; во-вторых, внедрение стандарта; в-третьих, организационные гарантии в процессе формулирования и внедрения стандарта, например, как сделать стандарт унифицированным в отделе технологий данных, бизнес-отделе и соответствующем отделе бизнес-анализа. .
С точки зрения стандартной формулировки, мы сформулировали набор стандартных методов данных, охватывающих всю связь от производства данных до использования, от сбора данных, разработки хранилища данных, управления индикаторами до управления жизненным циклом данных, мы установили стандартизированные спецификации НИОКР для соответствующих ссылок. , Весь жизненный цикл от появления до исчезновения был стандартизирован.
2.2 Организационная гарантия
В соответствии с текущей ситуацией с децентрализованным управлением данными в Meituan, стоимость создания полностью функциональной организации управления для надзора за выполнением работы по управлению данными слишком высока, и будет больше сопротивления с точки зрения продвижения и внедрения. Поэтому, с точки зрения организационных гарантий, мы создали комитет, создали комитет по управлению данными, объединив наиболее связанные с данными команды в бизнес-отделе и техническом отделе, а затем использовали комитет для продвижения соответствующих сторон для координации управления данными. работай.
Группа интерфейса данных бизнес-отдела является группой продуктов данных, а система технологий данных создается командой разработки данных, поэтому мы создали комитет по управлению бизнес-данными с этими двумя командами в качестве ядра, и эти две команды несут ответственность для совместного бизнес-отдела и технологии.Соответствующие группы отдела работают вместе, чтобы обеспечить работу и процесс всех аспектов управления данными. Обязанности различных команд в организации распределяются следующим образом:
Совет по управлению данными: отвечает за разработку политик, целей, процессов и стандартов управления данными, а также за когнитивное согласование всех соответствующих команд.Группа продуктов для бизнес-данных: Отвечает за стандарты данных, процесс согласования требований, унифицированное управление показателями, контроль безопасности данных, а также координацию и продвижение различных отделов бизнес-стороны.Группа разработки технических данных: Отвечает за техническую реализацию хранилища данных, продуктов данных, качества данных, безопасности данных и инструментов обработки данных, а также за координацию и продвижение различных отделов технической группы.
3. Техническая система
Сфера управления данными очень широка, и есть много команд, которым необходимо сотрудничать.Помимо обеспечения нормального выполнения действий по управлению через организации и процессы, мы также рассматриваем возможность дальнейшего повышения эффективности за счет систематизации и автоматизации технологий, чтобы системы могли заменить ручной труд. Далее мы представим решения по технической реализации одно за другим с точки зрения качества данных, стоимости данных, безопасности данных и операционной эффективности.
3.1 Качество данных
Качество данных является наиболее важным фактором, влияющим на ценность данных.Высококачественные данные обеспечивают точный анализ данных, а неправильные данные ведут бизнес в неправильном направлении. Качество данных охватывает широкий диапазон, и проблемы с качеством данных могут возникать в каждом звене канала передачи данных.Основные проблемы качества винного туристического бизнеса на этом этапе включают:
- Хранилище данных плохо стандартизировано, структура хранилища данных не имеет унифицированных обязательных нормативных ограничений выполнения, а исторические избыточные данные хранилища данных являются серьезными.
- Данные прикладного уровня представляют собой конструкцию «дымохода», индикаторы создаются в нескольких задачах, и согласованность данных не может быть гарантирована.
- Использование данных нижестоящими приложениями не может контролироваться, точность данных низкая, и стабильность интерфейса не может быть гарантирована.
- У бизнес-стороны нет единого определения логики индикаторов для нескольких продуктов данных, и данные в каждом продукте не могут быть напрямую сопоставлены.
План управления качеством данных группы данных охватывает все аспекты жизненного цикла данных. Ниже представлена общая техническая архитектура.
- Моделирование спецификаций унифицированного хранилища данных (одна модель): систематически гарантировать стандартизацию хранилищ данных посредством моделирования спецификаций унифицированного хранилища данных, стандартизировать спецификации хранилища бизнес-данных, а также своевременно отслеживать и удалять повторяющиеся и просроченные данные.
- Единое управление логикой индикатора (одна логика): благодаря унифицированному определению индикаторов и их использованию в бизнесе, а также систематическому управлению логикой индикаторов логика индикаторов данных прикладного уровня данных получается из системы управления индикаторами, чтобы гарантировать согласованность логики индикаторов во всех продуктах.
- Одна услуга: Создавая унифицированный уровень интерфейса службы данных, разделяя логику данных и службы интерфейса, когда логика данных изменяется, она не влияет на точность данных интерфейса и в то же время отслеживает вызов интерфейса, чтобы понять использование данные.
- Единый пользовательский портал продуктов (один портал): интегрируйте порталы продуктов данных по пользователям, чтобы логика данных и методы использования в одном и том же сценарии были одинаковыми, а пользователей не смущали несоответствия данных.
3.1.1 Моделирование спецификаций унифицированного хранилища данных (одна модель)
На ранней стадии развития бизнеса группа данных сосредоточилась на быстром создании хранилищ данных для поддержки бизнеса, а спецификации моделирования хранилищ данных игнорировались. С развитием бизнеса данные в хранилище данных резко увеличились, продукты данных и последующие приложения быстро увеличились, а также увеличилось количество инженеров данных и пользователей данных, и проблемы хранилища данных становятся все более и более видный. Хранилище бизнес-данных в основном выявило три проблемы с момента первоначальной разработки до настоящего времени:
- Стандартизация данных недостаточна, спецификации хранилища данных в разное время различны, а реализация и проверка спецификаций хранилища данных требует большего количества людей.
- Существует много несоответствий данных, один и тот же индикатор создается в нескольких ETL, а синхронизация обновления данных происходит несвоевременно.
- Избыточность исторических данных является серьезной, и существует множество методов хранения данных.Бизнес-сторона не знает, какие данные использовать при запросе.
Команда данных в основном решает вышеуказанные проблемы с помощью стандартизированной формулировки хранилищ данных, иерархической структуры хранилищ данных и стандартизированной системы хранилищ данных Ниже приведены наши конкретные решения.
Сформулировать стандарты — спецификации хранилища данных
Самая основная предпосылка стандартизации хранилищ данных состоит в том, чтобы сформулировать ряд стандартизированных норм и подтолкнуть студентов в группе к их выполнению. Применимость, полнота и применимость стандартизации напрямую влияют на эффект внедрения стандарта. Спецификация хранилища данных в основном формулирует стандартизацию данных с трех аспектов:
- Спецификация моделирования хранилища данных, самая базовая спецификация построения хранилища данных, включая такие измерения, как уровни, имена, кодовое значение, определение индикатора и зависимости уровней.
- В соответствии со спецификацией управления основными данными существует только одна копия данных для каждого субъекта в хранилище данных, и команда создает и повторно использует ее вместе, и ее нельзя разрабатывать повторно.
- Спецификация использования данных.При запросе данных сначала запрашивайте уровень темы и больше не предоставляйте записи доступа запроса для уровня сведений и уровня ODS.
Гарантия инструмента-Data Warehouse Стандартизированная система разработки-Dataman
В процессе нормализации данных мы обнаружили, что у всех в команде непоследовательное понимание спецификации, что может привести к противоречивой спецификации данных. одобрение требует много рабочей силы. В рамках такого процесса стандартизацию данных нельзя контролировать из источника, поэтому необходимо создать инструмент стандартизации данных, чтобы обеспечить согласованность стандарта в системе. Инструмент нормализации уровня данных, используемый группой данных, Dataman, в основном включает три функциональных модуля: стандартизированная спецификация, разработка на основе конфигурации и проверка на основе правил.
- Стандартизированные спецификации: Сформулировать стандартную спецификацию хранилища бизнес-данных и настроить ее в системе, включая наслоение структуры, управление полями, управление стволом, управление общедоступными измерениями и значениями кода и т. д. В ходе разработки ETL она разрабатывается на основе спецификации унифицированного хранилища данных и данные реализуются через конфигурацию.Именование, стратификация и кодовое значение склада обеспечивают долгосрочную стандартизацию склада.
- Настраиваемая разработка: систематически следить за тем, чтобы инженеры соблюдали спецификации хранилища данных в процессе разработки ETL. Dataman может создавать шаблоны задач XT настраиваемым образом. Шаблоны содержат основную информацию о модели данных. Студентам, занимающимся исследованиями и разработками, нужно только разработать логику производства данных в шаблон задания.
- Регулярная проверка: Следите за базовыми метаданными и стандартизированной информацией о конфигурации хранилища данных, регулярно проверяйте нормативное состояние хранилища данных и определяйте задачи, которые не соответствуют спецификациям хранилища данных, и таблицы данных с высоким сходством.
3.1.2 Управление унифицированной логикой индикатора (одна логика)
Первым шагом в использовании данных в бизнесе является построение системы бизнес-показателей. Реализация бизнес-целей и стратегий должна быть проанализирована с помощью показателей. Рациональность системы показателей и качество данных показателей напрямую влияют на бизнес-решения. Важность индикаторы само собой разумеется метафора. Систематически управляя индикаторами данных, мы решаем проблему согласованности калибра индикатора с самого начала, в основном по следующим трем направлениям:
- Нормализация определения метрики
- Систематическое управление показателями
- Интеллектуальные запросы данных
Нормализация определения метрики
Здесь мы в основном сосредоточены на стандартизации создания и управления показателями, чтобы гарантировать, что студенты бизнеса и персонал НИОКР имеют последовательное понимание управления системой показателей, а также на то, чтобы создание, изменение и использование показателей осуществлялось в соответствии с спецификации. Мы достигаем нормативной унификации определений показателей посредством следующих двух направлений.
- Стандартизация системы бизнес-индексов: Мы унифицировали спецификацию системы индикаторов в рамках бизнес-линии. Индикаторы разделены на атомарные индикаторы, индикаторы расчета и составные индикаторы. Используя эти три типа индикаторов для поддержки потребностей бизнеса в анализе данных, новые индикаторы бизнеса в будущее также должно быть классифицировано в соответствии с этим стандартом.
- Стандартизированное управление показателями: Мы работаем с группой бизнес-анализа, чтобы разобраться в логических стандартах и процессе ввода бизнес-показателей, а также решить проблемы качества, вызванные процессом управления показателями, путем формулирования стандартной СОП для добавления и изменения показателей, чтобы определение показателей, ввод в систему , сертификация индикаторов и использование - все это ссылки.Все они имеют строгое управление процессами и контроль, и совместно утверждаются менеджером продукта данных бизнес-стороны, администратором данных управления бизнес-данными и инженером данных для обеспечения реализации стандартов и спецификаций.
Систематическое управление показателями
Управление листами физических данных: информация, управляемая таблицей данных, в основном включает в себя основные метаданные таблицы, тип таблицы (таблица измерения или таблица фактов), степень рекомендации таблицы, информацию описания и данные выборки. Управление таблицами данных в основном предназначено для студентов, изучающих разработку данных.Поддерживая информацию таблицы данных, он обеспечивает базовую поддержку данных для управления моделью данных и индикаторами.
Управление моделью данных: Это построение модели таблицы физических данных.Через физическую модель можно запрашивать индикаторы и связанные с ними данные измерений. Модель данных может быть звездообразной моделью или широкой таблицей.Звездообразная модель поддерживает методы ассоциации нескольких таблиц данных, связанных полей и таблиц измерений, которые содержат поля и диаграммы ER модели и другую информацию.
Управление индикатором: В основном включает 2 части: бизнес-информацию и техническую информацию об индикаторах.
- деловая информация: Чтобы обеспечить точность и единообразие индикаторной информации о бизнесе, бизнес-информацию индикатора необходимо вводить после обсуждения и подтверждения менеджером продукта данных и группой бизнес-анализа.
- Техническая информация: Техническая информация в основном включает физическую модель, соответствующую индексу, и логику расчета индекса.Заполнение технической информации требует настройки инженера данных. После того, как техническая информация настроена, в системе будут созданы технические метаданные, а система управления индикаторами будет генерировать операторы запроса данных с помощью технических метаданных и предоставлять их нижестоящим приложениям.
Интеллектуальный индексный запрос
При создании индикатора в системе управления индикаторами мы систематически управляем взаимосвязью между индикатором и физической моделью хранилища данных и логикой поиска чисел, а также получаем поля, соответствующие индикатору, и измерения, которые можно связать через данные. физическую модель, чтобы преобразовать индикатор в данные.Запрос операторов SQL, выполнение созданного SQL через механизм запроса данных и интеллектуальное получение данных индикатора.
В процессе разбора запроса часто случается, что индикатор привязан к нескольким базовым таблицам данных.В это время нам нужно вручную выбрать физическую модель в качестве базовых данных для производства индикатора. Но проблема в том, что если моделей, соответствующих одному показателю, слишком много, каждый анализ нужно задавать вручную, и разработчики не уверены, какая модель имеет лучшую производительность. Кроме того, с увеличением физических моделей связанные модели большого количества старых конфигураций индикаторов не являются оптимальными решениями, и требуются ручные изменения оптимизации. Чтобы решить эту проблему, в систему управления индексами добавлен модуль интеллектуального анализа.При выборе запроса в интеллектуальном режиме система автоматически выберет оптимальную физическую модель в соответствии с объемом данных, производительностью хранилища и временем запроса модели управления индексами. .
3.1.3 Одна услуга
Хранилища данных предъявляют все больше и больше требований для предоставления данных внешнему миру.В дополнение к использованию продуктов данных и отчетов менеджментом, аналитиками и студентами, работающими с продуктами, данные также необходимо предоставлять различным бизнес-системам для использования. Обычно используемые методы предоставления данных в основном включают синхронизацию таблиц данных, предоставление SQL и разработку настраиваемых интерфейсов API для нижестоящих сервисов, но есть проблемы в следующих аспектах:
- Согласованность данных не может быть гарантирована, когда меняется логика индикаторов данных, бизнес-система не может быть своевременно скорректирована, что приводит к несогласованности данных в разных бизнес-системах.
- После того, как данные синхронизируются с бизнес-системой, мы не можем контролировать, как они используются, а также не можем отслеживать, используются ли данные другими нижестоящими пользователями.
- Эффективность разработки данных относительно низкая, а стабильность служб данных относительно низкая. Инженерам данных требуется несколько дней, чтобы разработать индивидуальный интерфейс API. Каждая служба интерфейса поддерживается отдельно, а стабильность службы относительно низкая.
С 2018 года Data BP Center и Analysis System Center сотрудничают для создания единой сервисной платформы API данных (Buffalo).Разрабатывая настраиваемую сервисную платформу интерфейса данных, можно гибко предоставлять внешние данные, а дальнейшее использование и производительность услуги передачи данных могут быть реализованы, могут контролироваться. Единая платформа обслуживания данных решает несколько ключевых задач:
- Единая логика данных: Интерфейс службы данных отделен от логики данных.Когда изменяется хранилище данных и изменяется логика индикатора данных, нисходящий поток не воспринимается.
- Улучшенный контроль над службами передачи данных: студенты, занимающиеся исследованиями и разработками, могут знать, какие нижестоящие данные используются, сколько раз они вызываются и стабильна ли служба данных.
- Эффективность разработки была значительно повышена, а стабильность службы значительно улучшена.: Благодаря единой сервисной платформе разработка конфигурации интерфейса может быть завершена в течение часа 1. В то же время стабильность интерфейса - это унифицированная эксплуатация и обслуживание, а стабильность обслуживания гарантирована.
3.1.4 Единый портал пользовательских продуктов (один портал)
Если не контролировать, продуктов данных будет создаваться все больше и больше. В 2018 году у винного туристического бизнеса было более 10 входов в продукты, связанные с данными, и пользователям было сложно быстро найти продукты данных и отчеты, которые они хотели бы проверить. Разные продукты предназначены для разных пользователей, а сценарии использования данных и методы представления также различаются.Компании не знают, где найти наиболее полные информационные продукты при использовании данных.
Кроме того, существуют также ситуации, в которых логика данных для разных пользователей различается из-за разных сценариев применения.Например, GMV, просматриваемый некоторыми студентами бизнес-школ, не включает данные о проживании в семье, но GMV, просматриваемый группой бизнес-анализа, включает проживание в семье. данные. Чтобы бизнес-стороны могли находить более полные данные на портале продуктов данных, а логика данных нескольких продуктов на этом портале продуктов была согласованной, мы разделяем портал данных на три категории в соответствии с пользователями и сценариями приложений:
- Для анализа решений используется "Dasheng" (внутренняя платформа данных Meituan) для менеджеров и групп бизнес-анализа. Все данные, необходимые бизнес-менеджерам и членам группы бизнес-анализа, можно просмотреть в продуктах данных Dasheng.
- Запрос бизнес-данных использует «Sirius» (внутренняя платформа данных Meituan), пользователи в основном занимаются продажами, а в Sirius вы можете просматривать все виды данных, необходимых для продаж.
- Запрос информации об активах данных использует "Dayu" (внутренняя платформа данных Meituan).Пользователи - это сотрудники отдела исследований и разработок и деловые стороны, которые извлекают информацию о данных.На портале данных Dayu вы можете найти информацию об активах данных, и вы можете найти то, что вы хотите более быстро данные для более полного понимания соответствующих метаданных.
3.1.5 Общая архитектура системы
Общая техническая архитектура разделена на три уровня: от унифицированного моделирования данных до унифицированной логики индикаторов, унифицированного сервиса данных и унифицированного ввода продуктов, что гарантирует качество данных в целом.Построена соответствующая структура.
3.2 Эффективность работы с данными
Основные задачи дата-инженеров в их повседневной работе включают две части: разработка данных и операции с данными. Ранее мы сообщали, что благодаря созданию инструментов и систем, связанных с разработкой данных и управлением индикаторами, эффективность разработки значительно повысилась. Операции с данными — еще один важный вид работы, основное время которого уходит на консультации по использованию данных и ответы на вопросы по данным, что составляет от 5% до 10% ежедневной работы дата-инженеров.
Основная причина, по которой инженеры данных вкладывают больше человеческих ресурсов в операции, - это асимметрия информации и слабые возможности поиска информации. Команда данных создала множество моделей данных и продуктов данных, но пользователи не знают, как быстро найти и использовать эти данные. Проблема в основном в том, отражено в следующих трех аспектах:
- трудно найти: У вас есть необходимые данные? Где я могу найти его?
- не могу это прочитать: Хранилище данных предоставляется в виде таблиц данных и отчетов, а логика и смысл данных не ясны и не понятны.
- не буду использовать: Какова логика запроса индикатора данных? Как связать несколько таблиц?
3.2.1 Идеи схемы
Команда данных создает простые в использовании продукты для поиска данных посредством систематического подхода к информации об активах данных, помогает пользователям находить данные быстрее и проще, помогает пользователям правильно использовать данные, повышает удобство использования информации о данных и сокращает объем данных. Время O&M для инженеров. Стратегия реализации состоит в том, чтобы классифицировать и ответить на 80% вопросов путем классификации вопросов пользователей и систематического использования данных и информации. Наконец, небольшое количество вопросов прозрачно передается персоналу отдела исследований и разработок для ручного ответа. Системный подход в основном делится на два уровня: данные используют интеллект и роботы, отвечающие за данные.
3.2.2 Система руководства по использованию данных
Руководство по использованию данных позиционируется как информационный документ для информации о бизнес-данных, предоставляя самую последнюю, наиболее полную и точную информацию, такую как калибр индекса, система индексирования проекта, использование таблиц данных и т. д., и поддерживает своевременное обновление содержимого в руководство по данным с краткими и плавными операциями.Уменьшите расходы на ответы и использование данных для деловых сторон.
Руководство по использованию данных Соединяя бизнес-сценарии и сценарии использования данных, от анализа бизнес-сценариев до используемых таблиц данных, индикаторов и продуктов данных, вы можете быстро найти таблицы данных, определения индикаторов, запрос данных SQL и продукты данных, где индикаторы расположены в системы и другой информации, универсальное решение для всех сценариев поиска, использования и анализа данных. Основные функции включают в себя информацию индикатора и информацию таблицы данных и их использование.
- Информация об индикаторе: Включите индикаторы бизнес-классификации и подробную информацию об индикаторах. На странице сведений об индикаторах вы можете просмотреть определения индикаторов, сценарии использования индикаторов, статистические измерения индикаторов, таблицы данных, соответствующие индикаторам, продукты данных, в которых расположены индикаторы, и примеры SQL-запросов индикаторов, и т. д. Связанные с таблицами данных и продуктами данных, пользователям удобно быстро находить данные на основе информации об индикаторах.
- Информация о паспорте и как использовать: Включите основную информацию о таблице данных, рекомендуемую степень использования таблицы, примеры SQL-запросов, время обновления данных и время готовности данных и т. д., чтобы помочь пользователям быстро найти необходимую таблицу данных и использование данных SQL-запросов.
3.2.3 Робот, отвечающий за данные
Когда пользователи используют данные, они часто задают дата-инженерам некоторые вопросы, например, в какой таблице находятся данные, которые они ищут? Как получить индикатор? Как получить поле бизнес-системы в хранилище данных? Многие вопросы будут задаваться неоднократно, и каждый ответ потребует от сотрудников отдела исследований и разработок потратить определенное количество времени, а эффект обслуживания через Вики слабый.Поэтому мы рассматриваем возможность использования методов автоматического ответа, чтобы инженеры данных могли накапливать вопросы и ответы в ежедневный процесс ответа.Ответ сопоставляется по определенным правилам, и система может автоматически давать ответ при повторном запросе.
Используя консультационные вопросы и ответы, собранные в ежедневных вопросах и ответах, в качестве базовой базы знаний вопросов и ответов, робот данных вопросов и ответов построен с использованием робота Моисея платформы искусственного интеллекта Meituan и взаимодействует со стратегией вопросов и ответов, чтобы реализовать сопоставление существующих вопросов и ответов в истории и отправлять их пользователям после сопоставления. , конкретная реализация выглядит следующим образом:
3.3 Стоимость данных
Основная стоимость больших данных состоит из трех частей: вычислительных ресурсов, ресурсов хранения и ресурсов сбора журналов, из которых вычислительные ресурсы и ресурсы хранения составляют более 90% от общей стоимости.Наше управление затратами на данные в основном касается вычислений и хранения больших данных. Эти две части.
Решение для оптимизации затрат на большие данные
-
вычислительные ресурсы
- Очистка недопустимой задачи, определение того, является ли она недопустимой задачей, на основе использования данных, сгенерированных задачей, и сокращение вычислительных ресурсов, используемых для выполнения задачи, с помощью автономных недопустимых задач.
- Оптимизация сверхдлинных задач, согласно данным об использовании вычислительных ресурсов задач, можно обнаружить, что некоторые большие задачи будут занимать большую часть вычислительных ресурсов во время выполнения, что приводит к тому, что выполнение других задач занимает больше времени или занимает ненастроенные эластичные вычислительные ресурсы, что приводит к увеличению затрат на вычисления. Группа данных будет подсчитывать и отслеживать выполнение ежедневных задач, а также находить, что задачи, выполнение которых занимает много времени (более 2 часов) или занимают много ресурсов, будут оптимизированы по времени.
- Децентрализованное использование вычислительных ресурсов, фактическое использование вычислительных ресурсов ночными пакетными задачами в хранилищах данных, как правило, сосредоточено между 2:00 и 10:00, в результате чего только одна треть ресурсов полностью используется в течение дня, и этот период Обычно ресурсов не хватает во времени, и нужно использовать внеконфигурационные эластичные ресурсы, предоставляемые платформой. В другие периоды времени вычислительные ресурсы простаивают, что является большой тратой ресурсов. Чтобы эффективно использовать ресурсы в течение дня, мы поставим некоторые задачи, не чувствительные к времени готовности (такие как анализ алгоритмов, пользовательские теги, обновление данных и т. д.), после 10 часов и полностью используем настроенные вычислительные ресурсы.
- Унифицированное управление разделением и интеграцией арендаторов улучшает общий пул ресурсов и общее использование ресурсов.
-
ресурсы хранения
- Оптимизация и реконструкция архитектуры хранилища данных: за счет унификации спецификаций моделирования хранилища данных аналогичные или идентичные модели интегрируются и дедуплицируются, чтобы гарантировать сохранение только одной копии данных каждой темы.
- Сжатие хранилища данных: на ранней стадии построения хранилища данных формат хранения многих таблиц Hive — txt. Путем сжатия в формат ORC можно уменьшить большой объем хранилища.
- Обработка холодных данных: разделите данные на две категории холодных и горячих данных, определите холодные данные, сканируя все таблицы хранилища данных каждый день, и отправьте их ответственному за данные лицу для своевременной обработки.
- Управление жизненным циклом данных: настройте жизненный цикл данных в соответствии со сценарием многоуровневого приложения хранилища данных, детализируйте все исторические данные, хранящиеся на уровне хранилища данных, храните данные в течение 5 лет на уровне темы и сохраняйте данные на уровне приложения в течение 1–2 лет. 3 года. Затраты на хранение данных значительно снижаются за счет управления жизненным циклом данных.
-
Ресурсы для сбора журналов
- Для задачи сбора данных журнала восходящего потока для автономных холодных данных плата за сбор данных в основном поступает из двух типов данных: синхронизации журнала базы данных бизнес-системы и фонового сбора данных журнала. приложения в нисходящем потоке могут быть отключены во времени Задача.
3.4 Безопасность данных
Активы данных являются как ценностью, так и риском для бизнеса. Безопасность данных, как основная работа бизнес-подразделения, «относящаяся к жизни и смерти», будет контролироваться с момента создания данных до их применения с точки зрения технической архитектуры, гарантируя, что применение данных контролируется заранее, контролируется и впоследствии проверяется. Управление безопасностью данных начинается с бизнес-системы, шифрует особо конфиденциальные данные пользователя, выполняет сортировку и десенсибилизацию в хранилище данных, удваивает разрешение на данные зашифрованного текста и разрешение на ключ на уровне приложения, а также управляет особо конфиденциальными данными, связанными с пользователем, и контролирует их. Управление системой плюс пять принципов использования реализованы следующим образом:
4. Метрики
Бизнес-отдел установит систему показателей на начальном этапе развития бизнеса и будет использовать показатели данных для уточненного анализа каждого бизнес-процесса для измерения достижения бизнес-целей и степени реализации действий. Управление данными также требует зрелой и стабильной системы показателей измерения для обеспечения долгосрочного, стабильного и поддающегося количественному измерению измерения системы данных. Сформулировав систему индикаторов систематического измерения данных, мы можем своевременно отслеживать, какие части процесса управления данными работают хорошо, а какие все еще проблематичны.
4.1 Построение метрик
Чтобы иметь возможность устанавливать показатели без повторения, мы рассматриваем с двух сторон:
- Техническая классификация, в соответствии с проблемами и целями группы данных, система показателей управления данными делится на пять категорий: качество, стоимость, безопасность, простота использования и эффективность.
- В звене потока данных отслеживаются индикаторы, вызывающие обеспокоенность, от сбора данных, производства, хранения, управления индикаторами, применения и уничтожения.
4.2 Метрики для обеспечения управления данными
В соответствии с принципом PDCA управление данными реализуется как проект ежедневной работы, нижний уровень опирается на систему индикаторов данных для мониторинга, а верхний уровень — от обнаружения проблем до предлагаемого плана оптимизации с последующей последующей обработкой, а затем к ежедневному мониторингу, формируя полный цикл.
5. Резюме эффектов управления
Управление данными охватывает весь жизненный цикл данных.Цель управления данными достигается путем создания организации управления данными, разработки системы измерения управления и построения системы технологий управления на протяжении всего жизненного цикла данных от создания до уничтожения стоимости. После систематического управления данными управление, стоимость, безопасность и операционная эффективность систем данных значительно улучшились.
- Качество данных: После того, как техническая архитектура оптимизирована, точность данных гарантируется за счет стандартизированных спецификаций и систем, а исторические избыточные данные удаляются и интегрируются в процесс управления, а проблема качества данных значительно решена. Темпы роста задач по производству данных в 2019 году были примерно на 60% ниже, чем в 2018 году.
- стоимость данных: После оптимизации стоимости данных, при поддержке быстрого роста винного и туристического бизнеса в 2019 году, удельная стоимость больших данных снизилась примерно на 40%.
- Безопасность данных: Благодаря шифрованию данных бизнес-системы и десенсибилизации данных хранилища данных безопасность особо конфиденциальных данных гарантируется вдвойне и предотвращается утечка данных. Публичность стандартов безопасности данных и конфиденциальности данных повысила осведомленность студентов, изучающих бизнес, о безопасности данных, и в бизнесе не возникло серьезных проблем с безопасностью данных.
- Операционная эффективность: Операционные инструменты сокращают ежедневное время вопросов и ответов студентов, занимающихся исследованиями и разработками, более чем на 60%, значительно сокращают количество случаев, когда студенты, занимающиеся исследованиями и разработками, отвлекаются от своей работы, и повышают эффективность разработки.
3. Планирование будущего
Управление данными разделено на три основных этапа: пассивное управление, активное управление и автоматическое управление.
- Что мы делаем на первом этапепассивное управление, то есть поэтапное управление. Это правда, что общего рассмотрения мало. Оно в основном основано на управлении одним вопросом, и повторное управление может потребоваться в течение определенного периода времени после управления. Этот этап является скорее человеческим правилом.Проект создается, и несколько человек координируются для его выполнения в соответствии с системой проектов.Нет систематического планирования и организационных гарантий.
- Второй этапАктивное управление, существует долгосрочное общее планирование, которое может охватывать все звенья жизненного цикла данных.В процессе управления некоторые методы и опыт упрощаются, стандартизируются и систематизируются, чтобы решать некоторые проблемы с данными в течение длительного времени, и сделать управление данными контролируемым в течение длительного времени.
- Третий этапавтоматическое управление, что также является интеллектуальным управлением.После того, как долгосрочное планирование и связи в жизненном цикле данных определены, существующий опыт, процессы и стандарты превращаются в стратегии. Как только возникает проблема, она автоматически отслеживается и систематически решается. Первым шагом в автоматическом управлении является реализация и тактика плана управления, который очень зависит от метаданных и накапливает некоторый опыт и технологии в каждом процессе управления данными. После завершения осаждения стратегии автоматизируйте ее и реализуйте стратегию в виде инструментов.Когда система обнаружит, что есть проблема с данными, она автоматически решит ее.
В настоящее время управление данными винного и туристического бизнеса Meituan находится между вторым и третьим этапами.Несмотря на наличие общего плана управления, технической структуры и организационных гарантий, для этого все еще необходимо вложить определенное количество рабочей силы. В будущем управление данными продолжит развиваться в направлении интеллектуального анализа и действительно улучшит работу автоматизированного управления.
4. Об авторе
- Цзяньшу присоединился к Meituan в 2015 году. Он работает инженером по данным в отделе обработки данных и платформ.
- Ван Лэй, присоединившийся к Meituan в 2017 году, работает инженером по данным в отделе обработки данных и платформ.
- Рози, которая присоединилась к Meituan в 2017 году, является менеджером по продуктам данных отдела обработки данных и платформ.
Прочтите другие подборки технических статей от технической команды Meituan
внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа
|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.
| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.