Изучайте большие данные с помощью моделирования хранилища нулевых данных

Большое количество данных

Почему моделирование хранилища данных

Модель данных — это метод организации и хранения данных, в котором особое внимание уделяется рациональному хранению данных с точки зрения бизнеса, доступа к данным и их использования. Благодаря модели, которая подходит для бизнеса и базовой среды хранения данных, большие данные могут получить следующие преимущества:

  • представление: Хорошая модель данных может помочь нам быстро запрашивать необходимые данные и снизить пропускную способность ввода-вывода данных.
  • Стоимость: Хорошая модель данных может значительно уменьшить ненужную избыточность данных, а также реализовать повторное использование результатов вычислений, что значительно снижает затраты на хранение и вычисления в системах больших данных.
  • эффективность: Хорошая модель данных может значительно улучшить взаимодействие с пользователем при использовании данных и повысить эффективность использования данных.
  • качественный: Хорошая модель данных может улучшить несогласованность статистики данных и снизить вероятность ошибок при расчете данных.

Моделирование парадигмы

Моделирование парадигмы(Третья нормальная форма, 3NF) — широко используемый метод построения моделей данных, который в основном состоит изInmonПредлагаемый метод в основном решает вопросы хранения и использования реляционных баз данных на техническом уровне. Большинство современных методов моделирования в реляционных базах данных三范式建模, то есть бизнес предприятия описывается с помощью модели Entity Relationship (ER).

Нормальная форма является основной теорией проектирования логической модели базы данных.Реляционная модель может быть без потерь разложена из первой нормальной формы в пятую нормальную форму.Этот процесс называетсянормализовать. Третья нормальная форма обычно используется в модели хранилища данных, которая имеет строгое математическое определение. По смыслу своего выражения отношение, соответствующее трехпарадигмальной форме, должно иметь следующие три условия:

  • Каждое значение атрибута уникально и не имеет неоднозначности;
  • Каждый непервичный атрибут должен полностью зависеть от всего первичного ключа, а не от его части;
  • Каждый непервичный атрибут не может зависеть от атрибутов в других отношениях, потому что тогда атрибут должен быть атрибутирован другим отношениям.

Предлагаемый хаб Inmon自上而下(EDW-DM) Архитектура хранилища данных. Источник данных операционной или транзакционной системы извлекается, преобразуется и загружается в слой ODS хранилища данных через ETL, а затем через данные ODS строится хранилище данных EDW атомарных данных, поэтому необходимо построить слой витрины данных в многомерном формате посредством агрегации.

Основные компоненты модели 3NF

  • организация: абстракция атрибута с теми же характеристиками и свойствами, логическая сущность, описываемая именем абстрактной сущности и именем атрибута;
  • связь: отношения между сущностями;
  • Атрибуты: определенная характеристика объекта, обычно объект имеет несколько атрибутов.

Особенности моделирования парадигмы

  • Требуется всестороннее понимание корпоративного бизнеса и данных
  • Цикл реализации очень долгий
  • Очень высокие требования к компетенциям моделистов

ER модель

Модель ER является теоретической основой проектирования баз данных, и в настоящее время почти все проекты систем OLTP используют метод моделирования модели ER.

Отправной точкой использования модели ER для построения модели хранилища данных является интеграция данных, объединение и объединение данных в каждой системе в соответствии с темой с точки зрения всего предприятия, а также выполнение последовательной обработки для анализа данных и принятия решений. принятия решений, но его нельзя напрямую использовать для анализа решений.

Шаги моделирования

Шаги моделирования делятся на три этапа:

  • высокий уровень: очень абстрактная модель, описывающая основные темы и отношения между ними и используемая для описания общего бизнес-профиля предприятия.
  • модель среднего уровня: на основе высокоуровневой модели уточнить элементы данных темы.
  • физическая модель: Также известная как модель нижнего уровня, на основе модели среднего уровня учитывается физическое хранилище и разрабатываются физические свойства на основе характеристик производительности и платформы, а также может выполняться слияние таблиц, проектирование разделов и т. д.

объемное моделирование

объемное моделированиееще один мастер в области хранилищ данныхRalph KimballЭто самая популярная классика моделирования хранилищ данных в области проектирования хранилищ данных. Многомерное моделирование строит модели на основе потребностей анализа и принятия решений, а построенные модели данных служат потребностям анализа.Поэтому оно фокусируется на том, как пользователи могут быстрее выполнить потребности анализа, и в то же время оно также имеет лучший ответ. производительность для крупномасштабных сложных запросов. Многомерное моделирование — это метод, предназначенный для моделирования аналитических баз данных, хранилищ данных и киосков данных.

  • Многомерная модель состоит из нормализованной таблицы фактов и нескольких денормализованных таблиц измерений.
    • Денормализованная реляционная модель
    • Связь между таблицами определяется ключевыми словами и внешними ключами.
  • Организуйте данные с хорошей понятностью и простым созданием отчетов, не обращая внимания на производительность модификации.
  • Запрос данных и обслуживание с помощью SQL или связанных инструментов

таблица размеров

Каждая таблица измерений соответствует объекту или понятию в реальном мире. Такие как: клиент, продукт, дата, регион, торговый центр.

Особенности размерной таблицы:

  • Количество описательных столбцов: диапазон таблиц измерений широк (с несколькими свойствами)
  • Как правило, количество строк относительно невелико по сравнению с таблицами фактов, обычно менее 100 000.
  • Содержимое относительно фиксировано, почти как справочная таблица или таблица кодирования.

таблица фактов

Каждая таблица фактов обычно содержит меры, связанные с обработкой

Каждая строка таблицы фактов содержит:

  • Аддитивная числовая мера
  • Внешний вид размерной связи с
    • Часто имеют два и более внешних ключа
    • Внешние ключи представляют отношения «многие ко многим» между таблицами измерений.

Особенности таблицы фактов:

  • Большой объем данных
  • меньше столбцов
  • часто меняется

процесс моделирования

  1. Выберите бизнес-процесс

    На этом шаге разработчик модели должен углубиться в реальный бизнес-процесс, построить на его основе показатели производительности и преобразовать их в факты в таблице фактов. Как только таблица фактов создана, соответствующая степень детализации или измерение также определяется относительно. Так что этот шаг важнее.

  2. Декларативная гранулярностьОбъявление детализации — важный шаг в проектировании измерений, и обычно выбирается самый низкий уровень атомарной детализации, потому что атомарная детализация может выдерживать непредсказуемые запросы пользователей.

  3. определить размерыПоскольку таблицы измерений могут описывать атрибуты фактов, таблицы измерений иногда называют душой хранилища данных. Это запись и описательная идентификация системы хранилища данных, которую можно использовать для бизнес-анализа.

  4. установить фактыТаблица фактов — это мера реального бизнес-процесса, большинство из которых представлены числовыми значениями. Таблица фактов соответствует транзакции в реальности.

Три шаблона пространственного моделирования

звездная схема

звездная схема(Star Schema) — это обычный тематический режим, в основном состоящий из таблицы фактов и нескольких таблиц измерений, и в нем нет вторичной таблицы измерений.

Можно видеть, что многомерное моделирование звездообразной схемы состоит из таблицы фактов и набора таблиц измерений и имеет следующие характеристики:

  • Таблица измерений связана только с таблицей фактов, и между таблицами измерений нет никакой связи;
  • Первичный ключ каждой таблицы измерений представляет собой один столбец, а первичный ключ помещается в таблицу фактов как внешний ключ, соединенный с обеих сторон;
  • С таблицей фактов в качестве ядра таблица измерений распределена по звезде.

модель снежинки

модель снежинки(Snowflake Schema) заключается в том, чтобы снова развернуть таблицу измерений на основе звездообразной схемы, и каждая таблица измерений может по-прежнему соединять несколько таблиц вложенных измерений наружу.

Преимущества и недостатки модели снежинки:

  • Преимущества: низкая связь, низкая избыточность;
  • Недостаток: низкая производительность при выполнении запросов по нескольким таблицам.

Таблица измерений в схеме «звезда» больше, чем в схеме «снежинка», и она не удовлетворяет каноническому дизайну. Модель снежинки эквивалентна разбиению крупноразмерной таблицы модели звезды на малоразмерные таблицы, что удовлетворяет стандартизированному дизайну. Однако этот шаблон редко встречается в практических приложениях, потому что это усложнит разработку, а проблема избыточности данных не является серьезной в хранилищах данных.

Модель созвездия

Модель созвездия(Fact Constellations Schema) также является расширением схемы «звезда», и существует несколько таблиц фактов, которые могут совместно использовать одну и ту же таблицу измерений.

Методы двухмерного моделирования, представленные выше, представляют собой многомерные таблицы, соответствующие отдельным таблицам фактов, но во многих случаях в пространстве измерений имеется более одной таблицы фактов, и одна таблица измерений может использоваться несколькими таблицами фактов. На более позднем этапе развития бизнеса в большинстве многомерных моделей используется модель созвездия.

Сравнение трех режимов

Модель «снежинка» предназначена для дальнейшего разделения таблицы измерений модели «звезда», чтобы каждая таблица измерений соответствовала дизайну услуги. Модель созвездия позволяет отображать несколько таблиц фактов в звездообразной схеме.

Как правило, модель «звезда» используется при моделировании темы витрины данных.Если речь идет о создании хранилища данных на уровне предприятия, часто используется модель созвездия. Основная цель моделирования данных состоит в том, чтобыИзбегайте резервирования и максимизации производительности запроса, Моделирование не только лучшего оптимума.

Модель хранилища данных

Модель хранилища данныхDan LinstedtПредложен в 1990-х годах, в основном для моделирования сложных сетей, встречающихся в природе.

Data Vault — это подробный, отслеживаемый набор нормализованных таблиц с соединениями. Эти таблицы могут поддерживать одну или несколько бизнес-функций. Что касается стиля моделирования, он использует гибридный подход метода третьей нормальной формы (3NF) и метода многомерного моделирования для удовлетворения потребностей предприятия с уникальным сочетанием этих двух методов.

Концепция дизайна: чтобы удовлетворить требования предприятия к гибкости, масштабируемости, согласованности и адаптации к потребностям, это метод моделирования, специально разработанный для хранилищ данных уровня предприятия.

Ступица представляет собой взрослый скелет, Ссылка связана со скелетом связок, Сателлит - скелет выше, должен быть мясом.

Базовая структура

1. Центральный стол (концентратор)

Центральная таблица используется для хранения бизнеса каждого объекта в организации.первичный ключ, первичный бизнес-ключ однозначно идентифицирует бизнес-объект.

Центральная таблица и исходная системная таблица не зависят друг от друга. Когда бизнес-первичный ключ используется в нескольких системах, в Data Vault хранится только одна копия, а другие компоненты связаны с этим одним бизнес-первичным ключом.

**2.Список ссылок (Ссылка)**

Связанные таблицы — это ссылки между центральными таблицами. Связанная таблица подразумевает связь между двумя или более центральными таблицами. Связанная таблица обычно представляет собой внешний ключ, который представляетделовые отношения.

3. Спутник

Вспомогательная таблица используется для хранения свойств центральной таблицы и связанной таблицы, включая все исторические данные об изменениях. Дочерняя таблица всегда имеет один и только один внешний ключ, который ссылается на центральную или связанную таблицу.

Особенности модели Data Vault

  • Все данные хранятся с учетом времени, даже если данные имеют низкое качество и не могут быть удалены в процессе ETL;
  • Чем меньше доверия, тем лучше
  • Чем более независима исходная система, тем лучше
  • Предназначен для размещения изменений, изменений данных в исходной системе, масштабируется без изменения модели.
  • Задания ETL могут выполняться повторно
  • Данные полностью прослеживаются.

Якорная модель

Якорь еще больше нормализует модель Data Vault и является расширяемой моделью.Все расширения просто добавляются, а не изменяются, поэтому модель нормализуется к 6NF, что в основном становитсяk-vструктурированная модель.

Анкерная модель состоит из:

  • Anchors: концентратор, аналогичный Data Vault, представляющий бизнес-объект и имеющий только первичный ключ.
  • Attributes: функция аналогична Satellite из Data Vault, но она более нормализована, вся структура k-v, а таблица имеет только одно описание атрибута Anchors.
  • Ties: это взаимосвязь между привязками, которая используется только для ее описания. Подобно связи хранилища данных, она может улучшить способность учитывать взаимосвязь модели в целом.
  • Knots: представляет уточнение свойств, которые могут быть общими для нескольких привязок, таких как свойства типов перечисления, такие как пол и статус, которые являются общими.

Запрос анализа в хранилище данных основан только на небольшом количестве полей, что похоже на структуру хранения столбцов.Использование модели Anchor может значительно уменьшить объем сканируемых данных, тем самым повысив производительность запроса.

Суммировать

Моделирование хранилища данных — это комплексная технология, требующая использования ER-моделирования, реляционного моделирования, многомерного моделирования и других технологий. Более того, когда бизнес предприятия сложен, эта часть работы должна быть выполнена специальной командой и бизнес-стороной. Таким образом, отличная команда моделирования хранилища данных должна не только владеть надежной технологией моделирования хранилища данных, но также иметь четкое и глубокое понимание реального бизнеса.

-- END -- Добро пожаловать, нажмите и удерживайте изображение, чтобы подписаться на общедоступный номер DigNew


Рекомендуемое чтение: