5 минут, чтобы понять, что такое склад

Большие данные

Интеллект-карта высокого разрешения была синхронизирована с Git: https://github.com/SoWhat1412/xmindfile, подпишитесь на общедоступную учетную запись sowhat1412, чтобы получить огромные ресурсы.

在这里插入图片描述
вставьте сюда описание изображения

1. Что такое хранилище данных

Хранилище данных, английское названиеData Warehouse, что может быть сокращено какDWилиDWH. Хранилище данных — это стратегическая коллекция, обеспечивающая поддержку всех типов данных для процессов принятия решений на всех уровнях предприятия.Он создан для целей аналитической отчетности и поддержки принятия решений.. Предоставляет рекомендации по совершенствованию бизнес-процессов, мониторингу времени, затрат, качества и контроля для предприятий, которым требуется бизнес-аналитика.

2. Что может хранилище данных?

  1. Обозначение годового целевого показателя продаж необходимо решать на основе прошлых исторических отчетов.
  2. Как оптимизировать бизнес-процессы

Например, выполнение заказа на веб-сайте электронной коммерции включает в себя: просмотр, размещение заказа, оплату и логистику.Логистическая ссылка может сотрудничать с курьерскими компаниями, такими как Zhongtong, Shentong и Yunda. Каждый раз, когда курьерская компания доставляет заказ, будет время подтверждения доставки заказа.Вы можете проанализировать, какая курьерская компания быстрее и эффективнее в зависимости от времени доставки заказа, чтобы выбрать, с какими курьерскими компаниями сотрудничать , какие курьерские компании исключить, и повысить удобство использования.

  1. Короче говоря, он агрегирует данные Bafang и предоставляет мне услуги после очистки.

3. Возможности хранилища данных

1. Данные в хранилище данных предметно-ориентированы

В соответствии с характеристиками ориентированной на приложения организации данных в традиционных базах данных, данные в хранилище данных面向主题организованный. Какая тема? Прежде всего, предмет представляет собой абстрактное понятие, представляющее собой абстракцию синтеза, классификации и анализа данных и их использования в информационной системе предприятия на более высоком уровне. В логическом смысле он соответствует объекту анализа, участвующему в поле макроанализа на предприятии. Предметно-ориентированный метод организации данных представляет собой полное и непротиворечивое описание данных объекта анализа на более высоком уровне, что позволяет полностью и единообразно описать различные данные предприятий, задействованных в каждом объекте анализа, и взаимосвязь между данными. соединять. Так называемый более высокий уровень относится к методу организации данных, ориентированному на приложения, что означает, что метод организации данных в соответствии с темой имеет более высокий уровень абстракции данных.Грубо говоря, это как писать эссе: всегда есть тема, о чем писать.!

2. Данные в хранилище данных интегрированы

Данные в хранилище данных взяты из оригинала分散извлечены из базы данных. Существует большая разница между оперативными данными и аналитическими данными.

  1. Исходные данные, соответствующие каждой теме хранилища данных, хранятся в исходных децентрализованных базах данных.много повторенийинепоследовательныйМесто и из разных онлайн-системданныеоба и разныепакет логики приложениявместе;

  2. Исчерпывающие данные в хранилище данных не могут быть получены непосредственно из исходной системы базы данных. Поэтому, прежде чем данные попадут в хранилище данных, они должны быть унифицированы и интегрированы.Этот шаг находится в построении хранилища данных.最关键,最复杂Шаг, работа, которую нужно сделать:

    1. Все противоречия в исходных данных должны разрешаться единообразно, такие как одинаковое название поля, одинаковое имя одного и того же имени, единица измерения не унифицирована, длина слова несовместима и т. д. 2. Провести синтез данных и расчет. Работа по синтезу данных в хранилище данных может быть сгенерирована при извлечении данных из исходной базы данных, но многие из них генерируются внутри хранилища данных, то есть после входа в хранилище данных они генерируются комплексно. 3. В большинстве случаев создание общих хранилищ данных создается отделом больших данных, в то время как другие аналитические бизнес-отделы не имеют права напрямую использовать онлайн-таблицы.

3. Данные в хранилище данных не обновляются

Данные хранилища данных в основном используются предприятиямидля анализа решений, задействованные операции с данными в основном数据查询, при нормальных обстоятельствах операция модификации не выполняется. Данные хранилища данных отражают содержание исторических данных за длительный период времени и представляют собой совокупность снимков базы данных в разные моменты времени, а также экспортируемых данных на основе этих снимков для статистики, синтеза и реорганизации.А не онлайн обработка данных. Данные для онлайн-обработки в базе данных интегрированы в хранилище данных.Как только данные, хранящиеся в хранилище данных, превысят срок хранения данных хранилища данных, эти данные будут удалены из текущего хранилища данных. Поскольку хранилище данных выполняет только операции запроса данных, система управления хранилищем данных намного проще, чем система управления базой данных.

Многие технические сложности в системе управления базами данных, такие как защита целостности, контроль параллелизма и т. д., можно практически не учитывать при управлении хранилищем данных. Однако из-за большого объема данных запроса в хранилище данных к запросу данных выдвигаются более высокие требования, что требует использования различных сложных технологий индексации; запрос данныхУдобство для пользователяипредставление данныхвыдвигать более высокие требования.

4. Хранилище данных — это данные, изменяющиеся со временем

Данные в хранилище данных не могут быть обновлены для приложения, то есть пользователи хранилища данных не выполняют операции обновления данных при выполнении анализа и обработки. Но это не означает, что все данные хранилища данных неизменны на протяжении всего жизненного цикла данных, от интеграции данных в хранилище данных до его возможного удаления.

Данные в хранилище данных постоянно меняются со временем, что является четвертой характеристикой данных в хранилище данных. Эта особенность проявляется в следующих трех аспектах:

1. Хранилище данных со временем добавляет новые данные. Системы хранения данных должны постоянно фиксироватьOLTPИзмененные данные в базе данных добавляются в хранилище данных,То есть постоянно генерировать моментальные снимки базы данных OLTP., и добавляется в хранилище данных после единой интеграции; но для неизменяемого моментального снимка базы данных при захвате новых измененных данных будет сгенерирован и добавлен к нему только новый моментальный снимок базы данных, а исходный снимок базы данных добавлен не будет .. модифицировать. На изображении это сбор данных в полный объем данных каждый день.

2. Хранилище данныхПостоянно удалять старый контент данных с течением времени. Данные в хранилище данных также имеют срок хранения, по истечении которого просроченные данные будут удалены. Просто возраст данных в хранилище данных намного больше, чем в операционной среде. В операционной среде данные обычно хранятся от 60 до 90 дней, в то время как в хранилище данных данные с более длительным сроком хранения (например, от 5 до 10 лет) необходимо хранить для соответствия требованиям DSS (система поддержки принятия решений). ) для анализа тенденций.

3. Хранилище данных содержит большой объем комплексных данных. Многие из этих комплексных данных связаны со временем. Например, данные часто интегрируются по периодам времени или выбираются в определенные временные интервалы. Эти данные постоянно ресинтезируются с течением времени. Таким образом, характеристики данных хранилища данныхсрок, чтобы указать исторический период данных.

4. История развития хранилища данных

Разработка хранилища данных примерно прошла следующие три процесса:

  1. Простой этап отчета:

На этом этапе основной целью системы является решение отчетов, необходимых бизнес-персоналу в повседневной работе, и создание некоторых простых сводных данных, которые могут помочь руководителям принимать решения. Большинство проявлений этой стадииБаза данных и интерфейсные инструменты отчетности.

  1. Стадия витрины данных:

На этом этапе, в основном в соответствии с потребностями бизнес-отдела, осуществляется сбор и сортировка определенных данных, а также отображаются многомерные отчеты в соответствии с потребностями бизнес-персонала, которые могут предоставлять данные для конкретных бизнес-руководств и могут предоставлять конкретные решения руководства данные.

  1. Стадия хранилища данных:

На этом этапе в основном на основе определенных数据模型, собирать и систематизировать данные всего предприятия, а также может предоставлять полностью согласованные данные бизнес-отчетов между отделами в соответствии с потребностями каждого бизнес-подразделения, а также может генерировать поучительные данные для бизнеса через хранилище данных. поддержка данных.

На этапе разработки построения хранилища данных мы видим, что важное различие между построением хранилища данных и построением витрины данных заключается в поддержке модели данных. следовательно数据模型的建设Это имеет решающее значение для построения нашего хранилища данных.

5. Разница между базой данных и хранилищем данных

Прежде чем понять разницу между базой данных и хранилищем данных, сначала освойте три концепции.数据库软件,数据库,数据仓库.数据库软件: Это программное обеспечение, которое можно увидеть и которым можно управлять. Используется для реализации логических функций базы данных. относится к физическому уровню. Oracle, MySQL, Redis, MongoDB, Neo4j, JanusGraph и другие. Также есть несколько визуальных интерфейсов Navicat, dbeaver, Hue и др.

数据库: это逻辑概念, использовал кхранилище данных. Это реализовано с помощью программного обеспечения базы данных. База данных состоит из множества таблиц, таблица двумерная, и таблица может иметь много полей. Поля выстраиваются в ряд, и соответствующие данные записываются в таблицу построчно. Таблица базы данных способна выражать многомерные отношения в двух измерениях. Наиболее популярными базами данных на рынке сегодня являются двумерные базы данных. Такие как: Oracle, DB2, MySQL и т.д.

数据仓库: это обновление концепции базы данных. от逻辑上理解, нет никакой разницы между базой данных и хранилищем данных, они оба являются местами, где данные хранятся с помощью программного обеспечения базы данных.数据量Другими словами, хранилище данных намного больше, чем база данных. Хранилище данных в основном используется дляДобыча данных и анализ данных, чтобы помочь лидерам в принятии решений.

В системе ИТ-архитектуры数据库是必须存在的. Должно быть место для хранения данных. Например, интернет-магазины, Taobao, Jingdong и так далее. Количество товаров на складе, цена товара, баланс аккаунта пользователя и т. д. Эти данные хранятся в фоновой базе данных. Или самое простое понимание, теперь у нас есть логин и пароль Weibo, QQ и других аккаунтов. В фоновой базе данных должна быть пользовательская таблица, по крайней мере, с двумя полями, а именно с именем пользователя и паролем, и тогда наши данные существуют в таблице построчно. При входе заполняем логин и пароль, и эти данные будут отправлены обратно в фон для совпадения с данными в таблице.Если совпадение прошло успешно, можно войти. Если совпадение не удалось, будет сообщено об ошибке, в которой говорится, что пароль неверный или имя пользователя отсутствует. Это база данных, а база данных используется для работы в производственной среде. Мы используем базы данных для всего, что связано с бизнес-приложениями.

Хранилище данных商业智能(Business Intelligence,简称:BI)один из методов ниже. Поскольку база данных связана с бизнес-приложениями, база данных не может хранить все данные компании. Структура таблицы базы данных часто предназначена для определенного приложения. Например, только что в функции входа в систему в пользовательской таблице есть только эти два поля, а других полей нет. Но эта таблица подходит для приложения, без проблем. Но эта таблица не подходит для анализа. Например, я хочу знать, в какой период времени в систему входило больше всего пользователей? Кто из пользователей совершает больше всего покупок за год? такие метрики. Затем нам нужно перепроектировать структуру таблиц базы данных. заАнализ данных и интеллектуальный анализ данных, мы вводим понятие хранилища данных. Структура таблиц хранилища данных основана наАнализ требований,Измерение анализа,Аналитические показателиразработан.

5. OLTP и OLAP

Разница между базой данных и хранилищем данных на самом делеOLTPиOLAPразница.

操作型处理: онлайн-обработка транзакций OLTP (онлайн-обработка транзакций) или система обработки, ориентированная на транзакции, которая представляет собой ежедневную операцию конкретной службы в базе данных, обычно запросы и модификации. Пользователя больше заботит время отклика операции, безопасность, целостность и количество пользователей, поддерживающих количество пользователей.传统的数据库系统Как основное средство управления данными, главным образом для оперативной обработки.

分析型处理: называется оперативной аналитической обработкой OLAP (On-Line Analytical Processing) обычно для некоторых主题Анализ исторических данных для поддержки принятия управленческих решений, ETL.

Оперативная обработка (OLTP) Аналитическая обработка (OLAP)
подробный интегрированный или усовершенствованный
Модель сущность-связь (ER) схема звезда или схема снежинка
Доступ к мгновенным данным Хранить исторические данные, за исключением последних данных
обновляемый только чтение, только добавление
Управляйте одним блоком за раз Управление одной коллекцией за раз
Высокие требования к производительности и короткое время отклика Смягченные требования к производительности
ориентированный на сделку Ориентированный на анализ
Небольшой объем данных за одну операцию Большой объем данных за одну операцию
Поддержка ежедневных операций Поддержка принятия решений
небольшой объем данных Большой объем данных
Заказы клиентов, уровни запасов и запросы банковских счетов и т. д. Анализ доходов клиентов, сегментация рынка и т. д.

6. Многоуровневая архитектура хранилища данных (выделено)

1. Архитектура хранилища данных

Стандарт хранилища данных можно разделить на четыре уровня:ODS(слой временного хранения),PDW(уровень хранилища данных),DM(уровень витрины данных),APP(прикладной уровень).在这里插入图片描述Метаданные каждой системы синхронизируются с оперативным хранилищем данных ODS через ETL, а данные ODS подвергаются предметно-ориентированному моделированию для формирования DW (хранилища данных).DM предназначен для создания модели для определенной бизнес-области. отчет.

  1. Рабочий уровень данных временного хранения: ODS (Хранилище операционных данных): Слой ODS — это система хранения данных, которая передает данные из разных источников данных (различные операционные базы данных, внешние источники данных и т. д.)ETL(Extract-Transform-Load)Процессы объединяются в предметно-ориентированный, интегрированный, согласованный в масштабах предприятия набор данных (в первую очередь актуальные или недавние подробные данные и, возможно, агрегированные данные). С точки зрения детализации данных, степень детализации данных уровня ODS最细из. Таблица уровня ODS обычно включает две категории: одна используется для хранения данных, которые необходимо загрузить в данный момент, а другая используется для хранения обработанных исторических данных. Исторические данные обычно хранятся в течение 3–6 месяцев, и их необходимо очищать для экономии места. Однако к разным проектам нужно относиться по-разному, если объем данных в исходной системе невелик, то их можно хранить дольше или даже в полном объеме.
  2. Уровень хранилища данных: DW (хранилище данных): Для уровня хранилища данных данные на уровне DW должны быть непротиворечивыми, точными и чистыми, то есть данные исходной системы были обработаны.清洗(с удалением примесей). Данные на этом уровне обычно соответствуют третьей нормальной форме базы данных, а степень детализации данных обычно такая же, как и в ODS. В слое DW будут сохранены все исторические данные в системе BI, например, данные за 10 лет.

DW : Data WarehouseВ переводе на хранилище данных ХД делится на снизу вверхDWD,DWB,DWS. ДВД:Warehouse DetailСлой детальных данных, некоторые из которых также называютсяODSУровень, который является уровнем изоляции между бизнес-уровнем и хранилищем данных. ДВБ:Data Warehouse BaseБазовый слой данных, в котором хранятся объективные данные, обычно используется как промежуточный слой, который можно рассматривать как большое количествопоказательслой данных. ДВС:Data Warehouse ServiceСлой служебных данных, основанный на базовых данных о DWB, интегрирует и обобщает определенныепредметный доменСлужебные данные обычно представляют собой широкую таблицу.

  1. Уровень витрины данных: DM (витрина данных): 为数据集市层,这层数据是面向主题来组织数据да, обычно星形или雪花структурированные данные. С точки зрения детализации данных, данные в этом слоеСлегка агрегированные данные, подробные данные больше не существуют. С точки зрения временного промежутка данных он обычно является частью уровня DW, и его основная цель - удовлетворить потребности пользовательского анализа.С точки зрения анализа пользователям обычно нужно анализировать данные только за последние годы (например, данные в последние три года). Судя по широте данных, он по-прежнему охватывает все бизнес-данные.
  2. Прикладной уровень: Прикладной уровень: 这层数据是完全为了Данные, созданные в соответствии с конкретными потребностями анализа,Слишком星形или雪花структурированные данные. С точки зрения детализации данных, этоВысокая агрегацияДанные. Что касается объема данных, он не обязательно охватывает все бизнес-данные, а только один из данных уровня DM.Истинное подмножество, в некотором смысле, это повторение данных уровня DM. В крайних случаях модель может быть построена на уровне приложения для каждого отчета, чтобы достичь цели обмена пространством на время.Стандартное многоуровневое хранилище данных является только рекомендуемым стандартом.В фактической реализации данные должны быть определены в зависимости от реальной ситуации.Расслоение хранилища, различные типы данных также могут использовать разные методы расслоения.
2. Зачем многоуровневое хранилище данных?
  1. 用空间换时间, чтобы улучшить взаимодействие с пользователем (эффективность) прикладной системы за счет большого объема предварительной обработки, поэтому в хранилище данных будет много избыточных данных.
  2. Разделение, если оно не многоуровневое, повлияет на весь процесс очистки данных, если бизнес-правила исходной бизнес-системы изменятся, что приведет к огромной рабочей нагрузке.
  3. Благодаря иерархическому управлению данными можноУпростите очистку данныхЧенг, потому что первоначальная одноэтапная работа разделена на несколько шагов для завершения, что эквивалентно разделению сложной работы на несколько простых, превращению большого черного ящика в белый ящик и обработке на каждом уровне. простой и понятный, поэтому нам легче обеспечить правильность каждого шага.Когда данные неверны, нам часто нужно только скорректировать определенный шаг локально.

7. Введение в метаданные

Когда вам нужно узнать о местном бизнесе и услугах, которые он предоставляет,Желтые страницы телефонапоказана важность. Метаданные аналогичны желтой странице этого телефона.

1. Определение метаданных

Метаданные хранилища данных — это данные о данных в хранилище данных. Его функция аналогична словарю данных системы управления базами данных, который можно просто понимать как каталог книги.Хранит такую ​​информацию, как логические структуры данных, файлы, адреса и индексы.. Вообще говоря, в хранилище данныхМетаданные описывают структуру данных в хранилище данных и данные о том, как его построить..

Метаданные являются важной частью системы управления хранилищем данных.Менеджер метаданных является ключевым компонентом хранилища данных на уровне предприятия.Он проходит через весь процесс построения хранилища данных и напрямую влияет на создание, использование и обслуживание хранилища данных..

  1. Одним из основных этапов построения хранилища данных являетсяETL. Здесь метаданные играют важную роль, ониОн определяет сопоставление системы исходных данных с хранилищем данных, правила преобразования данных, логическую структуру хранилища данных, правила обновления данных, историю импорта данных, цикл загрузки и другое связанное содержимое.. Именно с помощью метаданных специалисты по извлечению и преобразованию данных и администраторы хранилищ данных эффективно создают хранилища данных.
  2. Когда пользователи используют хранилище данных,данные доступа к метаданным, уточняйте значение элементов данных и настраивайте отчеты.
  3. Размер и сложность хранилища данных требуют надлежащего управления метаданными, включая добавление или удаление внешних источников данных, изменение методов очистки данных, контроль ошибочных запросов и планирование резервного копирования.

Метаданные можно разделить натехнические метаданныеиметаданные бизнеса.

  • Технические метаданные используются ИТ-персоналом, который разрабатывает хранилища данных и управляет ими.Они описывают данные, связанные с развитием, управлением и обслуживанием хранилища данных, включая информацию об источниках данных, описания преобразования данных, модели хранилища данных, правила очистки и обновления данных, а также сопоставление данных. права доступа и т.д.
  • Бизнес-метаданные служат руководству и бизнес-аналитикам, описывая данные с точки зрения бизнеса, включая бизнес-термины, какие данные находятся в хранилище данных, расположение данных и доступность данных, помогая бизнес-персоналу лучше понять, какие данные содержатся в данных. склад доступен и как его использовать.

Из вышеизложенного видно, что метаданные не только определяют режим, источник, правила извлечения и преобразования данных в хранилище данных, но и являются основой для работы всей системы хранилища данных как органического целого, как показано на рисунке.在这里插入图片描述

2. Как хранятся метаданные

Существует два общих хранилища метаданных:

  • Один основан на наборах данных, каждый набор данных имеет соответствующий файл метаданных, и каждый файл метаданных содержит содержимое метаданных соответствующего набора данных. Преимущество первого способа хранения заключается в том, что при вызове данных соответствующие метаданные также передаются в виде самостоятельного файла, относительно независимого от базы данных, файл метаданных передается для работы в другие системы баз данных, недостатком является то, что если каждый набор данных соответствует файлу метаданных, вБольшое количество файла метаданных будет иметь большое количество файла метаданных в огромной базе данных, Управление не удобное.

  • Один метод хранения основан на базе данных, т.е.метабаза. Файл метаданных состоит из нескольких элементов, каждый элемент представляет собой элемент метаданных, а каждая запись представляет собой содержимое метаданных набора данных. В этом методе хранения в базе данных метаданных имеется только один файл метаданных.Легко управлять, добавлять или удалять наборы данных, просто добавьте или удалите соответствующую запись в файле. При получении метаданных набора данных, поскольку на самом деле получается только запись данных реляционной таблицы, пользовательская система должна принять эту конкретную форму данных.因此推荐使用元数据库的方式.

    База метаданных используется для хранения метаданных, поэтомуЛучше всего выбрать основную систему управления реляционными базами данных для базы данных метаданных.. Метабаза также содержит механизмы для манипулирования и запроса метаданных. Основным преимуществом создания базы данных метаданных является предоставление унифицированной структуры данных и бизнес-правил, а также простота органической интеграции нескольких витрин данных в рамках предприятия. В настоящее время некоторые предприятия стремятся создать несколько витрин данных вместо централизованного хранилища данных.В этом случае можно рассмотреть возможность создания базы данных метаданных для описания интеграции данных и сервисных приложений перед созданием хранилища данных (или витрины данных). проделывать хорошую работу по первоначальной поддержке внедрения хранилища данных, что очень помогает при последующем развитии и обслуживании. База метаданных обеспечивает согласованность и точность данных хранилища данных и предоставляет предприятиям основу для управления качеством данных.

3. Роль метаданных

В хранилище данных основная роль метаданных заключается в следующем.

  1. Опишите, какие данные находятся в хранилище данных, и помогите аналитикам найти содержимое хранилища данных.
  2. Определите, как данные поступают в хранилище данных, в качестве руководства для агрегирования, сопоставления и очистки данных.
  3. Запишите рабочий график извлечения данных, который следует за возникновением бизнес-событий.
  4. Задокументируйте и протестируйте требования и реализацию согласованности системных данных.
  5. Оцените качество данных.

8. Схема звезды и схема снежинки

В решении бизнес-аналитики многомерного анализа, согласнотаблица фактовитаблица размеровотношения, а общие модели можно разделить на星型模型и雪花型模型. При разработке модели для логических данных следует учитывать, организованы ли данные по схеме «звезда» или по схеме «снежинка».

1. Схема звезды

Когда все таблицы измерений напрямую связаны с事实表вовремя,Вся диаграмма как звезда, поэтому модель называется звездной схемой.在这里插入图片描述 星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余, например, в таблице географических измерений есть две записи: город C в стране A, провинция B и город D в стране A, провинция B, тогдаНациональный A и провинция BИнформация хранится дважды, то есть имеет место избыточность.

2. Модель снежинки

Когда одна или несколько таблиц измерений не связаны напрямую с таблицей фактов, но связаны с таблицей фактов через другие таблицы измерений, ихДиаграмма, как несколько снежинок, соединенных вместе, поэтому она называется моделью снежинки. Схема «снежинка» является расширением схемы «звезда». Это дополнительно расслаивает таблицы измерений звездообразной схемы, и исходные таблицы измерений могут быть расширены до небольших таблиц фактов, образующих некоторые локальные таблицы.层次Регионы, эти декомпозированные таблицы связаны с основной таблицей измерений, а не с таблицей фактов. Как показано на рисунке, таблица региональных измерений разбивается на таблицы измерений, такие как страна, провинция и город. Его преимущества:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能. Структура снежинки устраняет избыточность данных.在这里插入图片描述 Из-за избыточности данных модель «звезда» не требует внешних подключений для многих статистических запросов, поэтому в целом она более эффективна, чем модель «снежинка».. Звездообразная структура не требует учета многих факторов регуляризации, а ее конструкция и реализация относительно просты. Поскольку модель «снежинка» устраняет избыточность, некоторые статистические данные необходимо генерировать посредством соединений таблиц, поэтому эффективность не обязательно выше, чем у модели «звезда». Нормализация также является относительно сложным процессом, и соответствующий дизайн структуры базы данных, ETL данных и последующее обслуживание являются более сложными.Следовательно, при условии, что избыточность приемлема, схема «звезда» используется в реальных приложениях все более и более эффективно..

3. Сравнение схемы звезды и схемы снежинки

Схема «звезда» и схема «снежинка» — это два метода, обычно используемые в хранилищах данных, и их сравнение будет обсуждаться с четырех точек зрения.

  1. Оптимизация данных 雪花模型使用的是нормализованные данные, что означает, что данные организованы в базе данных для устранения избыточности, что позволяет эффективно уменьшить объем данных. Благодаря ссылочной целостности его бизнес-иерархия и измерения сохраняются в модели данных. Сравнение,星形模型используетДенормализация данных. В звездообразной схеме измерения ссылаются непосредственно на таблицы фактов, а бизнес-иерархии не развертываются посредством ссылочной целостности между измерениями.
  2. Бизнес модель В Snow Model, модель данных уровня обслуживания состоит из первичного ключа в таблице разных измерений - внешние ключевые отношения для представляют собой. В звездной модели все необходимые измерительные таблицы только в таблице фактов имеют внешний ключ.
  3. представление Третье отличие заключается в том, что производительность отличается.雪花模型在维度表、事实表之间的连接很多,因此性能方面会比较低. Например, если вы хотите узнать подробности о пользователе, модель снежинки объединит несколько таблиц и, наконец, подведет итоги. Модель звезды имеет меньше связей, в этой модели, если вам нужна соответствующая информация, вам нужно только связать таблицу измерений и таблицу фактов.
  4. ETL Модели Snowflake загружают витрины данных, поэтому операции ETL предусмотренысложнее, и не может быть распараллелен из-за ограничений партнерской модели. Звездообразная схема загружает таблицы измерений и не требует добавления вспомогательных моделей между измерениями, поэтому ETL относительно прост и может обеспечить высокую степень распараллеливания.
  5. Суммировать Модель снежинки упрощает размерный анализ, например针对特定的广告主,有哪些客户或者公司是在线的?Звездная модель больше подходит для индикаторного анализа, такого как给定的一个客户他们的收入是多少?

Ссылаться на

Введение в хранилище данных

В этой статье используетсяmdniceнабор текста