Изучайте большие данные с нуля — теория хранилищ данных

Большие данные

Что такое хранилище данных

база данных(DW)ЯвляетсяНабор предметно-ориентированных, интегрированных, стабильных и изменяющихся во времени данных, используемых для поддержки процессов принятия управленческих решений..

Целью создания хранилища данных является организация, понимание и систематическое использование данных для принятия стратегических решений руководством предприятия.

Характеристики хранилища данных

Хранилище данных имеет следующие характеристики:

(1) Тематический

Темы — это области, на которые обращают внимание пользователи при принятии решений об использовании хранилища данных. Хранилище данных загружает данные из нескольких бизнес-систем вместе через тему и создано для анализа каждой темы (например: пользователи, заказы, товары и т. д.), а рабочая база данных создана для поддержки различных предприятий.

(2) Интеграция

Хранилище данных будет агрегировать данные в разных базах-источниках, но это не просто копирование, а после извлечения, фильтрации, очистки, преобразования, синтеза и других работ.

(3) Стабильность энергонезависима

Данные хранилища данных создаются для анализа корпоративных данных, поэтому данные обычно хранятся в течение длительного времени после загрузки. Большая часть данных в хранилище данных представляет данные в определенное время в прошлом, которые в основном используются для запросов и анализа и не будут часто изменяться или добавляться.

(4) Мгновенные изменения во времени

Хранилище данных хранит исторические данные, куда регулярно поступают новые данные из действующих прикладных систем. Следовательно, данные в хранилище данных обычно имеют временное измерение. Хранилище данных фактически записывает каждый момент работы системы, и связывает их для формирования анимации (то есть набора моментальных снимков хранилища данных) через транзиент, чтобы воспроизвести весь процесс движения системы при анализе данных.

Зачем использовать хранилище данных

Обычно данные хранилища данных поступают из различных систем бизнес-приложений, а затем данные в бизнес-системе находятся в различных формах, которые могут быть структурированными данными в реляционных базах данных, таких как Oracle, MySQL и SQL Server, или могут быть плоскостями, такими как как текст и CSV Неструктурированные данные в файлах или документах Word, Excel и, возможно, полуструктурированные данные с самоописанием, такие как HTML, XML и т. д. Эти данные обрабатываются с помощью рядаизвлечение данных,конвертировать,уборка, и, наконец, загружаются в хранилище данных в едином формате. Данные в хранилище данных используются в качестве источника данных для анализа и предоставляются следующимто есть запрос,система анализа,витрина данных,Система отчетности,система интеллектуального анализа данныхЖдать.

Использование хранилища данных имеет следующие преимущества:

  • Интегрируйте несколько источников данных в единое хранилище данных, чтобы данные можно было представлять с помощью единого механизма запросов данных.
  • Устраняет проблемы с конфликтами ресурсов, возникающие при выполнении больших запросов к транзакционным базам данных.
  • Сохраняйте исторические данные.
  • Благодаря интеграции данных из нескольких исходных систем создается единое центральное представление с точки зрения всего предприятия.
  • Повысьте качество данных, уменьшив или исправив проблемы с неверными данными, предоставив согласованное кодирование и описание.
  • Последовательно представлять организационную информацию.
  • Предоставляет единую общую модель данных для всех данных, независимо от источника данных.
  • Реструктурируйте данные, чтобы сделать их более значимыми для бизнеса.
  • Обеспечьте превосходную производительность сложных аналитических запросов, не влияя на операционные системы.
  • Проще разработать запросы для принятия решений.

Разница между хранилищем данных и традиционной базой данных

Хотя хранилище данных разработано на основе традиционной системы баз данных, между ними все же есть много различий.

система хранения данных

Система хранилища данных использует хранилище данных в качестве ядра, интегрирует различные прикладные системы и обеспечивает надежную платформу для унифицированного анализа исторических данных.Интеллектуальный анализ данных завершает извлечение информации для удовлетворения потребностей принятия решений.

Вся система хранилища данных разделена на: уровень исходных данных, уровень хранения и управления данными, уровень сервера OLAP, уровень инструментов внешнего анализа.

数据仓库系统体系结构

Компоненты системы хранилища данных:

  • база данных: Хранилище данных является ядром всей среды хранилища данных, местом, где хранятся данные, и обеспечивает поддержку извлечения данных. Он поддерживает хранение и быстрый поиск массивных данных.
  • Инструмент извлечения: инструмент извлечения извлекает данные из различных источников данных, очищает и преобразовывает их, а затем сохраняет в хранилище данных.
  • метаданные: Метаданные — это данные, которые описывают структуру, расположение и метод создания данных в хранилище данных. Управление хранилищем данных с помощью метаданных и использование хранилища данных с помощью метаданных.
  • витрина данных: киоск данных — это подмножество полного хранилища данных.Для конкретной цели приложения или диапазона приложений часть данных, независимая от хранилища данных, также может называться данными отдела или предметными данными. Его цель — сократить объем обработки данных и сделать использование информации более быстрым и гибким.
  • OLAP-сервис: Предоставляет возможность анализировать данные, хранящиеся в хранилище данных, может быстро запрашивать и объединять сложные данные, а также помогает пользователям анализировать различные измерения в многомерных данных.
  • Интерфейсные инструменты: в основном включают в себя различные инструменты отчетности, инструменты запросов, инструменты анализа данных, инструменты интеллектуального анализа данных и различные инструменты разработки приложений на основе хранилища данных или витрины данных.

ETL

ETL используется для описанияизвлечение данных,очистка конверсияа такженагрузкапроцесс. ETL интегрирует и улучшает качество данных по единым правилам, что представляет собой процесс преобразования данных из источника данных в целевое хранилище данных (ХД). ETL — это сердце и душа BI/хранилищ данных.

1. Извлечение данных

Извлечение данных — это процесс извлечения данных из различных источников данных и их сохранения в хранилище оперативных данных (ODS).

2. Очистка и преобразование данных

Очистка и преобразование данных относится к преобразованию извлеченных данных в соответствии с заранее разработанными правилами, чтобы можно было унифицировать исходно разнородные форматы данных.

Преобразования очистки данных включаютОчистка данныха такжеконверсия данныхдва процесса.

  • Очистка данныхЭто относится к операции заполнения пустых данных и отсутствующих данных, а также к замене недопустимых данных для обеспечения правильности данных.

  • конверсия данныхЭто относится к интеграции, разделению и преобразованию данных.

    • Интеграция данныхЭто относится к комбинации нескольких фрагментов данных, которые могут иметь потенциальные связи между различными типами данных посредством ассоциации с несколькими таблицами.Благодаря интеграции данных измерения данных обогащаются, что способствует обнаружению более ценной информации.
    • разделение данныхЭто относится к разбиению данных в соответствии с определенными правилами и разбиению одной части данных на несколько частей.
    • преобразование данныхОтносится к преобразованию строк и столбцов данных, сортировке, изменению серийных номеров и удалению повторяющихся записей.

3. Загрузка данных

Загрузка данных означает загрузку очищенных и преобразованных данных в хранилище данных. Основные способы загрузки данных:

  • Инкрементальная загрузка
    • Метод метки времени
    • таблица журналов
    • полное сравнение таблиц
  • полная нагрузка
    • Полное удаление таблицы, а затем метод вставки

витрина данных

витрина данных(витрина данных) — это подмножество полного хранилища данных.Для конкретной цели приложения или области применения часть данных, независимая от хранилища данных, также может стать данными отдела или предметными данными. Хранилище данных формально состоит из всех его витрин данных. И каждая витрина данных должна быть скоординирована для удовлетворения потребностей всего предприятия в анализе и принятии решений.

Создание витрин данных и хранилищ данных, как правило, с использованием "сверху вниз" и "вверх дном» Объединение дизайнерских идей.

Разница между хранилищем данных и киоском данных

  • Хранилища данных предоставляют данные различным витринам данных. Первый — на уровне предприятия и имеет большой масштаб, а второй — на уровне отдела и относительно небольшой.
  • Витрины данных нескольких отделов образуют хранилище данных. Цикл разработки киоска данных короткий и быстрый, а цикл разработки хранилища данных длинный. медленный.
  • На основании анализа характеристик данных структура данных в хранилище данных принимает нормализованную схему, а данные в витрине данных принимают звездообразную схему. Обычно степень детализации данных в хранилище данных выше, чем в киоске данных.

OLTP vs OLAP

OLTP

OLTP (онлайн-обработка транзакций) — одно из важных приложений традиционных реляционных баз данных, в основном для базовой и ежедневной обработки транзакций, с относительно высокими требованиями к эффективности отклика.

OLTP управляется событиями и ориентирована на приложения.

Основные возможности OLTP:

  • Очень высокие требования к времени отклика;

  • Количество пользователей очень велико, в основном это операторы;

  • Различные операции базы данных основаны на индексах;

  • Транзакции к базе данных определяются реализацией, запрос прост и обычно не включает операции соединения нескольких таблиц.

OLAP

OLAP (онлайн-аналитическая обработка) — это технология многомерного анализа, которая используется для удовлетворения аналитических потребностей пользователей, принимающих решения, для изучения регулярности деловой активности и тенденций рыночных операций с разных точек зрения в большом объеме бизнес-данных и помочь им в принятии стратегических решений в области развития.

OLAP-системы можно разделить на:

  • ROLAP: Храните многомерные данные для анализа в реляционной базе данных и выборочно определяйте набор представлений в соответствии с потребностями приложения. Представления также хранятся в реляционной базе данных.
  • MOLAP: Физически хранить многомерные данные для OLAP-анализа в виде многомерных массивов, образующих структуру «куб».
  • HOLAP: органично сочетая две структуры MOLAP и ROLAP, он может удовлетворить различные сложные потребности пользователей в анализе.

Инструменты OLAP — это онлайн-доступ к данным и анализ для конкретных проблем, которые анализируют, запрашивают и сообщают данные многомерным способом.

Многомерный анализ относится к выполнению различных аналитических действий, таких как нарезка, переключение, сверление и вращение данных, организованных в многомерной форме, для анализа данных, чтобы пользователи могли наблюдать за данными в базе данных под разными углами и с разных сторон. обеспечивает глубокое понимание информации, содержащейся в данных.

  • развернуть: изменение уровня измерения и степени детализации анализа. включать:
    • Детализация: Обобщите подробные данные низкого уровня до сводных данных высокого уровня по измерению или уменьшите количество измерений.
    • Детализация: переход от сводных данных к подробным данным для просмотра или добавления новых измерений.
  • Разрезать и переключать: После выбора значений по некоторым измерениям позаботьтесь о распределении данных измерений по остальным измерениям. Если осталось только два измерения — это срез, если три — это переключатель.
  • вращать: изменить направление измерения, т. е. изменить расположение измерения в таблице (например, поменять местами строки и столбцы).

OLTP против OLAP

-- END -- Добро пожаловать, нажмите и удерживайте изображение, чтобы подписаться на общедоступный номерDigNew


Рекомендуемое чтение: