Принципы из десяти шагов для решения проблем с качеством данных

Большое количество данных

1. Родственные понятия

1.1 Качество данных

Степень, в которой набор неотъемлемых свойств данных удовлетворяет требованиям потребителей данных.

1) Присущие свойства данных

  • Подлинность: данные являются истинным отражением объективного мира.
  • Своевременность: то есть данные обновляются вовремя с изменениями
  • Релевантность: то есть данные — это то, что волнует потребителей данных и в чем они нуждаются.

2) Качественные данные соответствуют требованиям (с точки зрения потребителя)

  • Доступно, доступно, когда это нужно потребителям данных;
  • Своевременно, когда это требуется, данные своевременно получаются и обновляются;
  • Полный, данные полные без пропусков;
  • Безопасность, данные защищены от несанкционированного доступа и манипуляций;
  • Понятно, данные понятны и интерпретируемы;
  • Правильно, данные — это истинное отражение реального мира.

1.2 Управление качеством данных

Управление качеством данных относится к ряду действий по управлению, таких как идентификация, измерение, мониторинг и раннее предупреждение о различных проблемах с качеством данных, которые могут возникнуть на каждом этапе жизненного цикла данных от планирования, сбора, хранения, совместного использования, обслуживания, применения и прекращение деятельности, а также дальнейшее улучшение качества данных за счет улучшения и повышения уровня управления организацией.

2. Измерение оценки

Любое улучшение основано на оценке, когда известно, в чем заключается проблема, прежде чем внедрять улучшение. Обычно оценку качества данных и оценку управления необходимо измерять по следующим параметрам. Распространены следующие размеры:

1) Честность

Целостность относится к тому, является ли информация данных полной или нет. Ситуация с отсутствующими данными может заключаться в том, что вся запись данных отсутствует, или может быть так, что запись определенного поля информации в данных отсутствует. Целостность записей обычно используется для подсчета количества записей и количества уникальных значений. Целостность, с другой стороны, заключается в отсутствии данных в поле записи, которое можно проверить, используя количество NULL в статистике. Как правило, доля нулевых значений в основном постоянна.Вы также можете использовать статистическое количество нулевых значений для расчета доли нулевых значений.Если доля нулевых значений значительно увеличивается, весьма вероятно, что существует проблема с записями этого поля и отсутствует информация. В целом полноту можно измерить такими показателями, как количество записей, среднее значение, уникальные значения и процент нулей.

2) нормативный

Нормативность относится к тому, соответствует ли запись спецификации и хранится ли она в предписанном формате (например, в стандартных правилах кодирования). Нормативный аудит данных является важной и сложной частью аудита качества данных. Нормативная проверка в основном предназначена для проверки согласованности данных и определений данных, поэтому ее можно измерить по соотношению записей о соответствии. Например, диапазон значений — это данные набора перечисления, а доля данных, фактическое значение которых находится за пределами диапазона, например доля записей со значениями атрибутов, которые не соответствуют правилам кодирования с конкретными правилами кодирования .

3) Консистенция

Непротиворечивость относится к тому, являются ли данные логическими, и существует ли логическая связь между одним элементом или несколькими элементами данных в данных. Проверка непротиворечивости, проверка между атрибутами с логической взаимосвязью, например, когда атрибут А принимает определенное значение, значение атрибута В ​​должно находиться в пределах определенного диапазона данных, который можно измерить степенью соответствия.

4) Точность

Точность, мера того, какие данные и информация неверны или данные просрочены. Точность может существовать для отдельных записей или для целых наборов данных. Разница между точностью и нормативностью заключается в том, что нормативность фокусируется на соответствии, выражающем единообразие, а точность фокусируется на ошибках данных. Следовательно, та же производительность данных, например фактическое значение данных, не находится в пределах определенного диапазона, если определенный диапазон точен, а значение совершенно бессмысленно, то это ошибка данных.

Точность данных может существовать в отдельных записях или во всем наборе данных. Если есть ошибка в данных для поля всего набора данных, эту ошибку легко обнаружить, и такого рода проблему также можно найти, используя среднее значение и медиану. Когда в наборе данных есть отдельные выбросы, вы можете использовать статистику максимальных и минимальных значений для аудита или использовать блочную диаграмму, чтобы с первого взгляда сделать аномалии понятными.

Есть также несколько проблем проверки точности, проблема искаженных символов или проблема усеченных символов.Вы можете использовать распределение, чтобы найти такие проблемы.Записи общих данных в основном соответствуют нормальному распределению или квазинормальному распределению, тогда эти пропорции являются ненормальными.Маленький элементы данных, вероятно, будут проблематичными. Если данные не являются существенно аномальными, все еще возможно, что записанные значения неверны, но эти значения относительно близки к нормальным значениям.Этот тип проверки точности является наиболее сложным.Как правило, проблемы можно найти только путем сравнения с другими источниками или статистическими результатами.

5) Своевременность

Интервал времени с момента создания данных до момента их просмотра также называется временем задержки данных. Некоторый анализ в реальном времени и принятие решений требуют почасовых или минутных данных.Эти требования предъявляют чрезвычайно высокие требования к своевременности данных, поэтому своевременность также является одним из компонентов качества данных. Например, определите дату последнего поступления таблицы в каждом месяце.

6) Уникальность

Уникальность используется для измерения того, какие данные дублируются или какие атрибуты данных дублируются. Мера, которая неожиданно повторяется для определенного поля, записи или набора данных, существующих внутри или между системами.

7) Разумный

Рациональность заключается в оценке правильности данных с точки зрения бизнес-логики. Оценка может относиться к нормативной и последовательной практике.

8) Избыточность

Избыточность относится к тому, есть ли ненужная избыточность данных в многоуровневых данных.

9) Доступность

Доступность относится к простоте доступа, понимания и использования данных.

3. Влияющие факторы

Факторы, влияющие на качество данных, в основном связаны с четырьмя аспектами: информационными факторами, техническими факторами, технологическими факторами и факторами управления.

1) Информационный фактор

Основными причинами этой части проблем с качеством данных являются: описание и неправильное понимание метаданных, различные свойства измерения данных (такие как несогласованные спецификации источника данных) не гарантируются и частота изменений является несоответствующей.

2) Технические факторы

В основном это относится к проблемам с качеством данных, вызванным неисправностью каждого технического звена конкретной обработки данных. Производственные связи проблем качества данных в основном включают создание данных, сбор данных, передачу данных, загрузку данных, использование данных, обслуживание данных и другие аспекты.

3) Процесс факторов

Относится к проблемам качества данных, вызванным неправильным процессом работы системы и настройками процесса ручного управления, в основном из процесса создания системных данных, процесса передачи, процесса загрузки, процесса использования, процесса обслуживания и процесса аудита.

4) Факторы управления

Относится к проблемам с качеством данных, вызванным качеством персонала и механизмом управления. Например, отсутствие управления или дефекты управления, вызванные ненадлежащим обучением персонала, управлением персоналом, обучением или мерами поощрения и наказания.

В-четвертых, метод решения проблем качества

Вы можете следовать принципу десяти шагов ниже (эта часть взята из открытых материалов Юшуфанга).

4.1 Определение бизнес-требований и методов

Выясните, на какие предприятия влияют проблемы с качеством данных, или потому что улучшение качества данных принесет предприятию больше преимуществ для бизнеса, оцените эти бизнес-требования и отсортируйте их в соответствии с уровнем важности, поскольку цель этого улучшения качества данных с масштабом . Только проясняя бизнес-требования и методы, мы можем гарантировать, что проблемы качества данных, которые необходимо решить, связаны с бизнес-требованиями, таким образом действительно решая бизнес-проблемы.

4.2 Анализ информационной среды

Уточните определенные бизнес-требования, определите связанную информацию между бизнес-требованиями и данными, спецификациями данных, процессами, организациями и технологиями (такими как системы, программное обеспечение и т. д.), определите жизненный цикл информации, а также определите источник и объем данных. Анализируя информационную среду, он может не только помочь в последующем анализе причин, но и позволить нам иметь более полное и интуитивное понимание и понимание проблем с данными и статус-кво.

4.3 Оценка качества данных

Извлекайте данные из соответствующих источников данных, разрабатывайте параметры оценки данных на основе определенных бизнес-требований и используйте соответствующие инструменты для завершения оценки, а также точно выражайте результаты оценки качества данных в виде диаграмм или отчетов, чтобы соответствующие руководители или бизнес-персонал могли четко понимать, интуитивно понимать реальную ситуацию с качеством данных, обеспечивать, чтобы проблемы с данными были связаны с потребностями бизнеса и могли быть оценены и поддержаны соответствующими руководителями или бизнес-персоналом.

4.4 Оценка влияния на бизнес

Узнайте, как низкокачественные данные влияют на бизнес, почему это важно и какую ценность для бизнеса можно получить, устранив эти проблемы. Чем выше сложность метода оценки, тем больше времени это занимает, но это не обязательно пропорционально эффекту оценки, поэтому обратите внимание на выбор метода при оценке влияния на бизнес. Кроме того, своевременно документируйте результаты вашей оценки влияния на бизнес, чтобы со временем, даже если проблема была преуменьшена, ее можно было отследить.

4.5 Определение основной причины

Выявление основной причины проблемы с данными перед ее исправлением. Существует множество источников проблем. Однако возникновение некоторых проблем является лишь видимостью, а не обязательно первопричиной неверных данных, поэтому в процессе анализа необходимо постоянно отслеживать данные для обнаружения проблемы и определения первопричины проблемы. ; или спросите себя больше Повторите «ПОЧЕМУ» несколько раз, чтобы выяснить первопричину проблемы, чтобы проблема могла быть эффективно решена, и был достигнут эффект лечения симптомов и первопричин.

4.6 Разработка планов улучшения

Благодаря подробному анализу проблем и определению причин на предыдущих этапах на этом этапе может быть сформулирован разумный план улучшения качества данных, включая предложения по улучшению известных проблем с данными и способы предотвращения появления подобных ошибочных данных в будущем.

4.7 Предотвращение будущих ошибок данных

Согласно дизайну решения предотвратить появление ошибочных данных в будущем.

4.8 Исправление текущих ошибок данных

В соответствии с дизайном решения решить существующую проблему данных. Этот шаг больше похож на «грязную работу», но он имеет решающее значение для достижения конечной цели качества.

4.9 Внедрение контроля управления

Осуществляйте постоянный мониторинг, чтобы определить, были ли достигнуты желаемые результаты.

4.10 Сообщение о действиях и результатах

Сообщайте о результатах и ​​ходе проекта, чтобы обеспечить непрерывное продвижение всего проекта.

5. Дизайн продукта качества данных

5.1 Ценность информационных продуктов

  • Полный контрольный стандартный метод расчесывания и шаблон индексного правила.
  • Автоматизированная обработка инспекций и механизм уведомления о проблемах для достижения автоматической работы.
  • Обеспечить комплексный механизм анализа данных для ускорения решения проблем.
  • Стандартизированный процесс и система управления проблемами для точного управления каждым этапом проблемы.
  • Идеальный механизм решения проблем и обмена данными для реализации замкнутого цикла управления данными.

5.2 Процесс решения проблем

  • Определение правил: показатели качества данных
  • Выявление проблем: проверка качества данных
  • Задать вопрос: Оповещение о проблемах с качеством
  • Решение проблем: анализ проблем качества
  • Обобщение проблем: процесс управления проблемами

5.3 Основные функциональные модули

1) Оценка качества

Обеспечьте всесторонние возможности оценки качества данных, такие как воспроизводимость данных, актуальность, правильность, полнота, непротиворечивость, соответствие и т. д., чтобы проводить физические проверки данных для выявления и понимания проблем качества данных. При использовании системы оценки в качестве эталона сбор, анализ и мониторинг данных необходимы для предоставления всеобъемлющей и надежной информации о качестве данных. Установите точки сбора в ключевых точках в звене потока данных, настройте соответствующие правила сбора в соответствии с требованиями системы к качеству данных, а также соберите данные о качестве в точках сбора и выполните статистический анализ для получения отчета об анализе данных в точке сбора.

2) Проверить выполнение

Обеспечивает возможность создания настраиваемых правил измерения и методов проверки, а также обеспечивает планирование времени выполнения сценариев проверки и функцию планирования выполнения сторонних инструментов планирования.

3) Контроль качества

Система предоставляет механизм сигналов тревоги, устанавливает пороговые значения для правил или методов проверки и обеспечивает различные уровни сигналов тревоги и уведомлений для правил, которые превышают пороговые значения.

4) Управление проблемами

Обеспечьте поддержку процесса обработки проблем с данными, стандартизируйте механизмы и процедуры обработки проблем, усильте аутентификацию проблем и улучшите качество данных. С помощью системы оценки качества и системы сбора данных о качестве можно обнаружить проблемы, а затем необходимо вовремя отреагировать на обнаруженные проблемы, отследить причину проблемы и механизм ее образования, принять соответствующие меры по улучшению в соответствии с типом проблемы. проблема, и продолжайте отслеживать и проверять улучшенное качество данных.Улучшайте эффект, формируйте положительную обратную связь и добивайтесь эффекта постоянного улучшения качества данных.

Установите стандарты данных или стандарты доступа в источнике, стандартизируйте определения данных и установите процесс и систему для мониторинга качества преобразования данных во время потока данных Старайтесь решать проблемы везде, где они обнаружены, и не переносите проблемные данные на серверную часть.

5) отчет о качестве

Система предоставляет богатые API-интерфейсы для настраиваемого качества данных, включая разработку, и система имеет встроенные общие отчеты о качестве.

6) Анализ качества

Предоставляет различные возможности анализа проблем, включая анализ происхождения, анализ воздействия, анализ полной цепочки и определение основной причины проблем.

Автор: Хан Фэн

Впервые он был опубликован в личном кабинете автора «Han Feng Channel».

Источник: Технологический институт CreditEase.