Анализ данных — сводка методов обработки отсутствующих значений

анализ данных

Пропущенные значения относятся к кластеризации, группировке, цензуре или усечению данных в грубых данных из-за отсутствия информации. Это относится к тому факту, что значение одного или нескольких атрибутов в существующем наборе данных является неполным.

Существует три основных метода обработки пропущенных значений: удаление, заполнение и отсутствие обработки.

Случаи применения (python) постоянно обновляются в процессе анализа проекта.

1 удалить

Естьпростой метод удаленияивесовой метод.

Простое удаление — самый примитивный метод работы с отсутствующими значениями.

1.1 Простой метод удаления

принцип:

  • Удалить (удалить строки) записи данных (объекты, кортежи, записи) с пропущенными значениями.
  • Когда значение признака отсутствует для большинства объектов, этот признак удаляется (удаляется столбец).

преимущество:

  • Прост и удобен в реализации, очень эффективен, когда объект имеет несколько пропущенных значений атрибутов, а удаленные объекты с пропущенными значениями очень малы по сравнению с объемом данных в информационной таблице.

недостаток:

  • Это сокращение исторических данных в обмен на полноту информации, что приведет к большой трате ресурсов и сбросу большого количества информации, скрытой в этих объектах. В случае, если информационная таблица изначально содержит очень мало объектов, достаточно удаления небольшого количества объектов, чтобы серьезно повлиять на объективность информации информационной таблицы и правильность результатов, когда изменяется процент нулевых значений для каждого атрибута очень, его производительность очень плохая.

Случай:

  • В наборе данных «Титаник» функция PassengerId удалена из обучающего набора, поскольку она не имеет отношения к выживанию.
train_df = train_df.drop(['PassengerId'],axis=1)

1.2 Весовой метод

принцип:

  • Когда тип отсутствующего значения не является полностью случайным, систематическая ошибка может быть уменьшена путем взвешивания полных данных. После маркировки случаев с неполными данными присвойте разные веса случаям с полными данными Вес случаев можно получить с помощью логистической или пробит-регрессии.

преимущество:

  • Если в независимых переменных есть переменные, которые определяют оценки весов, то этот метод может эффективно уменьшить систематическую ошибку. Это не уменьшает смещения, если независимые переменные и веса не коррелируют.

недостаток:

  • Этот метод заключается в заполнении пустого значения определенным значением, чтобы заполнить информационную таблицу. Обычно на основе статистических принципов нулевое значение заполняется в соответствии с распределением значений остальных объектов в таблице решений, например, для его дополнения используется среднее значение оставшихся атрибутов. В интеллектуальном анализе данных обычно используются следующие методы дополнения: в случае нескольких отсутствующих атрибутов необходимо присвоить разные веса отсутствующим комбинациям разных атрибутов, что значительно усложнит расчет и снизит точность прогноза. взвешенный по времени метод не идеален.

2 заполнить

Этот метод заключается в заполнении пустого значения определенным значением, чтобы заполнить информационную таблицу. Обычно на основе статистических принципов нулевое значение заполняется в соответствии с распределением значений остальных объектов в таблице решений, например, для его дополнения используется среднее значение оставшихся атрибутов. В интеллектуальном анализе данных обычно используются следующие методы:

2.1 Заполнение вручную

преимущество:

  • Поскольку пользователь лучше всех знает данные, этот метод дает наименьшее отклонение в данных и может дать наилучший эффект заполнения.

недостаток:

  • Однако, как правило, этот метод требует много времени и невозможен, когда объем данных велик и имеется много нулевых значений.

2.2 Обработка значений отсутствующих атрибутов как специальных значений

Обрабатывайте нулевое значение как особое значение свойства, которое отличается от любого другого значения свойства. Например, все нулевые значения заполнены «неизвестно». Это создает еще одну интересную концепцию, которая может привести к серьезному искажению данных и обычно не рекомендуется.

2.3 Завершение среднего/моды

Разделите атрибуты в информационной таблице наЧисловые свойстваинечисловые свойстваобрабатываться отдельно.

Если нулевое значение числовое, отсутствующее значение атрибута заполняется по среднему значению атрибута во всех остальных объектах, если нулевое значение нечисловое, по принципу режима в статистике используется значение атрибут с наибольшим количеством значений во всех других объектах (то есть значение с наибольшей частотой) заполняет отсутствующее значение атрибута.

Существует аналогичный метод, называемыйЗавершитель условного среднего. В этом методе заполнение отсутствующих значений атрибута также получается путем усреднения значений атрибута в других объектах, но отличие состоит в том, что используемые для усреднения значения берутся не со всех объектов в информационной таблице , но из Получено из объекта с тем же значением атрибута решения, что и этот объект.

Базовые отправные точки этих двух методов заполнения данных одинаковы, а отсутствующие значения атрибутов дополняются возможными значениями максимальной вероятности, но конкретные методы немного отличаются. По сравнению с другими методами он использует большую часть информации из существующих данных для вывода пропущенных значений.

2.4 Вменение горячей колоды (или заполнение поблизости)

Для объекта, содержащего нулевое значение, метод заполнения горячей карточки находит наиболее похожий на него объект в полных данных, а затем заполняет значение этого похожего объекта. В разных вопросах могут использоваться разные критерии для оценки сходства. Метод концептуально прост и использует взаимосвязь между данными для нулевой оценки. Недостатком этого метода является сложность определения подобных стандартов и наличие множества субъективных факторов.

2.5 Кластеризация вменения

Наиболее типичным представителем является кластеризация K-средних.Во-первых, выборки K, наиболее близкие к выборкам с отсутствующими данными, определяются в соответствии с евклидовым расстоянием или корреляционным анализом, а значения K взвешиваются и усредняются для оценки отсутствующих данных выборки. .

Все методы вменения с одним и тем же средним значением являются методами вменения с одним значением.Разница в том, что он использует модель иерархической кластеризации для прогнозирования типа отсутствующих переменных, а затем использует среднее значение этого типа для вменения.

Предполагая, что X=(X1, X2...Xp) — переменная с полной информацией, а Y — переменная с пропущенными значениями, тогда сначала кластер X или его подмножество, а затем вменение среднего значения различных классов в соответствии с классом которым принадлежат пропавшие дела. Если введенные объясняющие переменные и Y необходимо использовать для анализа в будущем статистическом анализе, то этот метод вменения внесет в модель автокорреляцию, что создаст препятствия для анализа.

2.6 Присвоение Всех возможных значений Атрибута

Этот метод заключается в заполнении всех возможных значений атрибута вакантного значения атрибута, что может обеспечить лучший эффект заполнения. Однако, когда объем данных велик или имеется много отсутствующих значений атрибутов, вычислительные затраты очень высоки, и существует множество возможных схем тестирования.

Другой способ, принцип заполнения отсутствующих значений атрибутов тот же, разница только в возможности пробовать все значения атрибутов из одного и того же объекта решения, вместо того, чтобы пробовать все объекты в информационной таблице, это может быть в определенной степени Уменьшить стоимость оригинального метода.

2.7 Комбинаторный дополнитель

Этот метод заключается в том, чтобы попробовать все возможные значения атрибута вакантного значения атрибута и выбрать лучшее из результата сокращения конечного атрибута в качестве заполненного значения атрибута. Это метод дополнения данных с целью сокращения, который может дать хорошие результаты сокращения; однако, когда количество данных велико или имеется много отсутствующих значений атрибутов, вычислительные затраты очень высоки.

Другой метод называется Conditional Combinatorial Complete.Принцип заполнения пропущенных значений атрибутов тот же, разница в том, что в решении пробуются все значения атрибутов из одного и того же объекта.Пробуются все объекты. Метод условной комбинаторной целостности может в определенной степени снизить стоимость метода комбинаторной целостности. В тех случаях, когда информационный лист содержит большое количество неполных данных, количество возможных тестовых сценариев резко возрастает.

2.8 Регрессия

На основе полного набора данных строится уравнение регрессии (модель). Для объектов, которые содержат нулевые значения, введите оценочное значение, подставив известное значение свойства в уравнение для оценки неизвестного значения свойства. Смещенные оценки возникают, когда переменные не имеют линейной корреляции или когда предикторы сильно коррелированы.

2.9 Оценка максимального правдоподобия (Максимальное правдоподобие, ML)

При условии, что отсутствующий тип отсутствует случайным образом, предполагая, что модель верна для полной выборки, неизвестные параметры могут быть оценены по максимальному правдоподобию (Литтл и Рубин), наблюдая за маргинальным распределением данных. Этот метод также называется оценкой максимального правдоподобия с игнорированием пропущенных значений, а метод расчета, часто используемый на практике для оценки параметра максимального правдоподобия, - это максимизация ожидания (EM).

Этот метод более привлекателен, чем удаление случаев и вменение единичного значения, и у него есть важная предпосылка:Подходит для больших образцов. Количество действительных выборок достаточно, чтобы гарантировать, что оценки ML являются асимптотически несмещенными и нормально распределенными. Но этот метод может застрять в локальных экстремумах, скорость сходимости не очень высока, а расчет сложен.

2.10 Множественное вменение (MI)

Идея многозначного вменения исходит из байесовской оценки, которая считает, что вмененное значение является случайным, а его значение исходит из наблюдаемого значения. На практике интерполируемое значение обычно оценивается, а затем добавляются различные шумы для формирования нескольких наборов необязательных интерполируемых значений. В соответствии с определенной основой выбора выберите наиболее подходящее значение интерполяции.

Метод множественного вменения разделен на три этапа: ① Для каждого нулевого значения генерируется набор возможных значений вменения, которые отражают неопределенность неотвечающей модели; каждое значение может использоваться для вменения пропущенных значений, что приводит к нескольким полные наборы данных. ② Каждый набор данных вменения подвергается статистическому анализу с использованием статистических методов для полного набора данных. ③ Для результатов из каждого набора данных вменения выберите в соответствии с функцией оценки, чтобы сгенерировать окончательное значение вменения.

Идея множественного вменения и байесовского оценивания одинакова, но множественное вменение компенсирует несколько недостатков байесовского оценивания. Во-первых, байесовская оценка оценивается методом максимального правдоподобия.Метод максимального правдоподобия требует, чтобы форма модели была точной.Если форма параметра неверна, она получит неверный вывод, то есть априорное распределение повлияет на апостериорное распределение. Множественное вменение основано на теории асимптотически полных данных с большими выборками.Объем данных при интеллектуальном анализе данных очень велик, и априорное распределение минимально повлияет на результаты, поэтому априорное распределение мало влияет на результаты. Во-вторых, байесовская оценка требует знания только априорного распределения неизвестных параметров и не использует связь с параметрами. Множественное вменение, с другой стороны, оценивает совместное распределение параметров, используя взаимосвязь между параметрами.

В то же время множественное вменение сохраняет два фундаментальных преимущества одиночного вменения, а именно возможность применения методов полного анализа данных и возможность включения знаний сборщиков данных. По сравнению с одиночным вменением множественное вменение имеет три чрезвычайно важных преимущества: во-первых, для представления распределения данных для вменения выполняется случайная выборка, что повышает достоверность оценки. Во-вторых, когда множественное вменение представляет собой случайную выборку в рамках модели, простое слияние вывода полных данных дает правильный вывод прямым способом, который отражает дополнительную вариацию из-за отсутствующих значений в модели. В-третьих, простое применение подхода на основе полных данных с импутированием посредством случайной выборки в рамках нескольких моделей позволяет проводить прямое исследование чувствительности выводов в рамках различных моделей без ответа.

Множественное импутирование также имеет следующие недостатки: (1) создание множественного импутирования требует больше работы, чем одиночное импутирование; (2) хранение множественных наборов данных импутации требует больше места для хранения; (3) анализ множественных наборов данных импутации требует больше усилий, чем одиночное импутирование.

3 не обработано

Интеллектуальный анализ данных выполняется непосредственно на данных, содержащих нулевые значения. К таким методам относятся байесовские сети и искусственные нейронные сети.

Байесовские сети — это графические шаблоны, используемые для представления вероятностей связи между переменными, которые обеспечивают естественный способ представления причинно-следственной информации для обнаружения потенциальных взаимосвязей между данными. В этой сети узлы представляют переменные, а направленные ребра представляют зависимости между переменными. Байесовские сети подходят только для ситуаций, когда есть определенное понимание предметной области, по крайней мере, когда ясны зависимости между переменными. В противном случае изучение структуры байесовской сети непосредственно из данных не только имеет высокую сложность (экспоненциально возрастающую с увеличением переменных), обслуживание сети является дорогостоящим, и у нее много оценочных параметров, что приводит к высокой дисперсии системы. точность его предсказания. Когда количество пропущенных значений в каком-либо одном объекте велико, возникает опасность экспоненциального взрыва.

Искусственная нейронная сеть может эффективно работать с нулевыми значениями, но исследования искусственных нейронных сетей в этой области нуждаются в дальнейшем развитии. Ограничения методов искусственной нейронной сети в приложениях интеллектуального анализа данных

4 Резюме

Преимущества и недостатки некоторых методов и их применимых сред заключаются в следующем:

Вышеуказанные методы вменения хорошо влияют на вменение пропущенных значений, тип которых является случайным пропущенным. Два метода вменения среднего легче всего реализовать, и они часто использовались в прошлом, но они сильно влияют на выборку, особенно когда вмененное значение используется в качестве объясняющей переменной для регрессии, оценочное значение параметра отличается от реальное значение.Отклонение значений большое. Для сравнения, оценка максимального правдоподобия и множественное вменение являются двумя лучшими методами вменения.По сравнению с множественным вменением, максимальное правдоподобие не содержит неопределенных компонентов, поэтому все больше и больше людей склонны использовать множественные методы вменения.Метод интерполяции значений.

Использованная литература:blog.CSDN.net/me 352986331 Пожалуйста…