Очистка данных | Вступление

Опубликовано: 13 Июля, 2021

Вступление:
Очистка данных - одна из важных частей машинного обучения. Он играет важную роль в построении модели. Очистка данных - одна из тех вещей, которые делают все, но на самом деле никто не говорит о них. Конечно, это не самая причудливая часть машинного обучения, и в то же время здесь нет никаких скрытых уловок или секретов, которые нужно раскрывать. Однако правильная очистка данных может сделать или сломать ваш проект. Профессиональные специалисты по данным обычно тратят очень большую часть своего времени на этот шаг.
Из-за убеждения в том, что «лучшие данные лучше, чем более сложные алгоритмы» .
Если у нас есть хорошо очищенный набор данных, мы можем получить желаемые результаты даже с помощью очень простого алгоритма, который иногда может оказаться очень полезным.

Очевидно, что разные типы данных потребуют разных типов очистки. Однако такой систематический подход всегда может служить хорошей отправной точкой.

Этапы очистки данных

  1. Удаление нежелательных наблюдений
    Это включает удаление повторяющихся / повторяющихся или нерелевантных значений из вашего набора данных. Во время сбора данных чаще всего возникают повторяющиеся наблюдения, а нерелевантные наблюдения - это наблюдения, которые на самом деле не соответствуют конкретной проблеме, которую вы пытаетесь решить.
    • Избыточные наблюдения в значительной степени изменяют эффективность, поскольку данные повторяются и могут складываться в правильную или неверную сторону, тем самым приводя к неверным результатам.
    • Нерелевантные наблюдения - это данные любого типа, которые нам не нужны и могут быть удалены напрямую.

  2. Исправление структурных ошибок
    Ошибки, возникающие при измерении, передаче данных или других подобных ситуациях, называются структурными ошибками. Структурные ошибки включают опечатки в названии функций, один и тот же атрибут с другим именем, неправильно обозначенные классы, т. Е. Отдельные классы, которые действительно должны быть одинаковыми, или несовместимые заглавные буквы.

    • Например, модель будет рассматривать Америку и Америку как разные классы или значения, хотя они представляют одно и то же значение или красный, желтый и красно-желтый как разные классы или атрибуты, хотя один класс может быть включен в два других класса. Итак, это некоторые структурные ошибки, которые делают нашу модель неэффективной и дают некачественные результаты.

  3. Управление нежелательными выбросами
    Выбросы могут вызвать проблемы с некоторыми типами моделей. Например, модели линейной регрессии менее устойчивы к выбросам, чем модели деревьев решений. Как правило, мы не должны удалять выбросы, пока у нас не будет законной причины для их удаления. Иногда их удаление улучшает производительность, иногда нет. Таким образом, для удаления выброса должна быть веская причина, например, подозрительные измерения, которые вряд ли будут частью реальных данных.

  4. Обработка недостающих данных
    Отсутствие данных - обманчиво сложная проблема в машинном обучении. Мы не можем просто проигнорировать или удалить недостающее наблюдение. С ними нужно обращаться осторожно, поскольку они могут указывать на что-то важное. Два наиболее распространенных способа справиться с отсутствующими данными:
    1. Удаление наблюдений с пропущенными значениями.

      Отбрасывание отсутствующих значений не является оптимальным, потому что, когда вы отбрасываете наблюдения, вы теряете информацию.

      • Тот факт, что значение отсутствовало, может быть информативным сам по себе.
      • Кроме того, в реальном мире вам часто нужно делать прогнозы на основе новых данных, даже если некоторые функции отсутствуют!

    2. Ввод недостающих значений из прошлых наблюдений.

      Вменение отсутствующих значений является неоптимальным, поскольку значение изначально отсутствовало, но вы его заполнили, что всегда приводит к потере информации, независимо от того, насколько сложен ваш метод вменения.

      • Опять же, «отсутствие» почти всегда само по себе информативно, и вы должны сообщить своему алгоритму, если значение отсутствует.
      • Даже если вы построите модель для вменения своих ценностей, вы не добавите никакой реальной информации. Вы просто усиливаете шаблоны, уже предоставленные другими функциями.

    Оба этих подхода неоптимальны, потому что отбрасывание наблюдения означает отбрасывание информации, тем самым сокращая данные, и вменение значений также неоптимально, поскольку мы сохраняем значения, которые не присутствовали в фактическом наборе данных, что приводит к потере информации.

Отсутствие данных похоже на отсутствие кусочка головоломки. Если вы его уроните, это будет похоже на вид, что слота для головоломки нет. Если вы приписываете это, это все равно, что пытаться втиснуть в пазл кусок откуда-то еще.
Таким образом, отсутствующие данные всегда информативны и указывают на что-то важное. И мы должны знать наш алгоритм пропуска данных, помечая его. Используя эту технику пометки и заполнения, вы, по сути, позволяете алгоритму оценивать оптимальную константу для отсутствия, а не просто заполнять ее средним значением.


Некоторые инструменты очистки данных

  • Openrefine
  • Trifacta Wrangler
  • TIBCO Clarity
  • Cloudingo
  • Этап качества IBM Infosphere

Заключение
Итак, мы обсудили четыре различных этапа очистки данных, чтобы сделать данные более надежными и дать хорошие результаты. После правильного выполнения шагов по очистке данных у нас будет надежный набор данных, который позволяет избежать многих наиболее распространенных ошибок. Этот шаг не следует торопить, так как он окажется очень полезным в дальнейшем процессе.