Введение в уменьшение размерности

Опубликовано: 14 Июля, 2021

 

Машинное обучение: как уже говорилось в этой статье, машинное обучение - это не что иное, как область исследований, которая позволяет компьютерам «учиться», как люди, без необходимости явного программирования.

Что такое прогнозное моделирование: прогнозное моделирование - это вероятностный процесс, который позволяет нам прогнозировать результаты на основе некоторых предикторов. Эти предикторы в основном являются характеристиками, которые используются при принятии решения об окончательном результате, то есть исходе модели.

Что такое уменьшение размерности?

В задачах классификации машинного обучения часто бывает слишком много факторов, на основе которых делается окончательная классификация. Эти факторы в основном являются переменными, называемыми функциями. Чем выше количество функций, тем сложнее визуализировать обучающий набор, а затем работать над ним. Иногда большинство этих функций коррелированы и, следовательно, являются избыточными. Здесь в игру вступают алгоритмы уменьшения размерности. Снижение размерности - это процесс уменьшения количества рассматриваемых случайных величин путем получения набора основных переменных. Его можно разделить на выбор признаков и извлечение признаков.

Почему уменьшение размерности важно в машинном обучении и прогнозном моделировании?

Интуитивно понятный пример уменьшения размерности можно обсудить с помощью простой задачи классификации электронной почты, когда нам нужно классифицировать, является ли электронное письмо спамом или нет. Это может включать в себя большое количество функций, например, имеет ли электронное письмо общий заголовок, содержание электронного письма, использует ли электронное письмо шаблон и т. Д. Однако некоторые из этих функций могут перекрываться. . В другом случае проблема классификации, которая зависит как от влажности, так и от дождя, может быть сведена к одному основному признаку, поскольку оба вышеупомянутых элемента в высокой степени коррелированы. Следовательно, мы можем уменьшить количество функций в таких задачах. Проблема трехмерной классификации может быть трудной для визуализации, тогда как двумерная задача может быть отображена в простое двухмерное пространство, а одномерная задача - в простую линию. На рисунке ниже показана эта концепция, где трехмерное пространство признаков разделено на два одномерных пространства признаков, а позже, если будет обнаружено, что они коррелированы, количество объектов может быть уменьшено еще больше.

Компоненты уменьшения размерности

Есть два компонента уменьшения размерности:

  • Выбор функций: здесь мы пытаемся найти подмножество исходного набора переменных или функций, чтобы получить меньшее подмножество, которое можно использовать для моделирования проблемы. Обычно это происходит тремя способами:
    1. Фильтр
    2. Обертка
    3. Встроенный
  • Извлечение признаков: это уменьшает данные в пространстве большой размерности до пространства меньшей размерности, т. Е. Пространства с меньшим номером. размеров.

Методы уменьшения размерности.

Различные методы, используемые для уменьшения размерности, включают:

  • Анализ главных компонентов (PCA)
  • Линейный дискриминантный анализ (LDA)
  • Обобщенный дискриминантный анализ (GDA)

Снижение размерности может быть как линейным, так и нелинейным, в зависимости от используемого метода. Основной линейный метод, называемый анализом главных компонентов, или PCA, обсуждается ниже.

Анализ главных компонентов

Этот метод был введен Карлом Пирсоном. Он работает при условии, что в то время как данные в пространстве более высокого измерения отображаются на данные в пространстве более низкого измерения, дисперсия данных в пространстве более низкого измерения должна быть максимальной.

Он включает в себя следующие этапы:

  • Постройте ковариационную матрицу данных.
  • Вычислите собственные векторы этой матрицы.
  • Собственные векторы, соответствующие наибольшим собственным значениям, используются для восстановления большой доли дисперсии исходных данных.

Следовательно, у нас остается меньшее количество собственных векторов, и в процессе могла быть некоторая потеря данных. Но наиболее важные отклонения должны сохраняться оставшимися собственными векторами.

Преимущества уменьшения размерности

  • Это помогает в сжатии данных и, следовательно, уменьшает пространство для хранения.
  • Это сокращает время вычислений.
  • Это также помогает удалить избыточные функции, если таковые имеются.

Недостатки уменьшения размерности

  • Это может привести к потере некоторого количества данных.
  • PCA имеет тенденцию находить линейные корреляции между переменными, что иногда нежелательно.
  • PCA не работает в тех случаях, когда среднего и ковариации недостаточно для определения наборов данных.
  • Мы можем не знать, сколько основных компонентов нужно сохранить на практике, применяются некоторые правила большого пальца.

Эта статья предоставлена Ананней Уберой . Если вам нравится GeeksforGeeks, и вы хотели бы внести свой вклад, вы также можете написать статью с помощью provide.geeksforgeeks.org или отправить ее по электронной почте на deposit@geeksforgeeks.org. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.

Пожалуйста, напишите комментарии, если вы обнаружите что-то неправильное, или вы хотите поделиться дополнительной информацией по теме, обсужденной выше.