Python | Как и где применить масштабирование функций?

Опубликовано: 25 Июля, 2021


Масштабирование или стандартизация функций : это этап предварительной обработки данных, который применяется к независимым переменным или характеристикам данных. Это в основном помогает нормализовать данные в определенном диапазоне. Иногда это также помогает ускорить вычисления в алгоритме.

Используемый пакет:

 sklearn.preprocessing

Импортировать:

 из sklearn.preprocessing import StandardScaler

Формула, используемая в Backend
Стандартизация заменяет значения их Z-баллами.

В основном метод Fit используется для масштабирования функций.

fit (X, y = Нет)
Вычисляет среднее значение и стандартное отклонение, которые будут использоваться для последующего масштабирования.

Зачем и где применять масштабирование функций?
Набор данных реального мира содержит функции, которые сильно различаются по величине, единицам и диапазону. Нормализация должна выполняться, когда масштаб объекта не имеет отношения к делу или вводит в заблуждение, и не следует нормализовать, когда масштаб имеет смысл.

Алгоритмы, использующие меру евклидова расстояния, чувствительны к величине. Здесь масштабирование функций помогает одинаково взвесить все функции.

Формально, если объект в наборе данных имеет большой масштаб по сравнению с другими, то в алгоритмах, где измеряется евклидово расстояние, этот крупномасштабный объект становится доминирующим и требует нормализации.

Примеры алгоритмов, для которых важно масштабирование функций
1. K-Means использует меру евклидова расстояния, здесь имеет значение масштабирование.
2. K-Nearest-Neighbours также требует масштабирования функций.
3. Анализ главных компонентов (PCA) : пытается получить функцию с максимальной дисперсией, здесь также требуется масштабирование функции.
4. Градиентный спуск : скорость вычислений увеличивается по мере того, как вычисление Theta становится быстрее после масштабирования объекта.

Примечание. Масштабирование функций не влияет на наивный байесовский анализ, линейный дискриминантный анализ и модели на основе деревьев.
Короче говоря, любой алгоритм, не основанный на расстоянии, не зависит от масштабирования признаков.

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.