Python | Как и где применить масштабирование функций?
Масштабирование или стандартизация функций : это этап предварительной обработки данных, который применяется к независимым переменным или характеристикам данных. Это в основном помогает нормализовать данные в определенном диапазоне. Иногда это также помогает ускорить вычисления в алгоритме.
Используемый пакет:
sklearn.preprocessing
Импортировать:
из sklearn.preprocessing import StandardScaler
Формула, используемая в Backend
Стандартизация заменяет значения их Z-баллами.
В основном метод Fit используется для масштабирования функций.
fit (X, y = Нет) Вычисляет среднее значение и стандартное отклонение, которые будут использоваться для последующего масштабирования.
Зачем и где применять масштабирование функций?
Набор данных реального мира содержит функции, которые сильно различаются по величине, единицам и диапазону. Нормализация должна выполняться, когда масштаб объекта не имеет отношения к делу или вводит в заблуждение, и не следует нормализовать, когда масштаб имеет смысл.
Алгоритмы, использующие меру евклидова расстояния, чувствительны к величине. Здесь масштабирование функций помогает одинаково взвесить все функции.
Формально, если объект в наборе данных имеет большой масштаб по сравнению с другими, то в алгоритмах, где измеряется евклидово расстояние, этот крупномасштабный объект становится доминирующим и требует нормализации.
Примеры алгоритмов, для которых важно масштабирование функций
1. K-Means использует меру евклидова расстояния, здесь имеет значение масштабирование.
2. K-Nearest-Neighbours также требует масштабирования функций.
3. Анализ главных компонентов (PCA) : пытается получить функцию с максимальной дисперсией, здесь также требуется масштабирование функции.
4. Градиентный спуск : скорость вычислений увеличивается по мере того, как вычисление Theta становится быстрее после масштабирования объекта.
Примечание. Масштабирование функций не влияет на наивный байесовский анализ, линейный дискриминантный анализ и модели на основе деревьев.
Короче говоря, любой алгоритм, не основанный на расстоянии, не зависит от масштабирования признаков.
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.