Разница между PCA VS t-SNE

Опубликовано: 22 Июля, 2021

Анализ главных компонентов (PCA): PCA - это метод неконтролируемого уменьшения линейной размерности и визуализации данных для данных очень большой размерности. Поскольку при наличии многомерных данных очень сложно получить представление о них, это требует больших вычислительных ресурсов. Основная идея, лежащая в основе этого метода, состоит в том, чтобы уменьшить размерность данных, которые сильно коррелированы, путем преобразования исходного набора векторов в новый набор, который известен как главный компонент .

PCA пытается сохранить глобальную структуру данных, то есть при преобразовании d-мерных данных в d-мерные данные он пытается отобразить все кластеры в целом, из-за чего локальные структуры могут быть потеряны. Применение этого метода включает фильтрацию шума, извлечение признаков, прогнозы фондового рынка и анализ генных данных.

t-распределенное стохастическое вложение окрестностей (t-SNE): t-SNE также является методом неконтролируемого нелинейного уменьшения размерности и визуализации данных. Математика, лежащая в основе t-SNE, довольно сложна, но идея проста. Он вставляет точки из более высокого измерения в более низкое измерение, пытаясь сохранить окрестность этой точки.

В отличие от PCA, он пытается сохранить локальную структуру данных, минимизируя расхождение Кульбака – Лейблера (расхождение KL) между двумя распределениями относительно расположения точек на карте. Этот метод находит применение в исследованиях компьютерной безопасности, анализе музыки, раковых исследованиях, биоинформатике и обработке биомедицинских сигналов.

Таблица различий между PCA и t-SNE

С.НО. PCA t-SNE
1. Это метод уменьшения линейной размерности. Это метод нелинейного уменьшения размерности.
2. Он пытается сохранить глобальную структуру данных. Он пытается сохранить локальную структуру (кластер) данных.
3. Он не очень хорошо работает по сравнению с t-SNE. Это один из лучших методов уменьшения размерности.
4. Это не касается гиперпараметров. Он включает в себя гиперпараметры, такие как недоумение, скорость обучения и количество шагов.
5. На него сильно влияют выбросы. Он может обрабатывать выбросы.
6. PCA - это детерминированный алгоритм. Это недетерминированный или рандомизированный алгоритм.
7. Он работает, вращая векторы для сохранения дисперсии. Он работает за счет минимизации расстояния между точками в гуассиан.
8. Мы можем решить, какую дисперсию сохранить, используя собственные значения.

Мы не можем сохранить дисперсию, вместо этого мы можем сохранить расстояние, используя гиперпараметры.