Разница между PCA VS t-SNE
Анализ главных компонентов (PCA): PCA - это метод неконтролируемого уменьшения линейной размерности и визуализации данных для данных очень большой размерности. Поскольку при наличии многомерных данных очень сложно получить представление о них, это требует больших вычислительных ресурсов. Основная идея, лежащая в основе этого метода, состоит в том, чтобы уменьшить размерность данных, которые сильно коррелированы, путем преобразования исходного набора векторов в новый набор, который известен как главный компонент .
PCA пытается сохранить глобальную структуру данных, то есть при преобразовании d-мерных данных в d-мерные данные он пытается отобразить все кластеры в целом, из-за чего локальные структуры могут быть потеряны. Применение этого метода включает фильтрацию шума, извлечение признаков, прогнозы фондового рынка и анализ генных данных.
t-распределенное стохастическое вложение окрестностей (t-SNE): t-SNE также является методом неконтролируемого нелинейного уменьшения размерности и визуализации данных. Математика, лежащая в основе t-SNE, довольно сложна, но идея проста. Он вставляет точки из более высокого измерения в более низкое измерение, пытаясь сохранить окрестность этой точки.
В отличие от PCA, он пытается сохранить локальную структуру данных, минимизируя расхождение Кульбака – Лейблера (расхождение KL) между двумя распределениями относительно расположения точек на карте. Этот метод находит применение в исследованиях компьютерной безопасности, анализе музыки, раковых исследованиях, биоинформатике и обработке биомедицинских сигналов.
Таблица различий между PCA и t-SNE
С.НО. | PCA | t-SNE |
---|---|---|
1. | Это метод уменьшения линейной размерности. | Это метод нелинейного уменьшения размерности. |
2. | Он пытается сохранить глобальную структуру данных. | Он пытается сохранить локальную структуру (кластер) данных. |
3. | Он не очень хорошо работает по сравнению с t-SNE. | Это один из лучших методов уменьшения размерности. |
4. | Это не касается гиперпараметров. | Он включает в себя гиперпараметры, такие как недоумение, скорость обучения и количество шагов. |
5. | На него сильно влияют выбросы. | Он может обрабатывать выбросы. |
6. | PCA - это детерминированный алгоритм. | Это недетерминированный или рандомизированный алгоритм. |
7. | Он работает, вращая векторы для сохранения дисперсии. | Он работает за счет минимизации расстояния между точками в гуассиан. |
8. | Мы можем решить, какую дисперсию сохранить, используя собственные значения. | Мы не можем сохранить дисперсию, вместо этого мы можем сохранить расстояние, используя гиперпараметры. |