Методы на основе близости в интеллектуальном анализе данных
Методы, основанные на близости, являются важным методом интеллектуального анализа данных. Они используются для поиска шаблонов в больших базах данных путем сканирования документов по определенным ключевым словам и фразам. Они широко распространены, поскольку не требуют дорогостоящего оборудования или большого объема памяти и эффективно масштабируются по мере увеличения размера баз данных.
Преимущества методов, основанных на близости:
- Методы на основе близости используют методы машинного обучения, в которых алгоритмы обучаются реагировать на определенные шаблоны.
- Используя случайную выборку документов, алгоритм машинного обучения анализирует используемые в них ключевые слова и фразы и делает прогнозы относительно вероятности того, что эти слова встречаются вместе во всех документах.
- Близость можно рассчитать, вычислив показатель сходства между двумя наборами обучающих данных и затем сравнив эти показатели. Затем алгоритм пытается вычислить максимальную оценку сходства для двух различных наборов обучающих элементов.
Недостатки методов , основанных на близости:
- Важные слова могут оказаться не так близко, как мы ожидали.
- Чрезмерная сегментация документов на фразы. Чтобы противостоять этим проблемам, был предложен алгоритм на основе лексической цепочки.
Методы на основе близости очень хорошо работают для поиска наборов документов, содержащих определенные слова, на основе фоновых знаний. Но производительность ограничена, если фоновые знания не были предварительно классифицированы по категориям.
Чтобы найти наборы документов, содержащих определенные категории, необходимо присвоить каждому документу категориальные значения, а затем запустить методы на основе близости к этим документам в качестве обучающих данных, надеясь на точное представление категорий.
Один из способов выявления выбросов — вычисление их расстояния от остальной части набора данных, известное как обнаружение выбросов на основе плотности.
Типы методов обнаружения выбросов на основе близости:
- Методы обнаружения выбросов на основе расстояния. Метод обнаружения выбросов на основе расстояния является статистическим методом. Такие методы обычно измеряют расстояния между отдельными точками данных и остальными их соответствующими группами. Многие подходы также имеют настраиваемый порог ошибки для определения того, когда точка является выбросом. Было разработано много методов выбросов на основе расстояния. Методы используют статистику расстояний, такую как Евклидово, Манхэттенское расстояние или расстояние Махаланобиса, для расчета расстояний между отдельными точками и обнаружения выбросов. Следующие три метода обнаружения выбросов были выбраны на основе их эффективности:
- Метод WLSMV (взвешенная минимизация наименьших квадратов)
- Метод опорных векторов (SVM),
- Метод РМСпроп.
- Методы обнаружения выбросов на основе плотности. Метод обнаружения выбросов на основе плотности используется для проверки плотности объекта и ближайших к нему объектов. Ключевые приложения этого метода используются во многих приложениях, включая обнаружение вредоносных программ, осведомленность, анализ поведения и обнаружение сетевых вторжений. Существуют некоторые ограничения методов обнаружения выбросов на основе плотности, которые эффективны до тех пор, пока не будет определено, что обнаруживаемые выбросы не обязательно являются выбросами, а являются лишь частью гораздо большего распределения данных. Ограничение использования методов обнаружения выбросов на основе плотности заключается в том, что функция плотности должна быть определена и четко понята до реализации и установки правильного значения.