ML | Отображение функций

Опубликовано: 25 Июля, 2021

В науке о данных одной из основных проблем является временная сложность, которая во многом зависит от количества функций. Однако в первые годы количество функций не вызывало беспокойства. Но сегодня объем данных и функций, предоставляющих информацию, увеличились в геометрической прогрессии. Следовательно, возникает необходимость найти удобные меры по сокращению количества функций. Можно с комфортом принять решение о том, что можно визуализировать. Отображение функций - это один из способов представления функций вместе с релевантностью этих функций на графике. Это обеспечивает визуализацию функций и визуальную доступность соответствующей информации. Таким образом, нерелевантные функции исключаются и включаются только релевантные.

В этой статье основное внимание уделяется графическому представлению функций.
Граф G = {V, E, W} - это структура, образованная набором точек или вершин V, набором пар точек или ребер E, каждая пара {u, v} представлена линией и весом W прикреплен к каждому ребру E. Каждый объект в наборе данных считается узлом неориентированного графа. Некоторые из этих функций не имеют отношения к делу, и их необходимо обработать, чтобы выявить их значимость в обучении, независимо от того, контролируется оно или нет. Различные методы и пороговые значения определяют оптимальный набор функций. В контексте выбора объекта вершина может представлять объект, ребро может представлять отношения между двумя объектами, а вес, прикрепленный к ребру, может представлять силу связи между двумя объектами. Взаимосвязь между двумя характеристиками - это область, открытая для различных подходов.

Коэффициент корреляции Пирсона определяет корреляцию между двумя функциями и, следовательно, их взаимосвязь. Если две функции предоставляют одну и ту же информацию, то одна из них считается потенциально избыточной, потому что классификация в конечном итоге даст один и тот же результат, независимо от того, включены ли они оба или какой-либо из них включен.


Корреляционная матрица признаков определяет связь между различными признаками. Если два объекта имеют абсолютное значение корреляции больше 0,67, то вершины, представляющие эти объекты, становятся смежными путем добавления ребра и присвоения им веса, равного значению корреляции. Связанные функции потенциально являются избыточными, поскольку они вносят одну и ту же информацию. Чтобы устранить избыточные функции из этих связанных функций, мы используем алгоритм покрытия вершин, чтобы получить минимальное покрытие вершин. Минимальное покрытие вершин дает нам минимальный набор оптимальных функций, которых достаточно, чтобы предоставить полную информацию, которая ранее была предоставлена всеми этими связанными функциями. Таким образом, мы можем уменьшить количество функций без ущерба для информационного содержания функций.

Таким образом, оптимальный набор функций актуален без избыточности и может вносить информацию в качестве исходного набора данных. Уменьшение количества функций не только снижает временную сложность, но и повышает точность классификации или кластеризации. Это связано с тем, что во многих случаях несколько функций в наборе данных полностью избыточны и отклоняют прогноз.