Анализ тестовых данных с использованием кластеризации K-средних в Python

Опубликовано: 26 Июля, 2021

Эта статья демонстрирует иллюстрацию кластеризации K-средних на выборке случайных данных с использованием библиотеки open-cv.

Предварительные требования: Numpy, OpenCV, matplot-lib
Давайте сначала визуализируем тестовые данные с несколькими функциями, используя инструмент matplot-lib.




# importing required tools
import numpy as np
from matplotlib import pyplot as plt
# creating two test data
X = np.random.randint( 10 , 35 ,( 25 , 2 ))
Y = np.random.randint( 55 , 70 ,( 25 , 2 ))
Z = np.vstack((X,Y))
Z = Z.reshape(( 50 , 2 ))
# convert to np.float32
Z = np.float32(Z)
plt.xlabel( 'Test Data' )
plt.ylabel( 'Z samples' )
plt.hist(Z, 256 ,[ 0 , 256 ])
plt.show()

Здесь «Z» - это массив размером 100 и значениями от 0 до 255. Теперь преобразовал «z» в вектор-столбец. Это будет более полезно, когда присутствует более одной функции. Затем измените данные на тип np.float32.

Выход:

Теперь примените алгоритм кластеризации k-средних к тому же примеру, что и в приведенных выше тестовых данных, и посмотрите его поведение.
Вовлеченные шаги:
1) Сначала нам нужно установить тестовые данные.
2) Определите критерии и примените kmeans ().
3) Теперь разделите данные.
4) Наконец, постройте данные.

Выход:

Этот пример предназначен для иллюстрации того, где k-means будет создавать интуитивно возможные кластеры.

Приложения :
1) Выявление раковых данных.
2) Прогнозирование успеваемости студентов.
3) Прогноз активности лекарства.

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.