Изучение категориальных данных
Категориальная переменная / данные (или номинальная переменная):
Такие переменные принимают фиксированное и ограниченное количество возможных значений. Например, оценки, пол, группа крови и т. Д. Кроме того, в случае категориальных переменных логический порядок отличается от категориальных данных, например «один», «два», «три». Но при сортировке этих переменных используется логический порядок. Например, пол является категориальной переменной и имеет категории - мужской и женский, и нет внутреннего упорядочивания категорий. Чисто категориальная переменная - это переменная, которая просто позволяет вам назначать категории, но вы не можете четко упорядочить переменные.
Термины, относящиеся к показателям изменчивости:
- Режим: наиболее часто встречающееся значение в данных.
Пример-Data = [«Автомобиль», «Летучая мышь», «Летучая мышь», «Автомобиль», «Летучая мышь», «Летучая мышь», «Летучая мышь», «Велосипед»] Mode = "Летучая мышь"
- Ожидаемое значение: при работе в машинном обучении категории должны быть связаны с числовыми значениями, чтобы машина могла понять. Это дает среднее значение, основанное на вероятности появления категории, т. Е. Ожидаемом значении.
Он рассчитывается по --> Умножьте каждый результат на вероятность его наступления. -> Суммируйте эти значения
Таким образом, это сумма значений, умноженная на вероятность их появления, часто используется для суммирования уровней факторных переменных.

- Гистограммы: частота каждой категории отображается в виде столбцов.
Загрузка библиотек -
importmatplotlib.pyplot as pltimportnumpy as npДанные -
label=['Car','Bike','Truck','Cycle','Jeeps','Amulance']no_vehicle=[941,854,4595,2125,942,509]Данные индексации -
index=np.arange(len(label))print("Total Labels : ",len(label))print("Indexing : ", index)Выход:
Всего этикеток: 6 Индексирование: [0 1 2 3 4 5]
Гистограмма -
plt.bar(index, no_vehicle)plt.xlabel('Type', fontsize=15)plt.ylabel('No of Vehicles', fontsize=15)plt.xticks(index, label, fontsize=10, rotation=30)plt.title('Market Share for Each Genre 1995-2017')plt.show()Выход:

- Круговые диаграммы: частота каждой категории, построенная в виде круговой диаграммы или секторов. Это круговой график, где длина дуги каждого среза пропорциональна количеству, которое он представляет.
plt.figure(figsize=(8,8))plt.pie(no_vehicle, labels=label,startangle=90, autopct='%.1f %%')plt.show()Выход:

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.