Изучение категориальных данных
Категориальная переменная / данные (или номинальная переменная):
Такие переменные принимают фиксированное и ограниченное количество возможных значений. Например, оценки, пол, группа крови и т. Д. Кроме того, в случае категориальных переменных логический порядок отличается от категориальных данных, например «один», «два», «три». Но при сортировке этих переменных используется логический порядок. Например, пол является категориальной переменной и имеет категории - мужской и женский, и нет внутреннего упорядочивания категорий. Чисто категориальная переменная - это переменная, которая просто позволяет вам назначать категории, но вы не можете четко упорядочить переменные.
Термины, относящиеся к показателям изменчивости:
- Режим: наиболее часто встречающееся значение в данных.
Пример-Data = [«Автомобиль», «Летучая мышь», «Летучая мышь», «Автомобиль», «Летучая мышь», «Летучая мышь», «Летучая мышь», «Велосипед»] Mode = "Летучая мышь"
- Ожидаемое значение: при работе в машинном обучении категории должны быть связаны с числовыми значениями, чтобы машина могла понять. Это дает среднее значение, основанное на вероятности появления категории, т. Е. Ожидаемом значении.
Он рассчитывается по --> Умножьте каждый результат на вероятность его наступления. -> Суммируйте эти значения
Таким образом, это сумма значений, умноженная на вероятность их появления, часто используется для суммирования уровней факторных переменных.
- Гистограммы: частота каждой категории отображается в виде столбцов.
Загрузка библиотек -
import
matplotlib.pyplot as plt
import
numpy as np
Данные -
label
=
[
'Car'
,
'Bike'
,
'Truck'
,
'Cycle'
,
'Jeeps'
,
'Amulance'
]
no_vehicle
=
[
941
,
854
,
4595
,
2125
,
942
,
509
]
Данные индексации -
index
=
np.arange(
len
(label))
print
(
"Total Labels : "
,
len
(label))
print
(
"Indexing : "
, index)
Выход:
Всего этикеток: 6 Индексирование: [0 1 2 3 4 5]
Гистограмма -
plt.bar(index, no_vehicle)
plt.xlabel(
'Type'
, fontsize
=
15
)
plt.ylabel(
'No of Vehicles'
, fontsize
=
15
)
plt.xticks(index, label, fontsize
=
10
, rotation
=
30
)
plt.title(
'Market Share for Each Genre 1995-2017'
)
plt.show()
Выход:
- Круговые диаграммы: частота каждой категории, построенная в виде круговой диаграммы или секторов. Это круговой график, где длина дуги каждого среза пропорциональна количеству, которое он представляет.
plt.figure(figsize
=
(
8
,
8
))
plt.pie(no_vehicle, labels
=
label,
startangle
=
90
, autopct
=
'%.1f %%'
)
plt.show()
Выход:
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.