Изучение категориальных данных

Опубликовано: 25 Июля, 2021

Категориальная переменная / данные (или номинальная переменная):

Такие переменные принимают фиксированное и ограниченное количество возможных значений. Например, оценки, пол, группа крови и т. Д. Кроме того, в случае категориальных переменных логический порядок отличается от категориальных данных, например «один», «два», «три». Но при сортировке этих переменных используется логический порядок. Например, пол является категориальной переменной и имеет категории - мужской и женский, и нет внутреннего упорядочивания категорий. Чисто категориальная переменная - это переменная, которая просто позволяет вам назначать категории, но вы не можете четко упорядочить переменные.

Термины, относящиеся к показателям изменчивости:

  • Режим: наиболее часто встречающееся значение в данных.
    Пример-
    Data = [«Автомобиль», «Летучая мышь», «Летучая мышь», «Автомобиль», «Летучая мышь», «Летучая мышь», «Летучая мышь», «Велосипед»]
    Mode = "Летучая мышь"
  • Ожидаемое значение: при работе в машинном обучении категории должны быть связаны с числовыми значениями, чтобы машина могла понять. Это дает среднее значение, основанное на вероятности появления категории, т. Е. Ожидаемом значении.
    Он рассчитывается по -

     -> Умножьте каждый результат на вероятность его наступления.
    -> Суммируйте эти значения

    Таким образом, это сумма значений, умноженная на вероятность их появления, часто используется для суммирования уровней факторных переменных.

  • Гистограммы: частота каждой категории отображается в виде столбцов.

    Загрузка библиотек -




    import matplotlib.pyplot as plt
    import numpy as np

    Данные -




    label = [ 'Car' , 'Bike' , 'Truck' , 'Cycle' , 'Jeeps' , 'Amulance' ]
    no_vehicle = [ 941 , 854 , 4595 , 2125 , 942 , 509 ]

    Данные индексации -




    index = np.arange( len (label))
    print ( "Total Labels : " , len (label))
    print ( "Indexing : " , index)

    Выход:

     Всего этикеток: 6
    Индексирование: [0 1 2 3 4 5]

    Гистограмма -




    plt.bar(index, no_vehicle)
    plt.xlabel( 'Type' , fontsize = 15 )
    plt.ylabel( 'No of Vehicles' , fontsize = 15 )
    plt.xticks(index, label, fontsize = 10 , rotation = 30 )
    plt.title( 'Market Share for Each Genre 1995-2017' )
    plt.show()

    Выход:

  • Круговые диаграммы: частота каждой категории, построенная в виде круговой диаграммы или секторов. Это круговой график, где длина дуги каждого среза пропорциональна количеству, которое он представляет.




    plt.figure(figsize = ( 8 , 8 ))
    plt.pie(no_vehicle, labels = label,
    startangle = 90 , autopct = '%.1f %%' )
    plt.show()

    Выход:

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.