Оценка переменной | набор 2

Опубликовано: 25 Июля, 2021

Предпосылка: оценка переменной | набор 1

Термины, относящиеся к показателям изменчивости:

-> Отклонение 
-> Дисперсия
-> Стандартное отклонение
-> Среднее абсолютное отклонение
-> Меадианское абсолютное отклонение
-> Статистика заказов
-> Диапазон
-> Процентиль 
-> Межквартильный диапазон
  • Среднее абсолютное отклонение: среднее абсолютное отклонение, дисперсия и стандартное отклонение (обсуждаемые в предыдущем разделе) не устойчивы к экстремальным значениям и выбросам. Мы усредняем сумму отклонений от медианы.

    Пример :
    Последовательность: [2, 4, 6, 8] 
    Среднее = 5
    Отклонение от среднего значения = [-3, -1, 1, 3]
    
    Среднее абсолютное отклонение = (3 + 1 + 1 + 3) / 4
    




    # Median Absolute Deviation
    import numpy as np
    def mad(data):
    return np.median(np.absolute(
    data - np.median(data)))
    Sequence = [ 2 , 4 , 10 , 6 , 8 , 11 ]
    print ( "Median Absolute Deviation : " , mad(Sequence))

    Выход :

    Среднее абсолютное отклонение: 3,0
  • Статистика по порядку: этот подход к измерению изменчивости основан на разбросе ранжированных (отсортированных) данных.
  • Диапазон: это самое основное измерение, относящееся к статистике заказов. Это разница между наибольшим и наименьшим значением набора данных. Хорошо знать разброс данных, но он очень чувствителен к выбросам. Мы можем улучшить его, отказавшись от крайних значений.
    Пример :

    Последовательность: [2, 30, 50, 46, 37, 91]
    Здесь 2 и 91 - выбросы
    
    Диапазон = 91 - 2 = 89
    Диапазон без выбросов = 50 - 30 = 20
    
  • Процентиль: это очень хороший показатель для измерения изменчивости данных, избегая выбросов. P- й процентиль в данных - это такое значение, что, по крайней мере, значения P% или меньше меньше, чем оно, и, по крайней мере, значения (100 - P)% больше, чем P.
    Медиана - это 50-й процентиль данных.
    Пример :
    Последовательность: [2, 30, 50, 46, 37, 91] 
    Сортировано: [2, 30, 37, 46, 50, 91]
    
    50-й процентиль = (37 + 46) / 2 = 41,5 
    

    Код -




    # Percentile
    import numpy as np
    Sequence = [ 2 , 30 , 50 , 46 , 37 , 91 ]
    print ( "50th Percentile : " , np.percentile(Sequence, 50 ))
    print ( "60th Percentile : " , np.percentile(Sequence, 60 ))

    Выход :

    50-й процентиль: 41,5
    60-й процентиль: 46,0
  • Межквартильный диапазон (IQR): работает для ранжированных (отсортированных данных). Данные разделяются на 3 квартиля - Q1 (25- й процентиль), Q2 (50- й процентиль) и Q3 (75- й процентиль). Межквартильный диапазон - это разница между Q3 и Q1.

    Пример :

    Последовательность: [2, 30, 50, 46, 37, 91] 
    Q1 (25- й процентиль): 31,75
    Второй квартал (50- й процентиль): 41,5
    III квартал (75- й процентиль): 49
    
    IQR = Q3 - Q1 = 17,25
    

    Код - 1




    # Inter-Quartile Range
    import numpy as np
    from scipy.stats import iqr
    Sequence = [ 2 , 30 , 50 , 46 , 37 , 91 ]
    print ( "IQR : " , iqr(Sequence))

    Выход :

    IQR: 17,25
    

    Код - 2




    import numpy as np
    # Inter-Quartile Range
    iqr = np.subtract( * np.percentile(Sequence, [ 75 , 25 ]))
    print ( " IQR : " , iqr)

    Выход :

    IQR: 17,25
    

    Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

    Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.