Оценка переменной | набор 2
Опубликовано: 25 Июля, 2021
Предпосылка: оценка переменной | набор 1
Термины, относящиеся к показателям изменчивости:
-> Отклонение -> Дисперсия -> Стандартное отклонение -> Среднее абсолютное отклонение -> Меадианское абсолютное отклонение -> Статистика заказов -> Диапазон -> Процентиль -> Межквартильный диапазон
- Среднее абсолютное отклонение: среднее абсолютное отклонение, дисперсия и стандартное отклонение (обсуждаемые в предыдущем разделе) не устойчивы к экстремальным значениям и выбросам. Мы усредняем сумму отклонений от медианы.
Пример :Последовательность: [2, 4, 6, 8] Среднее = 5 Отклонение от среднего значения = [-3, -1, 1, 3] Среднее абсолютное отклонение = (3 + 1 + 1 + 3) / 4
# Median Absolute Deviation
import
numpy as np
def
mad(data):
return
np.median(np.absolute(
data
-
np.median(data)))
Sequence
=
[
2
,
4
,
10
,
6
,
8
,
11
]
print
(
"Median Absolute Deviation : "
, mad(Sequence))
Выход :
Среднее абсолютное отклонение: 3,0
- Статистика по порядку: этот подход к измерению изменчивости основан на разбросе ранжированных (отсортированных) данных.
- Диапазон: это самое основное измерение, относящееся к статистике заказов. Это разница между наибольшим и наименьшим значением набора данных. Хорошо знать разброс данных, но он очень чувствителен к выбросам. Мы можем улучшить его, отказавшись от крайних значений.
Пример :Последовательность: [2, 30, 50, 46, 37, 91] Здесь 2 и 91 - выбросы Диапазон = 91 - 2 = 89 Диапазон без выбросов = 50 - 30 = 20
- Процентиль: это очень хороший показатель для измерения изменчивости данных, избегая выбросов. P- й процентиль в данных - это такое значение, что, по крайней мере, значения P% или меньше меньше, чем оно, и, по крайней мере, значения (100 - P)% больше, чем P.
Медиана - это 50-й процентиль данных.
Пример :Последовательность: [2, 30, 50, 46, 37, 91] Сортировано: [2, 30, 37, 46, 50, 91] 50-й процентиль = (37 + 46) / 2 = 41,5
Код -
# Percentile
import
numpy as np
Sequence
=
[
2
,
30
,
50
,
46
,
37
,
91
]
print
(
"50th Percentile : "
, np.percentile(Sequence,
50
))
print
(
"60th Percentile : "
, np.percentile(Sequence,
60
))
Выход :
50-й процентиль: 41,5 60-й процентиль: 46,0
- Межквартильный диапазон (IQR): работает для ранжированных (отсортированных данных). Данные разделяются на 3 квартиля - Q1 (25- й процентиль), Q2 (50- й процентиль) и Q3 (75- й процентиль). Межквартильный диапазон - это разница между Q3 и Q1.
Пример :
Последовательность: [2, 30, 50, 46, 37, 91] Q1 (25- й процентиль): 31,75 Второй квартал (50- й процентиль): 41,5 III квартал (75- й процентиль): 49 IQR = Q3 - Q1 = 17,25
Код - 1
# Inter-Quartile Range
import
numpy as np
from
scipy.stats
import
iqr
Sequence
=
[
2
,
30
,
50
,
46
,
37
,
91
]
print
(
"IQR : "
, iqr(Sequence))
Выход :
IQR: 17,25
Код - 2
import
numpy as np
# Inter-Quartile Range
iqr
=
np.subtract(
*
np.percentile(Sequence, [
75
,
25
]))
print
(
" IQR : "
, iqr)
Выход :
IQR: 17,25
Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.