Как рассчитать P Value?

Опубликовано: 22 Июля, 2021

P-значение , также называемое значением вероятности, является статистической мерой, используемой для определения того, принимать или отклонять нулевую гипотезу, считая, что нулевая гипотеза истинна .
Для вычисления p-значения мы проводим эксперимент и на основе наблюдений за тестовой статистикой принимаем решения, т. Е. Если показатель статистически ниже уровня значимости, нулевая гипотеза отклоняется, указывая, что нулевая гипотеза очень менее вероятно.

Как это работает?
Подумайте, есть журнал, в котором говорится, что в компании в США в среднем 12% индийских сотрудников.

    Предположения:

  • Тест-статистика: в средней компании 12% индийских сотрудников, т. Е. Μ (население) = 0,12.
  • Нулевая гипотеза (H0): в компании работают 12% индийских сотрудников.
  • Альтернативная гипотеза (Ха): более 12% индийских сотрудников работают в компании в США.
  • Уровень значимости: α = 0,05 (обычно низкое значение).
  • Пример статистики: мы берем компанию X, проверяем 50 сотрудников и обнаруживаем, что более 20% составляют индийцы.
    Мы проводим n экспериментов, и если вероятность получения статистической выборки при 12% индийских сотрудников, для n наблюдений (p-значение) меньше 0,05, мы отклоняем нулевую гипотезу и принимаем альтернативную гипотезу, в противном случае мы не отклоняем Нулевая гипотеза.
    p-значение = P (μ (образец)> 20% | H0 истинно)

Методы определения P Value

Путем моделирования
Мы моделируем ситуацию и берем образцы, которые подтверждают, что наша нулевая гипотеза верна. В приведенном выше примере мы берем 20 выборок по 50 сотрудников в каждой, и в каждой выборке 12% индийских сотрудников (нулевая гипотеза). Мы повторно отбираем 20 выборок по 50 сотрудников в каждой из собранных выше выборок.
Ниже приведены результаты моделирования:

Есть 5 образцов из 20, в которых более 20% сотрудников были индийцами.
Следовательно, значение p будет 5/20 = 0,25.
Поскольку уровень значимости составлял 5%, а после моделирования получилось значение 25%, мы не можем отклонить нулевую гипотезу.

z Статистика
Чтобы выполнить z-тест, для образцов, которые мы собираем, должны быть выполнены три условия:

  • Случайный: выборка данных должна быть чисто случайной.
  • Нормальный: данные должны быть примерно нормально распределены.
  • Независимый: выборка должна быть независимой от предыдущей, т. Е. Нам нужно выполнить выборку с заменой, или мы можем проверить, составляет ли выборка менее 10% ее генеральной совокупности.

Предполагая, что три условия соблюдены, значение z рассчитывается путем рассмотрения стандартного отклонения между статистикой выборки и долей населения.
Для теста z среднее значение не учитывается, вместо этого мы берем пропорции для вычисления значения p.

Здесь ρ (Население) = 12%, ρ (Выборка) = 20% и n = 50 (Учитывая, что ρ, т. Е. Пропорция, совпадает со средним)
Получаем, z = -0,004
Значение p получается из таблицы z для указанного выше значения z, которое составляет 0,4840, т. Е. Примерно 48%.
Поскольку уровень значимости составлял 5%, а мы получили 48%, мы не можем отклонить нулевую гипотезу.

t Статистика
В t-тесте все три условия соответствуют требованиям z-теста, т. Е. Выборка должна быть случайной, нормальной и независимой.

Здесь μ (популяция) = 12%, μ (образец) = 20%, σ (образец), т. Е. Стандартное отклонение образца должно быть 5, а n = 50.
Тогда t = -0,113
Для t-теста мы смотрим в таблицу t, чтобы найти p-значение, степень свободы (df) равна n-1, то есть 49, и мы ищем, чтобы значение в строке 49 было равно или больше t, и получить соответствующее значение y, чтобы получить значение p примерно 45%.
Поскольку p-значение составляет 45%, а у нас есть уровень значимости 5%, мы не можем отклонить нулевую гипотезу.

Note: When considering means, t-test is used, and when considering proportions, z test is used.