Двухпропорциональный Z-тест в программировании на R

Опубликовано: 30 Ноября, 2021

Z-критерий двух пропорций используется для сравнения двух наблюдаемых пропорций. Например, пусть есть две группы лиц:

Группа А с раком легкого: n = 500.
Группа Б, здоровые: n = 500.

Количество курильщиков в каждой группе следующее:

Группа А с раком легкого: n = 500, 490 курильщиков, p _A = 490/500 = 98.
Группа Б, здоровые люди: n = 500, 400 курильщиков, p _B = 400/500 = 80.

В этой настройке:

Общая доля курильщиков p = frac (490 + 400) 500 + 500 = 89.
Общая доля некурящих составляет q = 1 - p = 11.

Итак, мы хотим знать, одинаковы ли доли курильщиков в двух группах людей?

Формула двухпропорционального Z-теста

Статистику теста (также известную как z-тест) можно рассчитать следующим образом:

where,
p_A: the proportion observed in group A with size n_A
p_B: the proportion observed in group B with size n_B
p and q: the overall proportions

Реализация в R

В языке R для выполнения z-теста используется prop.test() .

Syntax:
prop.test(x, n, p = NULL, alternative = “two.sided”, correct = TRUE)
Parameters:
x = number of successes and failures in data set.
n = size of data set.
p = probabilities of success. It must be in the range of 0 to 1.
alternative = a character string specifying the alternative hypothesis.
correct = a logical indicating whether Yates’ continuity correction should be applied where possible.

Пример 1:
Предположим, у нас есть две группы учеников A и B. Группа A с ранним классом из 400 учеников с 342 ученицами. Группа B с опозданием из 400 учеников, из них 290 девушек. Используйте альфа-уровень 5%. Мы хотим знать, одинаковы ли пропорции женщин в двух группах ученицы? Здесь воспользуемся prop.test() .

 # prop Test in R
 prop.test (x = c (342, 290),
          n = c (400, 400)) 

Выход:

 Двухвыборочный тест на равенство пропорций с поправкой на непрерывность
данные: c (342, 290) из c (400, 400)
X-квадрат = 19,598, df = 1, значение p = 9,559e-06
Альтернативная гипотеза: двусторонняя
95-процентный доверительный интервал:
0,07177443 0,18822557
примерные оценки:
опора 1 опора 2  
0,855 0,725

Возвращает p-значение
Альтернативная гипотеза
95% доверительный интервал
вероятность успеха

Таким образом, в результате значение p теста на 9,558674e-06 больше, чем уровень значимости альфа. что составляет 0,05. Это означает, что между двумя пропорциями нет разницы. Теперь, если вы хотите проверить, меньше ли наблюдаемая доля женщин в группе A (p _A ), чем наблюдаемая доля женщин в группе B (p _B ), то команда следующая:

# prop Test in R 
prop.test(x = c(342, 290), 
          n = c(400, 400), 
          alternative = "less")

Выход:

Двухвыборочный тест на равенство пропорций с поправкой на непрерывность

данные: c (342, 290) из c (400, 400)
X-квадрат = 19,598, df = 1, p-значение = 1
альтернативная гипотеза: меньше
95-процентный доверительный интервал:
 -1,0000000 0,1792664
примерные оценки:
опора 1 опора 2 
 0,855 0,725

Если вы хотите проверить, больше ли наблюдаемая доля женщин в группе A (p _A ), чем наблюдаемая доля женщин в группе (p _B ), то команда следующая:

 # prop Test in R
 prop.test (x = c (342, 290),
          n = c (400, 400),
          alternative = "greater" ) 

Выход:

Двухвыборочный тест на равенство пропорций с поправкой на непрерывность

данные: c (342, 290) из c (400, 400)
X-квадрат = 19,598, df = 1, значение p = 4,779e-06
альтернативная гипотеза: больше
95-процентный доверительный интервал:
 0,08073363 1,0000000000
примерные оценки:
опора 1 опора 2 
 0,855 0,725

Пример 2:
Компания ABC производит планшеты. Для контроля качества были протестированы два набора таблеток. В первой группе было обнаружено, что 32 из 700 содержат какой-либо дефект. Во второй группе у 30 из 400 обнаружен какой-либо дефект. Значительна ли разница между двумя группами? Используйте альфа-уровень 5%. Здесь воспользуемся prop.test() .

 # prop Test in R
 prop.test (x = c (32, 30),
          n = c (700, 400)) 

Выход:

 Двухвыборочный тест на равенство пропорций с поправкой на непрерывность
данные: c (32, 30) из c (700, 400)
X-квадрат = 3,5725, df = 1, значение p = 0,05874
Альтернативная гипотеза: двусторонняя
95-процентный доверительный интервал:
-0,061344109 0,002772681
примерные оценки:
 опора 1 опора 2  
0,04571429 0,07500000

Возвращает p-значение
Альтернативная гипотеза
95% доверительный интервал
вероятность успеха

Таким образом, в результате значение p теста на 0,0587449 больше, чем уровень значимости альфа, который составляет 0,05. Это означает, что между двумя пропорциями нет существенной разницы. Теперь, если вы хотите проверить, меньше ли наблюдаемая доля дефектов в группе 1, чем наблюдаемая доля дефектов во второй группе, то команда следующая:

 # prop Test in R
 prop.test (x = c (32, 30),
          n = c (700, 400),
          alternative = "less" ) 

Выход:

Двухвыборочный тест на равенство пропорций с поправкой на непрерывность

данные: c (32, 30) из c (700, 400)
X-квадрат = 3,5725, df = 1, значение p = 0,02937
альтернативная гипотеза: меньше
95-процентный доверительный интервал:
 -1,000000000 -0,002065656
примерные оценки:
    опора 1 опора 2 
0,04571429 0,07500000

Если вы хотите проверить, больше ли наблюдаемая доля дефектов в первой группе, чем наблюдаемая доля дефектов во второй группе, то используйте следующую команду:

 # prop.test() in R
 prop.test (x = c (32, 30),
          n = c (700, 400),
          alternative = "greater" ) 

Выход:

Двухвыборочный тест на равенство пропорций с поправкой на непрерывность

данные: c (32, 30) из c (700, 400)
X-квадрат = 3,5725, df = 1, значение p = 0,9706
альтернативная гипотеза: больше
95-процентный доверительный интервал:
 -0,05650577 1,0000000000
примерные оценки:
    опора 1 опора 2 
0,04571429 0,07500000

Наука о данных R язык

Двухпропорциональный Z-тест в программировании на R

Формула двухпропорционального Z-теста

Реализация в R

РЕКОМЕНДУЕМЫЕ СТАТЬИ