Двухпропорциональный Z-тест в программировании на R
Z-критерий двух пропорций используется для сравнения двух наблюдаемых пропорций. Например, пусть есть две группы лиц:
- Группа А с раком легкого: n = 500.
- Группа Б, здоровые: n = 500.
Количество курильщиков в каждой группе следующее:
- Группа А с раком легкого: n = 500, 490 курильщиков, p A = 490/500 = 98.
- Группа Б, здоровые люди: n = 500, 400 курильщиков, p B = 400/500 = 80.
В этой настройке:
- Общая доля курильщиков p = frac (490 + 400) 500 + 500 = 89.
- Общая доля некурящих составляет q = 1 - p = 11.
Итак, мы хотим знать, одинаковы ли доли курильщиков в двух группах людей?
Формула двухпропорционального Z-теста
Статистику теста (также известную как z-тест) можно рассчитать следующим образом:
where,
pA: the proportion observed in group A with size nA
pB: the proportion observed in group B with size nB
p and q: the overall proportions
Реализация в R
В языке R для выполнения z-теста используется prop.test()
.
Syntax:
prop.test(x, n, p = NULL, alternative = “two.sided”, correct = TRUE)Parameters:
x = number of successes and failures in data set.
n = size of data set.
p = probabilities of success. It must be in the range of 0 to 1.
alternative = a character string specifying the alternative hypothesis.
correct = a logical indicating whether Yates’ continuity correction should be applied where possible.
Пример 1:
Предположим, у нас есть две группы учеников A и B. Группа A с ранним классом из 400 учеников с 342 ученицами. Группа B с опозданием из 400 учеников, из них 290 девушек. Используйте альфа-уровень 5%. Мы хотим знать, одинаковы ли пропорции женщин в двух группах ученицы? Здесь воспользуемся prop.test()
.
# prop Test in R prop.test (x = c (342, 290), n = c (400, 400)) |
Выход:
Двухвыборочный тест на равенство пропорций с поправкой на непрерывность данные: c (342, 290) из c (400, 400) X-квадрат = 19,598, df = 1, значение p = 9,559e-06 Альтернативная гипотеза: двусторонняя 95-процентный доверительный интервал: 0,07177443 0,18822557 примерные оценки: опора 1 опора 2 0,855 0,725
- Возвращает p-значение
- Альтернативная гипотеза
- 95% доверительный интервал
- вероятность успеха
Таким образом, в результате значение p теста на 9,558674e-06 больше, чем уровень значимости альфа. что составляет 0,05. Это означает, что между двумя пропорциями нет разницы. Теперь, если вы хотите проверить, меньше ли наблюдаемая доля женщин в группе A (p A ), чем наблюдаемая доля женщин в группе B (p B ), то команда следующая:
# prop Test in R prop.test (x = c (342, 290), n = c (400, 400), alternative = "less" ) |
Выход:
Двухвыборочный тест на равенство пропорций с поправкой на непрерывность данные: c (342, 290) из c (400, 400) X-квадрат = 19,598, df = 1, p-значение = 1 альтернативная гипотеза: меньше 95-процентный доверительный интервал: -1,0000000 0,1792664 примерные оценки: опора 1 опора 2 0,855 0,725
Если вы хотите проверить, больше ли наблюдаемая доля женщин в группе A (p A ), чем наблюдаемая доля женщин в группе (p B ), то команда следующая:
# prop Test in R prop.test (x = c (342, 290), n = c (400, 400), alternative = "greater" ) |
Выход:
Двухвыборочный тест на равенство пропорций с поправкой на непрерывность данные: c (342, 290) из c (400, 400) X-квадрат = 19,598, df = 1, значение p = 4,779e-06 альтернативная гипотеза: больше 95-процентный доверительный интервал: 0,08073363 1,0000000000 примерные оценки: опора 1 опора 2 0,855 0,725
Пример 2:
Компания ABC производит планшеты. Для контроля качества были протестированы два набора таблеток. В первой группе было обнаружено, что 32 из 700 содержат какой-либо дефект. Во второй группе у 30 из 400 обнаружен какой-либо дефект. Значительна ли разница между двумя группами? Используйте альфа-уровень 5%. Здесь воспользуемся prop.test()
.
# prop Test in R prop.test (x = c (32, 30), n = c (700, 400)) |
Выход:
Двухвыборочный тест на равенство пропорций с поправкой на непрерывность данные: c (32, 30) из c (700, 400) X-квадрат = 3,5725, df = 1, значение p = 0,05874 Альтернативная гипотеза: двусторонняя 95-процентный доверительный интервал: -0,061344109 0,002772681 примерные оценки: опора 1 опора 2 0,04571429 0,07500000
- Возвращает p-значение
- Альтернативная гипотеза
- 95% доверительный интервал
- вероятность успеха
Таким образом, в результате значение p теста на 0,0587449 больше, чем уровень значимости альфа, который составляет 0,05. Это означает, что между двумя пропорциями нет существенной разницы. Теперь, если вы хотите проверить, меньше ли наблюдаемая доля дефектов в группе 1, чем наблюдаемая доля дефектов во второй группе, то команда следующая:
# prop Test in R prop.test (x = c (32, 30), n = c (700, 400), alternative = "less" ) |
Выход:
Двухвыборочный тест на равенство пропорций с поправкой на непрерывность данные: c (32, 30) из c (700, 400) X-квадрат = 3,5725, df = 1, значение p = 0,02937 альтернативная гипотеза: меньше 95-процентный доверительный интервал: -1,000000000 -0,002065656 примерные оценки: опора 1 опора 2 0,04571429 0,07500000
Если вы хотите проверить, больше ли наблюдаемая доля дефектов в первой группе, чем наблюдаемая доля дефектов во второй группе, то используйте следующую команду:
# prop.test() in R prop.test (x = c (32, 30), n = c (700, 400), alternative = "greater" ) |
Выход:
Двухвыборочный тест на равенство пропорций с поправкой на непрерывность данные: c (32, 30) из c (700, 400) X-квадрат = 3,5725, df = 1, значение p = 0,9706 альтернативная гипотеза: больше 95-процентный доверительный интервал: -0,05650577 1,0000000000 примерные оценки: опора 1 опора 2 0,04571429 0,07500000