Теория выборки

Опубликовано: 17 Февраля, 2022

В мире статистики самое первое, что нужно сделать перед любой оценкой, - это создать выборку из всей совокупности. Набор «Население» можно рассматривать как все дерево, из которого собираются данные, тогда как набор «Выборка» можно рассматривать как ветвь, в которой выполняется фактическое изучение наблюдений и оценок. Дерево популяций - это очень большой набор, и изучение его наблюдений может быть очень утомительным как с точки зрения времени, так и с точки зрения денег. Таким образом, чтобы сократить количество времени и ресурсов, из набора «Население» создается выборочный набор.

Процесс отбора проб :

  1. Identifying the Population set.
  2. Determination of the size of our sample set.
  3. Providing a medium for the basis of selection of samples from the Population medium.
  4. Picking out samples from the medium using one of many Sampling techniques like Simple Random, Systematic or Stratified Sampling.
  5. Checking whether the formed sample set, contains elements actually matches the different attributes of population set, without large variations in between.
  6. Checking for errors or inaccurate estimations in the formed sample set, that may or may not have occurred
  7. The set which we get after performing the above steps actually contributes to the Sample Set.

Простая иллюстрация того, как осуществляется отбор проб на основных этапах.

численность населения

Население - это совокупность переменных, элементов, сущностей, которые рассматриваются для статистического исследования. Он также известен как универсальный набор, из которого делаются фактические выводы. Набор популяций состоит из всех атрибутов рассматриваемых индивидов или элементов, но выполнение оценок для популяции - это очень истощающие ресурсы, равно как и по времени.

Пример : рассмотрим средний вес всех людей на Земле. Здесь это считается гипотетическим населением, потому что оно включает всех людей, которые когда-либо жили на Земле, включая людей, которые будут существовать в будущем, а также людей, которые жили раньше до нас. Но при таком измерении возникает аномалия, при которой не все мужчины в подносе населения наблюдаются (рассмотрим мужчин, которые будут существовать в будущем, а также мужчин, которые жили раньше и не существуют сейчас). Кроме того, выполнение статистики по выборке населения (если это гипотетически возможно) потребует много времени, а также ресурсов, что также будет исчерпывающим и неэффективным.

Таким образом, вместо этого выполняется выборка из доступной совокупности, статистические данные по ней и интерполяция выводов обо всей совокупности. Выделение подмножества упрощает задачу, поскольку время, необходимое для изучения подмножества, меньше, чем время, необходимое для тщательного изучения всего набора Population. Статистика выполняется по набору выборок, чтобы сделать выводы обо всей лотке населения. Расчеты считаются выводом для набора совокупности, поскольку он не соответствует фактическим данным набора совокупности и не свободен от ошибок. Это очевидно, поскольку набор образцов используется в качестве среднего кадра с меньшим количеством элементов и, таким образом, некоторая информация теряется. (что приводит к ошибкам).

Рамка выборки

Рамка выборки является основой среды выборки. Это совокупность всех элементов выборки, взятых для наблюдения. Иногда может случиться так, что все элементы в структуре выборки даже не участвовали в фактической статистике. В этом случае элементы, которые принимали участие в исследовании, называются Образцами, а потенциальные элементы, которые могли быть в исследовании, но не участвовали, образуют Основу выборки. Таким образом, кадр выборки - это потенциальный список элементов, по которым мы будем выполнять нашу статистику.
Создание хорошей основы выборки очень важно, потому что это поможет предсказать реакцию результата статистики на совокупность. Основа выборки - это не просто случайный набор отобранных вручную элементов, она даже состоит из идентификаторов, которые помогают идентифицировать каждый элемент в наборе.

Пример: GeeksForGeeks организовал встречу всех стажеров-компьютерщиков со всей Индии в Дели, чтобы провести статистическое исследование их выступлений. GfG разослала пригласительное письмо всем 500 из этих стажеров, но, поскольку все стажеры разбросаны по всей Индии, из 500 человек из 200 действительно пришли. Таким образом, GfG пришлось провести исследование только с 200 студентами (выборка). Но оставшиеся 300 человек, которые могли быть потенциальными кандидатами в исследовании, но решили не появляться, формируют структуру выборки.

Методы и виды отбора проб :

  1. Простая случайная выборка
  2. Систематическая выборка
  3. Стратифицированная выборка

Это наиболее широко используемые процессы отбора проб, каждый из которых имеет как свои преимущества, так и недостатки.

Рассмотрим подробнее каждый из этих методов выборки:

  1. Простая случайная выборка : простая случайная выборка - это наиболее простая форма выборки. В этом методе все элементы в популяциях сначала делятся на случайные наборы равных размеров. Случайные наборы не имеют между собой определяющих свойств, т. Е. Один набор не может быть идентифицирован из другого набора на основе некоторых конкретных идентификаторов. Таким образом, каждый элемент имеет одинаковое свойство быть выбранным.
    P (быть выбранным) =



    Основные методы использования SRS:

    • Выберите набор населения
    • Определите основу отбора проб
    • Использование генераторов случайных чисел / сеансов для выбора элемента из каждого набора.

    Простая случайная выборка

    Плюсы:

    • Менее исчерпывающий в отношении времени, поскольку это наиболее простая форма отбора проб.
    • Очень полезно для набора населения с очень небольшим количеством элементов
    • SRS можно использовать где угодно и когда угодно, даже без использования специальных генераторов случайных чисел.

    Минусы:

    • Неэффективен для больших групп населения
    • Вызывает наибольшее количество ошибок из трех упомянутых методов выборки.
    • Есть вероятность предвзятости, и тогда SRS не сможет предоставить правильный результат.
    • Не предоставляет конкретный идентификатор для разделения статистически схожих выборок.
  2. Систематическая выборка : систематическая выборка также известна как тип вероятностной выборки. Он намного точнее, чем SRS, а также процент формирования стандартных ошибок очень низкий, но не безошибочный. В этом методе, во-первых, элементы лотка для населения располагаются в соответствии с определенным порядком или схемой, известной как сортировка. Она может быть любого порядка, что полностью зависит от человека, выполняющего статистику. Сначала элементы располагаются по возрастанию, по убыванию, лексикографически или любым другим известным способом, который тестер сочтет подходящим. Хотя точка старта каждый раз должна быть случайной. После размещения элементы выборки отбираются на основе заранее определенного набора интервалов или функции.
    Пример : в случайном наборе чисел с элементами от 1 до 100. Элементы сначала сортируются в порядке возрастания или убывания. Затем предположим, что каждый 4-й элемент выбран для включения в основу выборки. Такой вид выборки известен как систематическая выборка.

    P (получения выбора) = [зависит от заказанного лотка с населением после того, как он был отсортирован]

    Основные методы использования систематической случайной выборки:

    • Мудрый выбор набора населения
    • Проверка того, будет ли систематическая выборка эффективным методом.
    • Если да, то применение метода сортировки для получения упорядоченной пары элементов совокупности.
    • Выбор периодичности выползания элементов.

    Систематический способ отбора проб

    Плюсы:

    • Точность выше, чем у SRS.
    • Стандартная вероятность ошибки меньше.
    • Нет проблем со смещением во время создания выборки.

    Минусы:

    • Не очень эффективен, когда дело доходит до времени
    • Периодичность заполнения элементов лотка может привести к абсурдным результатам.
    • Систематический отбор проб может дать либо самый точный результат, либо невозможный.
  3. Стратифицированная выборка : стратифицированная выборка - это наиболее сложный тип метода выборки из всех трех упомянутых выше методов. Это гибридный метод, касающийся как простой случайной выборки, так и систематической выборки. Это один из наиболее продвинутых доступных методов отбора проб, который дает тестеру почти точный результат. В этом методе лоток населения делится на подсегменты, также известные как страта (единичный). У каждого слоя может быть свое уникальное свойство. После разделения на разные подуровни SRS или систематическая выборка могут использоваться для создания и отбора выборок для выполнения статистики.
    Основные методы стратифицированной выборки:
    • Правильный выбор лотка для населения.
    • Проверка периодичности или любых других характеристик, чтобы их можно было разделить на разные страты.
    • Разделение лотка населения на подмножества и подгруппы на основе селективного свойства.
    • Использование SRS или систематической выборки для каждой отдельной страты для формирования основы выборки.
    • Мы даже можем применять разные методы выборки к разным подмножествам.

    Визуальное представление стратифицированной выборки.

    Плюсы:

    • Обеспечьте результаты с высокой точностью измерений.
    • Можно получить разные результаты, просто изменив метод отбора проб.
    • Этот метод также сравнивает различные страты при отборе образцов.

    Минусы:

    • Неэффективно и дорого с точки зрения ресурсов и денег.
    • Этот метод не сработает только в редких случаях, когда присутствует однородность элементов.

Эти три метода являются широко используемыми в настоящее время. У каждого из них есть как свои достоинства, так и недостатки. Итак, метод выборки нужно выбирать с умом, ведь неправильный выбор может привести к ошибочным ответам.

Вниманию читателя! Не переставай учиться сейчас. Ознакомьтесь со всеми важными концепциями теории CS для собеседований по SDE с помощью курса теории CS по доступной для студентов цене и будьте готовы к работе в отрасли.

РЕКОМЕНДУЕМЫЕ СТАТЬИ