Организация данных

Опубликовано: 8 Октября, 2022

Данные, собранные следователем, представлены в необработанном виде и не могут дать каких-либо осмысленных выводов; следовательно, его необходимо правильно организовать. Таким образом, процесс систематического упорядочивания собранных или необработанных данных таким образом, чтобы данные можно было легко понять, называется организацией данных. С помощью организованных данных исследователю становится удобно проводить дальнейшие статистические обработки. Исследователь также может сравнить массу подобных данных, если собранные исходные данные систематизированы.

Классификация данных

Метод организации данных для распределения необработанных данных по различным классам на основе их классификации известен как классификация данных. Другими словами, классификация данных означает преобразование необработанных данных, собранных исследователем, в статистические ряды таким образом, чтобы можно было сделать содержательные выводы.

According to Conner, “Classification is the process of arranging things (either actually or notionally) in groups or classes according to their resemblances and affinities, and gives expression to the unity of attributes that may exist amongst a diversity of individuals.”

Основываясь на определении классификации данных Коннером, можно выделить две основные особенности этого процесса:

  • Необработанные данные разделены на разные группы. Например, по семейному положению людей можно разделить на женатых, неженатых, разведенных и помолвленных.
  • Необработанные данные классифицируются на основе сходства классов. Все подобные блоки необработанных данных объединяются в один класс. Например, каждого образованного человека можно отнести к одному классу, а необразованного — к другому.

Каждая группа или подразделение необработанных данных, классифицированных на основе их сходства, известна как класс.

Например, население города можно классифицировать или сгруппировать по возрасту, образованию, доходу, полу, семейному положению и т. д., поскольку это может предоставить исследователю более точные выводы для различных целей.

Цели классификации данных

Основные цели классификации данных заключаются в следующем:

  • Кратко и просто: основной целью классификации данных является представление исходных данных в систематической, краткой и простой форме. Это поможет следователю легко и эффективно понять данные, поскольку они могут сделать на их основе осмысленные выводы.
  • Индивидуальность: благодаря классификации данных можно более отчетливо представить очевидные отличия от собранных необработанных данных.
  • Полезность: классификация данных выявляет сходство между необработанными разнообразными данными исследования, что повышает его полезность.
  • Сопоставимость: с классификацией данных можно легко сравнивать данные, а также оценивать их для различных целей.
  • Эффективность и привлекательность: классификация делает необработанные данные более привлекательными и эффективными.
  • Научная организация: процесс классификации данных облегчает надлежащую организацию необработанных данных в научной манере. Таким образом можно повысить достоверность собираемых данных.

Характеристики хорошей классификации

  • Ясность: классификация необработанных данных полезна для исследователя только тогда, когда она обеспечивает ясную и простую форму информации. Ясность здесь означает, что не должно быть никакой путаницы в отношении какого-либо элемента или части класса.
  • Полнота: классификация необработанных данных должна быть всеобъемлющей, чтобы каждый из ее элементов занимал место в каком-либо классе. Другими словами, классификация хороша, если в классах не осталось ни одного элемента.
  • Однородность: каждый элемент класса должен быть похож друг на друга. Однородность в различных элементах класса обеспечивает наилучшие результаты и дальнейшие исследования.
  • Стабильность: Стабильность в одном и том же наборе классификации данных для конкретного вида расследования имеет важное значение, поскольку она не сбивает исследователя с толку. Поэтому основа классификации данных не должна меняться при каждом расследовании.
  • Пригодность: классы в процессе классификации данных должны соответствовать мотиву запроса. Например, классификация детей города по весу, возрасту и полу для исследования уровня грамотности не имеет смысла. Данные для исследования уровня грамотности должны быть разделены на классы, такие как образованные и необразованные.
  • Эластичность: классификация данных может дать лучшие результаты только в том случае, если она эластична и, следовательно, имеет возможность для изменения, если есть какие-либо изменения в области или цели исследования.

Основа классификации

Статистическая информация может быть разделена на четыре различные категории, описанные ниже:

1. Географическая или пространственная классификация

В этой категории данные классифицируются на основе местоположения или географических различий в данных. Другими словами, географическая классификация включает в себя классификацию данных в соответствии с географическим регионом. Например, чтобы провести исследование производства хлопка в Индии, мы можем взять четыре основных центральных региона и классифицировать данные на основе этой географической классификации следующим образом:

Область, край

Производство хлопка (в кг.)

Северная Индия

2893

Южная Индия

898

Восточная Индия

2198

Западная Индия

1570

2. Хронологическая классификация

В этой категории данные классифицируются на основе времени существования, например, месяцев, недель, дней, лет, кварталов и т. д. В хронологической классификации данных данные располагаются либо в порядке убывания, либо в порядке возрастания по отношению к время как годы, месяцы, дни, недели, кварталы и т. д. Другое название хронологической классификации — временная классификация. Например, прибыль компании за три года 2010, 2011 и 2012.

Year

Profits (₹)

2010

20 Lakh

2011

50 Lakh

2012

90 Lakh

3. Качественная классификация

В этой категории данные классифицируются на основе их атрибутов или качеств. Атрибуты или качества данных включают цвет волос, пол, интеллект, религию, честность и т. д. При качественной классификации данных невозможно измерить атрибуты исследования; вместо этого можно только обнаружить, присутствует ли атрибут или нет. Далее он делится на две категории: одиночная классификация и множественная классификация.

  • Простая классификация: в простой классификации данных данные точно классифицируются на две группы. Другими словами, данные классифицируются на основе наличия или отсутствия качества. Поэтому простая классификация также известна как классификация по дихотомии. Проще говоря, этот тип классификации состоит из двух классов, где один класс содержит атрибут, а другой нет. Например, классификация студентов на основе их пола путем простой классификации их как мужчин и женщин.
  • Многообразная классификация: при многообразном сборе данных после разделения данных на две группы они затем дополнительно разделяются на основе дополнительных атрибутов или качеств в рамках изначально сформированных атрибутов. Это означает, что классификация данных может иметь разные уровни атрибутов с более чем двумя классами. Например, учащиеся класса могут быть классифицированы как мужчины или женщины. Затем их можно дополнительно классифицировать как выше среднего и ниже среднего и так далее.

4. Количественная или числовая классификация

Как следует из названия, при количественной классификации данных собранные данные классифицируются на основе числовых значений. Переменные величин в рамках количественной классификации данных можно либо оперировать, либо оценивать для дальнейшего анализа. Эти измеримые характеристики включают возраст, доход, вес, рост и т. д. Например, классификация 50 учеников в классе на основе их веса.

Вес (в кг.)

Количество студентов

30-40

10

40-50

22

50-60

8

60-70

7

70-80

3

РЕКОМЕНДУЕМЫЕ СТАТЬИ