Различные источники данных для анализа данных

Опубликовано: 30 Мая, 2021

Сбор данных - это процесс получения, сбора, извлечения и хранения большого количества данных, которые могут быть в структурированной или неструктурированной форме, такой как текст, видео, аудио, файлы XML, записи или другие файлы изображений, используемые на более поздних этапах обработки данных. анализ.
В процессе анализа больших данных «сбор данных» является первым шагом перед началом анализа закономерностей или полезной информации в данных. Данные, которые необходимо проанализировать, должны быть собраны из разных достоверных источников.

Собранные данные известны как необработанные данные, которые сейчас бесполезны, но при очистке нечистот и использовании этих данных для дальнейшего анализа формируется информация, полученная информация известна как «знания». Знания имеют много значений, например, бизнес-знания или продажи корпоративных продуктов, лечение болезней и т. Д. Основная цель сбора данных - сбор данных, богатых информацией.

Сбор данных начинается с постановки некоторых вопросов, например, о том, какой тип данных следует собирать и каков источник сбора. Большая часть собранных данных относится к двум типам, известным как «качественные данные», которые представляют собой группу нечисловых данных, таких как слова, предложения, в основном сосредоточенные на поведении и действиях группы, а другой - «количественные данные», которые представлены в числовом формате. формы и могут быть рассчитаны с использованием различных научных инструментов и данных выборки.

Фактические данные затем делятся в основном на два типа, известные как:

  1. Первичные данные

  2. Вторичные данные

1.Первичные данные:

Необработанные, оригинальные данные, извлеченные непосредственно из официальных источников, называются первичными данными. Этот тип данных собирается непосредственно с помощью таких методов, как анкетирование, интервью и опросы. Собранные данные должны соответствовать спросу и требованиям целевой аудитории, по которой проводится анализ, в противном случае это будет бременем при обработке данных.

Несколько методов сбора первичных данных:

1. Метод интервью:

Данные, собранные в ходе этого процесса, собираются путем опроса целевой аудитории лицом, называемым интервьюером, а человек, который отвечает на интервью, известен как интервьюируемый. Некоторые основные вопросы, связанные с бизнесом или продуктом, задаются и записываются в виде заметок, аудио или видео, и эти данные сохраняются для обработки. Они могут быть как структурированными, так и неструктурированными, например личные интервью или официальные интервью по телефону, лицом к лицу, по электронной почте и т. Д.

2. Метод обследования:



Метод опроса - это процесс исследования, при котором задается список соответствующих вопросов, и ответы записываются в виде текста, аудио или видео. Метод опроса можно получить как в режиме онлайн, так и в автономном режиме, например, через формы веб-сайта и электронную почту. Затем эти ответы на опрос сохраняются для анализа данных. Примерами являются онлайн-опросы или опросы в социальных сетях.

3. Метод наблюдения:

Метод наблюдения - это метод сбора данных, при котором исследователь внимательно наблюдает за поведением и практикой целевой аудитории с помощью некоторого инструмента сбора данных и сохраняет наблюдаемые данные в форме текста, аудио, видео или любых необработанных форматов. В этом методе данные собираются напрямую, задавая участникам несколько вопросов. Например, наблюдение за группой покупателей и их поведением по отношению к товарам. Полученные данные будут отправлены на обработку.

4. Экспериментальный метод:

Экспериментальный метод - это процесс сбора данных путем проведения экспериментов, исследований и исследований. Наиболее часто используемые методы экспериментов - CRD, RBD, LSD, FD.

  • CRD - полностью рандомизированный план - это простой экспериментальный план, используемый в аналитике данных, который основан на рандомизации и репликации. В основном он используется для сравнения экспериментов.
  • RBD-Randomized Block Design - это экспериментальный план, в котором эксперимент разделен на небольшие блоки, называемые блоками. Случайные эксперименты выполняются на каждом из блоков, и результаты выводятся с использованием метода, известного как дисперсионный анализ (ANOVA). RBD возник из сельскохозяйственного сектора.
  • LSD - Latin Square Design - экспериментальный дизайн, который похож на блоки CRD и RBD, но содержит строки и столбцы. Это расположение NxN квадратов с равным количеством строк и столбцов, содержащих буквы, которые встречаются только один раз в строке. Следовательно, различия могут быть легко обнаружены с меньшим количеством ошибок в эксперименте. Судоку - это пример дизайна латинского квадрата.
  • FD-Факторный план - это экспериментальный план, в котором каждый эксперимент имеет два фактора, каждый с возможными значениями, и при выполнении следа выводятся другие комбинационные факторы.

2. Вторичные данные:

Вторичные данные - это данные, которые уже были собраны и повторно использованы для определенных целей. Этот тип данных ранее записывается из первичных данных и имеет два типа источников: внутренний источник и внешний источник.

Внутренний источник:

Эти типы данных могут быть легко найдены внутри организации, такие как рыночная запись, запись продаж, транзакции, данные клиентов, учетные ресурсы и т. Д. При получении внутренних источников затраты и время меньше.

Внешний источник:

Данные, которые не могут быть найдены во внутренних организациях и могут быть получены через внешние сторонние ресурсы, являются данными внешнего источника. Стоимость и затраты времени больше, потому что он содержит огромное количество данных. Примерами внешних источников являются правительственные публикации, новостные издания, Генеральный регистратор Индии, комиссия по планированию, международное бюро труда, синдикатные службы и другие неправительственные публикации.

Другие источники:

  • Данные датчиков: с развитием устройств IoT датчики этих устройств собирают данные, которые можно использовать для анализа данных датчиков, чтобы отслеживать производительность и использование продуктов.
  • Данные со спутников: спутники ежедневно собирают множество изображений и данных в терабайтах с помощью камер наблюдения, которые можно использовать для сбора полезной информации.
  • Веб-трафик: благодаря быстрому и дешевому интернет-оборудованию многие форматы данных, которые загружаются пользователями на различных платформах, могут быть предсказаны и собраны с их разрешения для анализа данных. Поисковые системы также предоставляют свои данные по ключевым словам и запросам, которые чаще всего используются для поиска.