Анализ данных с помощью Unix - Часть 1

Опубликовано: 16 Февраля, 2022

Чтобы понять, как работать с Unix, используется data - Weather Dataset.
Датчики погоды последовательно собирают информацию во многих областях по всему миру и собирают огромный объем журнальной информации, что является хорошей возможностью для исследования с помощью MapReduce в свете того факта, что требуется для обработки каждой информации, и эта информация является записываемой. ориентированные и полуорганизованные.

Используемая информация взята из Национального центра климатических данных или NCDC. Информация размещается с использованием группы ASCII, упорядоченной по строкам, в которой каждая строка является записью. Организация поддерживает богатый набор метеорологических компонентов, огромное количество которых является дискреционным или с переменной длиной информации. Для простоты сосредоточьтесь на основных компонентах, например температуре, которая присутствует постоянно и имеет фиксированную ширину.
Структура записи NCDC

0057
332130 # Идентификатор метеостанции USAF
99999 # Идентификатор метеостанции WBAN
19500101 # дата наблюдения
0300 # время наблюдения
4 
+51317 # широта (градусы x 1000)
+028783 # долгота (градусы x 1000)
FM-12
+0171 # высота (метры)
99999
V020
320 # направление ветра (градусы)
1 # качественный код
№ 0072
1 00450 # высота потолка (метры)
1 # качественный код
C
N 
010000 # дальность видимости (метры)
1 # качественный код
N
9 
-0128 # температура воздуха (градусы Цельсия x 10)
1 # качественный код
-0139 # температура точки росы (градусы Цельсия x 10)
1 # качественный код
10268 # атмосферное давление (гектопаскали x 10)
1 # качественный код

Примечание. В фактическом файле, с которым мы будем работать, поля упакованы в одну строку без разделителей. Файлы данных отсортированы по дате и климатическим станциям. Существует индекс на каждый год с 1901 по 2001 год, каждый из которых содержит архивную запись для каждой климатической станции с ее показаниями за этот год.

Первые записи за 1995 год:

% ls raw / 1990 | голова
010010-99999-1995.gz
010014-99999-1995.gz
010015-99999-1995.gz
010016-99999-1995.gz
010017-99999-1995.gz
010030-99999-1995.gz
010040-99999-1995.gz
010080-99999-1995.gz
010100-99999-1995.gz
010150-99999-1995.gz

Существует бесчисленное количество климатических станций, поэтому весь набор данных состоит из огромного количества, как правило, небольших документов. Обычно проще и эффективнее обрабатывать более скромное количество, как правило, огромных записей, поэтому информация была предварительно обработана с целью, чтобы данные за каждый год были связаны в единую запись.