Анализ данных с помощью Unix - Часть 1
Чтобы понять, как работать с Unix, используется data - Weather Dataset.
Датчики погоды последовательно собирают информацию во многих областях по всему миру и собирают огромный объем журнальной информации, что является хорошей возможностью для исследования с помощью MapReduce в свете того факта, что требуется для обработки каждой информации, и эта информация является записываемой. ориентированные и полуорганизованные.
Используемая информация взята из Национального центра климатических данных или NCDC. Информация размещается с использованием группы ASCII, упорядоченной по строкам, в которой каждая строка является записью. Организация поддерживает богатый набор метеорологических компонентов, огромное количество которых является дискреционным или с переменной длиной информации. Для простоты сосредоточьтесь на основных компонентах, например температуре, которая присутствует постоянно и имеет фиксированную ширину.
Структура записи NCDC
0057 332130 # Идентификатор метеостанции USAF 99999 # Идентификатор метеостанции WBAN 19500101 # дата наблюдения 0300 # время наблюдения 4 +51317 # широта (градусы x 1000) +028783 # долгота (градусы x 1000) FM-12 +0171 # высота (метры) 99999 V020 320 # направление ветра (градусы) 1 # качественный код № 0072 1 00450 # высота потолка (метры) 1 # качественный код C N 010000 # дальность видимости (метры) 1 # качественный код N 9 -0128 # температура воздуха (градусы Цельсия x 10) 1 # качественный код -0139 # температура точки росы (градусы Цельсия x 10) 1 # качественный код 10268 # атмосферное давление (гектопаскали x 10) 1 # качественный код
Примечание. В фактическом файле, с которым мы будем работать, поля упакованы в одну строку без разделителей. Файлы данных отсортированы по дате и климатическим станциям. Существует индекс на каждый год с 1901 по 2001 год, каждый из которых содержит архивную запись для каждой климатической станции с ее показаниями за этот год.
Первые записи за 1995 год:
% ls raw / 1990 | голова 010010-99999-1995.gz 010014-99999-1995.gz 010015-99999-1995.gz 010016-99999-1995.gz 010017-99999-1995.gz 010030-99999-1995.gz 010040-99999-1995.gz 010080-99999-1995.gz 010100-99999-1995.gz 010150-99999-1995.gz
Существует бесчисленное количество климатических станций, поэтому весь набор данных состоит из огромного количества, как правило, небольших документов. Обычно проще и эффективнее обрабатывать более скромное количество, как правило, огромных записей, поэтому информация была предварительно обработана с целью, чтобы данные за каждый год были связаны в единую запись.