Характеристики HDFS

Опубликовано: 30 Ноября, 2021

HDFS - один из основных компонентов Hadoop, который обеспечивает эффективный способ хранения данных в кластере Hadoop. Но прежде чем разбираться в функциях HDFS, дайте нам знать, что такое файловая система и распределенная файловая система. Мы можем сказать, что файловая система - это архитектура хранения данных, которую операционная система использует для управления файлами и их хранения. Примером файловой системы Windows является NTFS (файловая система новой технологии) и FAT32 (таблица размещения файлов 32). FAT32 используется в некоторых старых версиях Windows, но может использоваться во всех версиях Windows XP. Подобно Windows, у нас есть файловая система ext3, ext4 для ОС Linux.

Похоже, HDFS - это распределенная файловая система. DFS (распределенная файловая система) - это клиент-серверное приложение. Это позволяет клиентам получать доступ и обрабатывать данные, хранящиеся на серверах. Каждый раз, когда клиент запрашивает файл с сервера, сервер отправляет копию файла клиенту, которая затем кэшируется на компьютере клиента во время обработки данных, а затем обработанные данные возвращаются на сервер.

Давайте узнаем о HDFS на Hadoop. HDFS - это файловая система по умолчанию для Hadoop, где HDFS означает распределенную файловую систему Hadoop. Он предназначен для хранения огромного объема данных и предоставления доступа к этим данным большому количеству клиентов. Таким образом, приложение Hadoop использует HDFS в качестве основной системы хранения. HDFS похожа на файловую систему Google, которая хорошо организовала файл и хранит данные распределенным образом на различных узлах или машинах. Теперь давайте обсудим первоклассные функции HDFS, которые делают ее более удобной.

1. Быстро эксплуатируемая недорогая система, например обычное оборудование.

Распределенная файловая система Hadoop очень похожа на существующую распределенную файловую систему, но отличается в нескольких аспектах, таких как обычное оборудование. Hadoop HDFS не требует специального оборудования для хранения и обработки данных очень большого размера, скорее, она предназначена для работы на недорогих кластерах стандартного оборудования. Где кластеры - это группа компьютеров, которые связаны между собой, которые дешевы и доступны.

2. Обеспечьте высокую отказоустойчивость.

HDFS обеспечивает высокую отказоустойчивость. Отказоустойчивость достигается, когда система функционирует должным образом без потери данных, даже если некоторые аппаратные компоненты системы вышли из строя. В кластере, когда выходит из строя один узел, происходит сбой всей системы. Основная задача обеспечения отказоустойчивости - удалить такие отказавшие узлы, которые нарушают нормальное функционирование системы. По умолчанию в HDFS каждый блок данных реплицируется в 3-х узлах данных. Если узел данных выходит из строя, клиент может легко получить данные из двух других узлов данных, где данные реплицируются, следовательно, это предотвращает отказ всей системы и достигается отказоустойчивость в кластере Hadoop. HDFS достаточно гибкая, чтобы добавлять и удалять узлы данных с меньшими усилиями. Существует 3 способа достижения отказоустойчивости HDFS, т. Е. Репликация данных, контрольные сообщения, контрольные точки и восстановление.

3. Большой набор данных

В случае HDFS большой набор данных означает данные размером в сотни мегабайт, гигабайт, терабайт, а иногда даже в петабайтах. Предпочтительно использовать HDFS для файлов очень большого размера вместо использования большого количества маленьких файлов, потому что метаданные большого количества маленьких файлов занимают очень большое пространство в памяти, чем меньшее количество записей для больших файлов в узле имени. .

4. Высокая пропускная способность

HDFS разработана как система пакетной обработки с высокой пропускной способностью, а не для интерактивного использования с низкой задержкой. HDFS всегда реализует паттерн WORM, то есть однократную запись, многократное чтение. Данные неизменяемы, это означает, что после того, как данные записаны, они не могут быть изменены. Из-за чего данные в сети одинаковы. Таким образом, он может обрабатывать большие данные за заданный промежуток времени и, следовательно, обеспечивает высокую пропускную способность.

5. Местоположение данных

HDFS позволяет нам хранить и обрабатывать данные большого размера в кластере, состоящем из стандартного оборудования. Поскольку объем данных значительно велик, HDFS перемещает процесс вычислений, то есть программу Map-Reduce, в сторону данных вместо того, чтобы извлекать данные для вычислений. Это минимизирует перегрузку сети и увеличивает общую пропускную способность системы.

6. Масштабируемость

Поскольку HDFS хранит данные большого размера на нескольких узлах, поэтому, когда требования к хранению данных увеличиваются или уменьшаются, количество узлов может быть увеличено или уменьшено в кластере. Вертикальная и горизонтальная масштабируемость - это 2 различных механизма, доступных для обеспечения масштабируемости в кластере. Вертикальная масштабируемость означает добавление такого ресурса, как дисковое пространство, оперативная память на существующем узле кластера. С другой стороны, при горизонтальном масштабировании мы увеличиваем количество узлов в кластере, и это более предпочтительно, поскольку мы можем иметь сотни узлов в кластере.