Hadoop - кластер, свойства и его типы

Опубликовано: 18 Февраля, 2022

Прежде чем мы начнем изучать кластер Hadoop, первое, что нам нужно знать, это то, что на самом деле означает кластер. Кластер - это совокупность чего-то, простой компьютерный кластер - это группа различных компьютеров, которые связаны друг с другом через LAN (локальную сеть), узлы в кластере совместно используют данные, работают над одной и той же задачей, и эти узлы хороши достаточно, чтобы работать как единое целое, означает, что все они работают вместе.

Точно так же кластер Hadoop также представляет собой набор различного товарного оборудования (недорогие и широко доступные устройства). Компоненты этого оборудования работают вместе как единое целое. В кластере Hadoop есть множество узлов (может быть компьютер и серверы), которые содержат ведущие и ведомые устройства, узел имени и диспетчер ресурсов работают как ведущий узел и узел данных, а диспетчер узлов работает как ведомый. Назначение главных узлов - управлять подчиненными узлами в одном кластере Hadoop. Мы разрабатываем кластеры Hadoop для хранения, анализа, понимания и поиска фактов, которые скрыты за данными или наборами данных, которые содержат важную информацию. Кластер Hadoop хранит разные типы данных и обрабатывает их.

  • Структурированные данные: данные, которые хорошо структурированы, как Mysql.
  • Полуструктурированные данные: данные, которые имеют структуру, но не имеют типа данных, например XML, Json (обозначение объекта Javascript).
  • Неструктурированные данные: данные, которые не имеют никакой структуры, например аудио, видео.

Схема кластера Hadoop:

Свойства кластеров Hadoop

1. Масштабируемость. Кластеры Hadoop очень способны увеличивать и уменьшать количество узлов, то есть серверов или стандартного оборудования. Давайте посмотрим на примере, что на самом деле означает это масштабируемое свойство. Предположим, организация хочет проанализировать или сохранить около 5 ПБ данных в течение следующих 2 месяцев, поэтому он использовал 10 узлов (серверов) в своем кластере Hadoop для хранения всех этих данных. Но теперь происходит следующее: в промежутке между этим месяцем организация получила дополнительные данные размером 2 ПБ, в этом случае организация должна настроить или обновить количество серверов в своей кластерной системе Hadoop с 10 до 12 (давайте рассмотрим) по порядку. чтобы поддерживать это. Процесс увеличения или уменьшения количества серверов в кластере Hadoop называется масштабируемостью.

2. Гибкость. Это одно из важных свойств, которыми обладает кластер Hadoop. В соответствии с этим свойством кластер Hadoop очень гибкий, что означает, что он может обрабатывать любые типы данных независимо от их типа и структуры. С помощью этого свойства Hadoop может обрабатывать любые типы данных с онлайн-веб-платформ.

3. Скорость. Кластеры Hadoop очень эффективны для работы с очень высокой скоростью, потому что данные распределяются между кластером, а также из-за возможности отображения данных, то есть архитектуры MapReduce, которая работает с явлениями Master-Slave.

4. Отсутствие потери данных. Отсутствует вероятность потери данных с любого узла в кластере Hadoop, поскольку кластеры Hadoop имеют возможность реплицировать данные на каком-либо другом узле. Таким образом, в случае отказа какого-либо узла данные не теряются, поскольку он отслеживает резервное копирование этих данных.

5. Экономичность. Кластеры Hadoop очень рентабельны, поскольку они обладают техникой распределенного хранения в своих кластерах, то есть данные распределяются в кластере между всеми узлами. Таким образом, в случае увеличения хранилища нам нужно только добавить еще одно аппаратное хранилище, что не так уж и дорого.

Типы кластеров Hadoop

1. Кластер Hadoop с одним узлом
2. Кластер Hadoop с несколькими узлами

1. Кластер Hadoop с одним узлом: в кластере Hadoop с одним узлом, как следует из названия, кластер состоит из одного узла, что означает, что все наши демоны Hadoop, то есть узел имени, узел данных, узел вторичного имени, диспетчер ресурсов, диспетчер узлов, будут работать на в той же системе или на одной машине. Это также означает, что все наши процессы будут обрабатываться только одним экземпляром процесса JVM (виртуальная машина Java).

2. Кластер Hadoop с несколькими узлами. В кластерах Hadoop с несколькими узлами, как следует из названия, он содержит несколько узлов. В этом типе кластера все наши демоны Hadoop будут храниться на разных-разных узлах в одной и той же настройке кластера. В общем, при настройке кластера Hadoop с несколькими узлами мы пытаемся использовать наши узлы более высокой обработки для Master, то есть узла Name и Resource Manager, и мы используем более дешевую систему для IENode Manager и Data Node подчиненного Daemon.