Hadoop - Демоны и их особенности

Опубликовано: 18 Февраля, 2022

Демоны означают процесс . Демоны Hadoop - это набор процессов, выполняемых в Hadoop. Hadoop - это среда, написанная на Java, поэтому все эти процессы являются процессами Java.

Apache Hadoop 2 состоит из следующих демонов:

  • Имя Узел
  • DataNode
  • Узел вторичного имени
  • Менеджер ресурсов
  • Node Manager

Namenode, Secondary NameNode и Resource Manager работают в главной системе, в то время как Node Manager и DataNode работают на подчиненной машине.

1. NameNode

NameNode работает в главной системе. Основная цель Namenode - управлять всеми метаданными. Метаданные - это список файлов, хранящихся в нашей HDFS (распределенной файловой системе Hadoop). Как мы знаем, данные хранятся в виде блоков в кластере Hadoop. Итак, на каком DataNode или в каком месте хранится этот блок файла, упоминается в MetaData. Журнал транзакции, происходящей в кластере Hadoop, когда или кто читает или записывает данные, вся эта информация будет храниться в метаданных. Метаданные хранятся в памяти.

Функции:

  • Он никогда не сохраняет данные, которые присутствуют в файле.
  • Поскольку Namenode работает с главной системой, главная система должна иметь хорошую вычислительную мощность и больше ОЗУ, чем подчиненных.
  • он хранит информацию о DataNode, такую как их идентификатор блока и количество блоков

Как запустить Name Node?

 hadoop-daemon.sh начать namenode

Как остановить Name Node?

 hadoop-daemon.sh остановить namenode

2. DataNode

DataNode работает в системе Slave. NameNode всегда указывает DataNode на сохранение данных. DataNode - это программа, запускаемая в ведомой системе, которая обслуживает запрос чтения / записи от клиента. Поскольку данные хранятся в этом DataNode, они должны обладать высокой памятью для хранения большего количества данных.

Как запустить узел данных?

 hadoop-daemon.sh запустить узел данных

Как остановить узел данных?

 hadoop-daemon.sh остановить датанод

3. Дополнительный NameNode

Вторичный NameNode используется для ежечасного резервного копирования данных. Предположим, что в случае сбоя кластера Hadoop или его поломки вторичный Namenode будет делать ежечасную резервную копию или контрольные точки этих данных и сохранять эти данные в файле с именем fsimage . Затем этот файл был передан в новую систему, это означает, что эти метаданные назначаются этой новой системе, и с этими метаданными создается новый мастер, и кластер снова запускается правильно.
Это преимущество узла вторичного имени. Теперь в Hadoop2 у нас есть функции высокой доступности и федерации, которые минимизируют важность этого узла вторичного имени в Hadoop2.

Основная функция вторичного узла имени:

  • он объединяет журналы редактирования и Fsimage из NameNode
  • он непрерывно считывает метаданные из ОЗУ NameNode и записывает их на жесткий диск.

Поскольку вторичный NameNode отслеживает контрольную точку в распределенной файловой системе Hadoop, он также известен как узел контрольной точки.

Демон Hadoop Порт
Имя узла 50070
Узел данных 50075
Узел вторичного имени 50090

Эти порты можно настроить вручную в файлах hdfs-site.xml и mapred-site.xml .

4. Менеджер ресурсов

Диспетчер ресурсов также известен как глобальный главный демон, работающий в главной системе. Диспетчер ресурсов Управляет ресурсами приложения, работающего в кластере Hadoop. Диспетчер ресурсов в основном состоит из двух частей.


1. ApplicationsManager
2. Планировщик

Диспетчер приложений отвечает за принятие запроса для клиента, а также за создание ресурса памяти на ведомых устройствах в кластере Hadoop для размещения мастера приложений . Планировщик используется для предоставления ресурсов для приложения в кластере Hadoop и для мониторинга этого приложения.

Как запустить ResourceManager?

 yarn-daemon.sh запустить менеджер ресурсов

Как остановить ResourceManager?

 stop: yarn-daemon.sh остановить ресурс

5. Диспетчер узлов

Диспетчер узлов работает в системе ведомых устройств, которая управляет ресурсами памяти в узле и на диске памяти. В каждом подчиненном узле, кластере Hadoop, работает один демон NodeManager. Он также отправляет эту информацию мониторинга в диспетчер ресурсов.

Как запустить Node Manager?

 yarn-daemon.sh запустить nodemanager

Как остановить диспетчер узлов?

 yarn-daemon.sh остановить nodemanager

В кластере Hadoop диспетчер ресурсов и диспетчер узлов можно отслеживать с помощью определенных URL-адресов типа http: //: номер_порта.

Демон Hadoop Порт
ResourceManager 8088
NodeManager 8042

На диаграмме ниже показано, как работает Hadoop.