Учебник по Hadoop

Опубликовано: 6 Октября, 2022

Большие данные — это совокупность данных, которые растут в геометрической прогрессии, они огромны по объему и очень сложны, поскольку поступают из различных ресурсов. Эти данные могут быть структурированными, неструктурированными или частично структурированными. Таким образом, чтобы эффективно справляться с ним или управлять им, на сцену выходит Hadoop.

Hadoop — это фреймворк, написанный на языке программирования Java, который работает с набором стандартного оборудования. До Hadoop мы использовали единую систему для хранения и обработки данных. Кроме того, мы зависим от СУБД, которая хранит только структурированные данные. Чтобы решить проблему таких огромных сложных данных, Hadoop предлагает лучшее решение. Итак, приступим.

Темы:

  • Основы
  • Установка и настройка среды
  • Компоненты Hadoop
  • Кластер, стойка и планировщики
  • HDFS
  • Уменьшение карты
  • Программы MapReduce
  • Потоковая передача Hadoop
  • Файл и команды Hadoop
  • Разное


Основы

  • Что такое большие данные?
  • Что такое неструктурированные данные?
  • Что такое полуструктурированные данные?
  • 5V больших данных
  • Hadoop — решение для больших данных
  • Эволюция Hadoop
  • Различные версии Hadoop
  • РСУБД против Hadoop
  • Архитектура Hadoop
  • Hadoop 2.x против Hadoop 3.x
  • Hadoop — Экосистема

Установка и настройка среды

  • Как установить Hadoop в Linux?
  • Установка и настройка Hadoop в Windows 10
  • Установка кластера Hadoop с одним узлом в Windows
  • Настройка Eclipse с помощью Apache Hadoop

Компоненты Hadoop

  • Распределенная файловая система Hadoop (HDFS)
  • Уменьшение карты
  • ПРЯЖА

Кластер, стойка и планировщики

  • Кластер Hadoop
  • Hadoop — кластер, свойства и его типы
  • Hadoop — стойка и осведомленность о стойке
  • Hadoop — планировщики и типы планировщиков
  • Hadoop — разные режимы работы

HDFS

  • Различные файловые системы в Hadoop
  • Почему блок в HDFS такой большой?
  • Демоны и их особенности
  • Файловые блоки и коэффициент репликации
  • Операция чтения данных

Уменьшение карты

  • Сокращение карты в Hadoop
  • Архитектура MapReduce
  • Картограф в MapReduce
  • Редуктор в Map-Reduce
  • Выполнение задания MapReduce
  • Hadoop MapReduce — поток данных
  • Инициализация заданий в MapReduce
  • Как работа работает на MapReduce?
  • Как MapReduce выполняет задачу?

Программы MapReduce

  • Анализ данных о погоде для анализа жарких и холодных дней
  • Определение среднего возраста мужчин и женщин, погибших в результате катастрофы на Титанике
  • Как выполнить программу подсчета символов в MapReduce Hadoop?

Потоковая передача Hadoop

  • Что такое потоковая передача Hadoop?
  • Потоковая передача Hadoop с использованием Python — проблема подсчета слов

Файл и команды Hadoop

  • Hadoop — права доступа к файлам и ACL (список управления доступом)
  • Hadoop — команда copyFromLocal
  • Hadoop — команда getmerge

Разное

  • Hadoop версии 3.0 — что нового?
  • 7 основных причин изучить Hadoop
  • 10 лучших инструментов аналитики Hadoop для больших данных
  • 5 лучших книг, рекомендуемых для изучения Hadoop
  • Особенности Hadoop, которые делают его популярным
  • Hadoop против Spark против Flink