Учебник по Hadoop
Опубликовано: 6 Октября, 2022
Большие данные — это совокупность данных, которые растут в геометрической прогрессии, они огромны по объему и очень сложны, поскольку поступают из различных ресурсов. Эти данные могут быть структурированными, неструктурированными или частично структурированными. Таким образом, чтобы эффективно справляться с ним или управлять им, на сцену выходит Hadoop.
Hadoop — это фреймворк, написанный на языке программирования Java, который работает с набором стандартного оборудования. До Hadoop мы использовали единую систему для хранения и обработки данных. Кроме того, мы зависим от СУБД, которая хранит только структурированные данные. Чтобы решить проблему таких огромных сложных данных, Hadoop предлагает лучшее решение. Итак, приступим.
Темы:
- Основы
- Установка и настройка среды
- Компоненты Hadoop
- Кластер, стойка и планировщики
- HDFS
- Уменьшение карты
- Программы MapReduce
- Потоковая передача Hadoop
- Файл и команды Hadoop
- Разное
Основы
- Что такое большие данные?
- Что такое неструктурированные данные?
- Что такое полуструктурированные данные?
- 5V больших данных
- Hadoop — решение для больших данных
- Эволюция Hadoop
- Различные версии Hadoop
- РСУБД против Hadoop
- Архитектура Hadoop
- Hadoop 2.x против Hadoop 3.x
- Hadoop — Экосистема
Установка и настройка среды
- Как установить Hadoop в Linux?
- Установка и настройка Hadoop в Windows 10
- Установка кластера Hadoop с одним узлом в Windows
- Настройка Eclipse с помощью Apache Hadoop
Компоненты Hadoop
- Распределенная файловая система Hadoop (HDFS)
- Уменьшение карты
- ПРЯЖА
Кластер, стойка и планировщики
- Кластер Hadoop
- Hadoop — кластер, свойства и его типы
- Hadoop — стойка и осведомленность о стойке
- Hadoop — планировщики и типы планировщиков
- Hadoop — разные режимы работы
HDFS
- Различные файловые системы в Hadoop
- Почему блок в HDFS такой большой?
- Демоны и их особенности
- Файловые блоки и коэффициент репликации
- Операция чтения данных
Уменьшение карты
- Сокращение карты в Hadoop
- Архитектура MapReduce
- Картограф в MapReduce
- Редуктор в Map-Reduce
- Выполнение задания MapReduce
- Hadoop MapReduce — поток данных
- Инициализация заданий в MapReduce
- Как работа работает на MapReduce?
- Как MapReduce выполняет задачу?
Программы MapReduce
- Анализ данных о погоде для анализа жарких и холодных дней
- Определение среднего возраста мужчин и женщин, погибших в результате катастрофы на Титанике
- Как выполнить программу подсчета символов в MapReduce Hadoop?
Потоковая передача Hadoop
- Что такое потоковая передача Hadoop?
- Потоковая передача Hadoop с использованием Python — проблема подсчета слов
Файл и команды Hadoop
- Hadoop — права доступа к файлам и ACL (список управления доступом)
- Hadoop — команда copyFromLocal
- Hadoop — команда getmerge
Разное
- Hadoop версии 3.0 — что нового?
- 7 основных причин изучить Hadoop
- 10 лучших инструментов аналитики Hadoop для больших данных
- 5 лучших книг, рекомендуемых для изучения Hadoop
- Особенности Hadoop, которые делают его популярным
- Hadoop против Spark против Flink