Разница между Hadoop и MapReduce

Опубликовано: 16 Июня, 2021

Hadoop: программное обеспечение Hadoop - это платформа, которая позволяет распределенную обработку огромных наборов данных на кластерах компьютеров с использованием простых моделей программирования. Проще говоря, Hadoop - это платформа для обработки «больших данных». Hadoop был создан Дугом Каттингом. Он также был создан Майком Кафареллой. Он предназначен для разделения с отдельных серверов на тысячи машин, каждая из которых имеет локальные вычисления и хранилище. Hadoop - это программное обеспечение с открытым исходным кодом. Ядро Apache Hadoop состоит из части хранения, известной как распределенная файловая система Hadoop (HDFS), и части обработки, которая может быть моделью программирования Map-Reduce. Hadoop разбивает файлы на большие блоки и распределяет их по узлам в кластере. Затем он передает упакованный код в узлы для параллельной обработки информации.

Mapreduce: MapReduce - это модель программирования, которая используется для обработки и создания больших наборов данных на кластерах компьютеров. Он был представлен Google. Mapreduce - это концепция или метод крупномасштабного распараллеливания, основанная на функциях map() и reduce() функционального программирования.
Программа MapReduce выполняется в три этапа:

  • Сопоставление: задача сопоставителя - обрабатывать входные данные. Каждый узел применяет функцию сопоставления к локальным данным.
  • Перемешать: здесь перераспределяются узлы, где данные основаны на выходных ключах. (Выходные ключи создаются функцией карты).
  • Уменьшить: теперь узлы обрабатываются в каждой группе выходных данных параллельно для каждого ключа.

Ниже представлена таблица различий между Hadoop и MapReduce:

На основе Hadoop Уменьшение карты
Определение Apache Hadoop - это программное обеспечение, которое позволяет всю распределенную обработку больших наборов данных на кластерах компьютеров с использованием простого программирования. MapReduce - это модель программирования, которая представляет собой реализацию для обработки и создания больших наборов данных с распределенным алгоритмом в кластере.
Имея в виду Название «Hadoop» было названо в честь игрушечного слона сына Дуга Реза. Он назвал этот проект «Hadoop», так как это было легко произносить. Название «MapReduce» появилось благодаря самой функциональности сопоставления и сокращения пар ключ-значение.
Фреймворк Hadoop не только имеет структуру хранения, в которой хранятся данные, но и создает узлы имен и узлов данных, но также имеет другие структуры, которые включают сам MapReduce. MapReduce - это среда программирования, которая использует сопоставления ключей и значений для сортировки / обработки данных.
Изобретение Hadoop был создан Дугом Каттингом и Майком Кафареллой. Mapreduce изобретен Google.
Функции
  • Hadoop с открытым исходным кодом
  • Кластер Hadoop отличается высокой масштабируемостью
  • Mapreduce обеспечивает отказоустойчивость
  • Mapreduce обеспечивает высокую доступность
  • Концепция Apache Hadoop - это экосистема, которая обеспечивает надежную, масштабируемую и готовую к распределенным вычислениям среду. MapReduce - это подмодуль этого проекта, который представляет собой модель программирования и используется для обработки огромных наборов данных, находящихся в HDFS (распределенная файловая система Hadoop).
    Язык Hadoop представляет собой набор всех модулей и, следовательно, может включать и другие языки программирования / сценариев. MapReduce в основном написан на языке программирования Java.
    Предварительные условия Hadoop работает в HDFS (распределенная файловая система Hadoop) MapReduce может работать в HDFS / GFS / NDFS или любой другой распределенной системе, например MapR-FS.