Разница между Hadoop и MapReduce
Hadoop: программное обеспечение Hadoop - это платформа, которая позволяет распределенную обработку огромных наборов данных на кластерах компьютеров с использованием простых моделей программирования. Проще говоря, Hadoop - это платформа для обработки «больших данных». Hadoop был создан Дугом Каттингом. Он также был создан Майком Кафареллой. Он предназначен для разделения с отдельных серверов на тысячи машин, каждая из которых имеет локальные вычисления и хранилище. Hadoop - это программное обеспечение с открытым исходным кодом. Ядро Apache Hadoop состоит из части хранения, известной как распределенная файловая система Hadoop (HDFS), и части обработки, которая может быть моделью программирования Map-Reduce. Hadoop разбивает файлы на большие блоки и распределяет их по узлам в кластере. Затем он передает упакованный код в узлы для параллельной обработки информации.
Mapreduce: MapReduce - это модель программирования, которая используется для обработки и создания больших наборов данных на кластерах компьютеров. Он был представлен Google. Mapreduce - это концепция или метод крупномасштабного распараллеливания, основанная на функциях map()
и reduce()
функционального программирования.
Программа MapReduce выполняется в три этапа:
- Сопоставление: задача сопоставителя - обрабатывать входные данные. Каждый узел применяет функцию сопоставления к локальным данным.
- Перемешать: здесь перераспределяются узлы, где данные основаны на выходных ключах. (Выходные ключи создаются функцией карты).
- Уменьшить: теперь узлы обрабатываются в каждой группе выходных данных параллельно для каждого ключа.
Ниже представлена таблица различий между Hadoop и MapReduce:
На основе | Hadoop | Уменьшение карты | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Определение | Apache Hadoop - это программное обеспечение, которое позволяет всю распределенную обработку больших наборов данных на кластерах компьютеров с использованием простого программирования. | MapReduce - это модель программирования, которая представляет собой реализацию для обработки и создания больших наборов данных с распределенным алгоритмом в кластере. | |||||||||
Имея в виду | Название «Hadoop» было названо в честь игрушечного слона сына Дуга Реза. Он назвал этот проект «Hadoop», так как это было легко произносить. | Название «MapReduce» появилось благодаря самой функциональности сопоставления и сокращения пар ключ-значение. | |||||||||
Фреймворк | Hadoop не только имеет структуру хранения, в которой хранятся данные, но и создает узлы имен и узлов данных, но также имеет другие структуры, которые включают сам MapReduce. | MapReduce - это среда программирования, которая использует сопоставления ключей и значений для сортировки / обработки данных. | |||||||||
Изобретение | Hadoop был создан Дугом Каттингом и Майком Кафареллой. | Mapreduce изобретен Google. | |||||||||
Функции | Концепция | Apache Hadoop - это экосистема, которая обеспечивает надежную, масштабируемую и готовую к распределенным вычислениям среду. | MapReduce - это подмодуль этого проекта, который представляет собой модель программирования и используется для обработки огромных наборов данных, находящихся в HDFS (распределенная файловая система Hadoop). | Язык | Hadoop представляет собой набор всех модулей и, следовательно, может включать и другие языки программирования / сценариев. | MapReduce в основном написан на языке программирования Java. | Предварительные условия | Hadoop работает в HDFS (распределенная файловая система Hadoop) | MapReduce может работать в HDFS / GFS / NDFS или любой другой распределенной системе, например MapR-FS. | |