Hadoop | История или эволюция

Опубликовано: 30 Ноября, 2021

Hadoop - это среда с открытым исходным кодом, контролируемая Apache Software Foundation, написанная на Java для хранения и обработки огромных наборов данных с помощью кластера стандартного оборудования. В основном, есть две проблемы с большими данными. Первый - хранить такое огромное количество данных, а второй - обрабатывать эти сохраненные данные. Традиционного подхода, такого как РСУБД, недостаточно из-за неоднородности данных. Таким образом, Hadoop является решением проблемы больших данных, т.е. хранением и обработкой больших данных с некоторыми дополнительными возможностями. В основном Hadoop состоит из двух компонентов: распределенной файловой системы Hadoop (HDFS) и еще одного согласователя ресурсов (YARN) .

История Hadoop

Hadoop был основан Дугом Каттингом и Майком Кафареллой в 2002 году, когда они оба начали работать над проектом Apache Nutch. Проект Apache Nutch представлял собой процесс создания поисковой системы, способной проиндексировать 1 миллиард страниц. После большого количества исследований Nutch они пришли к выводу, что такая система будет стоить около полумиллиона долларов в оборудовании и вместе с ежемесячными эксплуатационными расходами примерно в 30 000 долларов, что очень дорого. Таким образом, они поняли, что архитектура их проекта не сможет справиться с миллиардами страниц в сети. Поэтому они искали возможное решение, которое могло бы снизить стоимость внедрения, а также проблему хранения и обработки больших наборов данных.

В 2003 году они наткнулись на документ, в котором описывалась архитектура распределенной файловой системы Google под названием GFS (файловая система Google), которая была опубликована Google для хранения больших наборов данных. Теперь они понимают, что этот документ может решить их проблему хранения очень больших файлов, которые были созданы из-за процессов сканирования и индексации в Интернете. Но эта статья была лишь половиной решения их проблемы.

В 2004 году Google опубликовал еще одну статью о методе MapReduce , который был решением для обработки этих больших наборов данных. Теперь эта статья была еще одним наполовину решением для Дуга Каттинга и Майка Кафареллы в их проекте Nutch. Оба эти метода (GFS и MapReduce) были только в официальном документе Google. Google не реализовал эти два метода. Дуг Каттинг знал из своей работы над Apache Lucene (это бесплатная библиотека программного обеспечения для поиска информации с открытым исходным кодом, первоначально написанная на Java Дугом Каттингом в 1999 году), что открытый исходный код - отличный способ распространить технологию среди большего числа людей. Итак, вместе с Майком Кафареллой он начал внедрять методы Google (GFS и MapReduce) в качестве открытого исходного кода в проекте Apache Nutch.

В 2005 году Cutting обнаружил, что Nutch ограничен кластерами от 20 до 40 узлов. Вскоре он осознал две проблемы:
(а) Nutch не сможет раскрыть свой потенциал, пока не будет надежно работать на больших кластерах.
(б) И это казалось невозможным с двумя людьми (Дуг Каттинг и Майк Кафарелла).
Инженерная задача в проекте Nutch была намного больше, чем он думал. Поэтому он начал искать работу в компании, которая заинтересована в инвестировании в их усилия. И он нашел Yahoo !, у Yahoo была большая команда инженеров, которая очень хотела поработать над этим проектом.

Итак, в 2006 году Дуг Каттинг присоединился к Yahoo вместе с проектом Nutch. Он хотел предоставить миру надежную и масштабируемую вычислительную среду с открытым исходным кодом с помощью Yahoo. Поэтому сначала в Yahoo он отделил распределенные вычислительные части от Nutch и сформировал новый проект Hadoop (он дал имя Hadoop, это было имя желтого игрушечного слона, принадлежавшего сыну Дуга Каттинга. уникальное слово. ) Теперь он хотел сделать Hadoop таким образом, чтобы он мог хорошо работать на тысячах узлов. Итак, с GFS и MapReduce он начал работать над Hadoop.

В 2007 году Yahoo успешно протестировала Hadoop на кластере из 1000 узлов и начала его использовать.

В январе 2008 года Yahoo выпустила Hadoop как проект с открытым исходным кодом для ASF (Apache Software Foundation) . А в июле 2008 года Apache Software Foundation успешно протестировала кластер на 4000 узлов с Hadoop.

В 2009 году Hadoop был успешно протестирован на сортировку PB (PetaByte) данных менее чем за 17 часов для обработки миллиардов поисковых запросов и индексации миллионов веб-страниц. А Дуг Каттинг покинул Yahoo и присоединился к Cloudera, чтобы выполнить задачу по распространению Hadoop на другие отрасли.

В декабре 2011 года Apache Software Foundation выпустила Apache Hadoop версии 1.0.

А позже, в августе 2013 года, была доступна версия 2.0.6 .

В настоящее время у нас есть Apache Hadoop версии 3.0, выпущенный в декабре 2017 года .

Подведем итоги вышеупомянутой истории: