Как MapReduce обрабатывает запросы данных?
Методология MapReduce может показаться чудовищной. Причина в том, что для каждого запроса можно подготовить весь набор данных или, по крайней мере, его приличную часть. Как бы то ни было, это его мощность. MapReduce - это процессор пакетных запросов , и возможность запускать специально назначенный запрос по всему набору данных и получать результаты в разумные сроки является преобразующей. Он изменяет способ, которым вы рассматриваете информацию, и открывает информацию, которая была недавно записана на ленту или в кружок. Он предлагает людям возможность продвигаться вперед с информацией.
На запросы, на которые раньше не приходилось даже думать об ответе, теперь можно будет отвечать, что побуждает к новым запросам и новым знаниям. Например, Mailtrust, почтовое подразделение Rackspace, использовало Hadoop для подготовки журналов электронной почты. Одно специально назначенное расследование, которое они составили, заключалось в том, чтобы определить географическое распределение их клиентов.
Согласно партии
По каждому из своих качеств MapReduce, как правило, представляет собой систему пакетной обработки и не подходит для интеллектуального расследования. Невозможно выполнить запрос и получить результат за пару секунд или меньше. Запросы обычно занимают несколько минут или больше, поэтому лучше всего использовать автономный режим, когда в подготовительном круге точно нет человека, который не ждет результатов. Тем не менее, с момента своего уникального проявления, Hadoop продвинулся дальше подготовки комков.
Безусловно, выражение «Hadoop» время от времени используется для обозначения более крупной биологической системы задач, а не просто HDFS и MapReduce, которые подпадают под действие фонда распределенной регистрации и подготовки информации огромного масштаба. Большому количеству из них способствует Apache Software Foundation, который предлагает помощь для сети предприятий по программированию с открытым исходным кодом, включая первый HTTP-сервер, от которого он получил свое название.
Основной частью, предоставляющей онлайн-доступ, был HBase , хранилище ключей, которое использует HDFS для своего базового накопления. HBase предоставляет доступ как для чтения / составления в режиме онлайн для отдельных столбцов, так и для групповых действий для массового просмотра и составления информации, что делает его отличным решением для приложений структурирования. Подлинным агентом расширения возможностей для новых моделей подготовки в Hadoop была презентация YARN (который представляет собой еще один посредник по согласованию ресурсов) в Hadoop 2. YARN - это связка ресурсов платформы, которая позволяет продолжать работу любой распространяемой программе (не только MapReduce). информация в группе Hadoop.
Различные шаблоны обработки, работающие с Hadoop
- Интерактивный SQL
Воздерживаясь от MapReduce и используя механизм рассредоточенных вопросов, который сотрудники выполняли «в зависимости от» демонов (например, Impala) или повторного использования держателей (например, Hive on Tez), можно реализовать реакцию низкого уровня бездействия на вопросы SQL на Hadoop, пока еще не увеличивая масштаб. до огромных размеров наборов данных. - Потоковая обработка
Фреймворки разлива, такие как Storm, Spark Streaming или Samza, позволяют выполнять в реальном времени циркулирующие расчеты неограниченных всплесков информации и передавать результаты в хранилище Hadoop или за его пределами. - Итерационная обработка
Многочисленные вычисления - например, вычисления в ИИ - являются итеративными по своей природе, поэтому гораздо эффективнее хранить в памяти каждый рабочий набор в середине, в отличие от укладки из пластины для каждого акцента. Дизайн MapReduce не позволяет этого, однако он напрямую связан с Spark, например, и дает возможность глубоко исследовать стиль работы с наборами данных. - Поиск
Этап поиска Solr может продолжать выполняться в группе Hadoop, упорядочивая записи по мере их добавления в HDFS и обслуживая вопросы поиска из записей, помещенных в HDFS.
Несмотря на рост различных систем подготовки на Hadoop, MapReduce по-прежнему полезен, чтобы увидеть, как он работает, поскольку он представляет несколько идей, которые в целом применяются в большей степени (например, позиции информации или то, как набор данных является частью на части). .