Как установить Apache Airflow?

Опубликовано: 20 Февраля, 2023

Пакетно-ориентированный рабочий процесс можно разрабатывать, планировать и отслеживать с помощью Apache Airflow, платформы с открытым исходным кодом. Вы можете интегрировать Airflow практически с любой технологией благодаря его структуре расширения Python. Рабочими процессами можно управлять с помощью веб-интерфейса. Airflow можно развернуть разными способами: от простых процессов, выполняемых на ноутбуках, до распределенных настроек, которые могут поддерживать даже огромный поток данных.

Почему выбирают воздушный поток?

Платформу Airflow можно легко расширить для подключения к новым технологиям, если ваши рабочие процессы имеют четкое начало и конец и выполняются через равные промежутки времени. Это платформа оркестровки пакетных рабочих процессов. Если ваши рабочие процессы имеют четкое начало и конец и запланированы для запуска через регулярные промежутки времени, вы можете создать группы обеспечения доступности баз данных Airflow.

Функции:

  1. Простота в использовании: если вы хорошо разбираетесь в основах Python, Airflow прост.
  2. Открытый исходный код: Программное обеспечение является бесплатным и с открытым исходным кодом, и у него много пользователей.
  3. Откатить версию: Предыдущие версии рабочих процессов можно откатить с помощью системы управления версиями.
  4. Интеграция: предоставляет готовых к использованию операторов для работы с Google Cloud Platform, Amazon AWS, Microsoft Azure и т. д.
  5. Удивительный пользовательский интерфейс: отслеживайте свои рабочие процессы и легко управляйте ими с помощью интерфейса состояния.

Преимущества:

  1. Для всей модели Airflow существует график, основанный на времени.
  2. Чтобы построить конвейер с помощью Airflow, вы можете выбрать одного из множества операторов.
  3. Пользовательский интерфейс Apache Airflow позволяет проверять состояние DAG, время выполнения и журналы.
  4. Необработанные данные сохраняются, обрабатываются, а затем отделяются от обработанных данных для обеспечения неизменности.
  5. Стремитесь обеспечить идемпотентность, при которой входы и выходы всегда будут одинаковыми.

Недостатки:

  1. Конвейеры необработанных данных чрезвычайно усложняют написание тестовых примеров.
  2. Для изменения расписания необходимо переименовать группу обеспечения доступности баз данных.
  3. Запустить Airflow изначально в Windows непросто.

Установка для Apache Airflow:

Для установки Apache Airflow сначала необходимо установить pip .

Шаг 1: Сначала установите pip, если вы уже установили, перейдите к шагу 3 .

$ sudo apt-get install python3-pip

Шаг 2. Установите местоположение

$ export AIRFLOW_HOME=~/airflow

Шаг 3. Установите Apache Airflow с помощью pip

$ pip3 install apache-airflow

Выход:

Шаг 4. Инициализация серверной части для поддержания рабочего процесса

$ airflow initdb

Шаг 5: Запустите приведенную ниже команду, чтобы запустить веб-сервер или пользовательский интерфейс Apache.

$ airflow webserver -p 8080

Шаг 6: Планировщик воздушного потока для мониторинга рабочего процесса

$ airflow scheduler