Как установить Apache Airflow?
Пакетно-ориентированный рабочий процесс можно разрабатывать, планировать и отслеживать с помощью Apache Airflow, платформы с открытым исходным кодом. Вы можете интегрировать Airflow практически с любой технологией благодаря его структуре расширения Python. Рабочими процессами можно управлять с помощью веб-интерфейса. Airflow можно развернуть разными способами: от простых процессов, выполняемых на ноутбуках, до распределенных настроек, которые могут поддерживать даже огромный поток данных.
Почему выбирают воздушный поток?
Платформу Airflow можно легко расширить для подключения к новым технологиям, если ваши рабочие процессы имеют четкое начало и конец и выполняются через равные промежутки времени. Это платформа оркестровки пакетных рабочих процессов. Если ваши рабочие процессы имеют четкое начало и конец и запланированы для запуска через регулярные промежутки времени, вы можете создать группы обеспечения доступности баз данных Airflow.
Функции:
- Простота в использовании: если вы хорошо разбираетесь в основах Python, Airflow прост.
- Открытый исходный код: Программное обеспечение является бесплатным и с открытым исходным кодом, и у него много пользователей.
- Откатить версию: Предыдущие версии рабочих процессов можно откатить с помощью системы управления версиями.
- Интеграция: предоставляет готовых к использованию операторов для работы с Google Cloud Platform, Amazon AWS, Microsoft Azure и т. д.
- Удивительный пользовательский интерфейс: отслеживайте свои рабочие процессы и легко управляйте ими с помощью интерфейса состояния.
Преимущества:
- Для всей модели Airflow существует график, основанный на времени.
- Чтобы построить конвейер с помощью Airflow, вы можете выбрать одного из множества операторов.
- Пользовательский интерфейс Apache Airflow позволяет проверять состояние DAG, время выполнения и журналы.
- Необработанные данные сохраняются, обрабатываются, а затем отделяются от обработанных данных для обеспечения неизменности.
- Стремитесь обеспечить идемпотентность, при которой входы и выходы всегда будут одинаковыми.
Недостатки:
- Конвейеры необработанных данных чрезвычайно усложняют написание тестовых примеров.
- Для изменения расписания необходимо переименовать группу обеспечения доступности баз данных.
- Запустить Airflow изначально в Windows непросто.
Установка для Apache Airflow:
Для установки Apache Airflow сначала необходимо установить pip .
Шаг 1: Сначала установите pip, если вы уже установили, перейдите к шагу 3 .
$ sudo apt-get install python3-pip
Шаг 2. Установите местоположение
$ export AIRFLOW_HOME=~/airflow
Шаг 3. Установите Apache Airflow с помощью pip
$ pip3 install apache-airflow
Выход:
Шаг 4. Инициализация серверной части для поддержания рабочего процесса
$ airflow initdb
Шаг 5: Запустите приведенную ниже команду, чтобы запустить веб-сервер или пользовательский интерфейс Apache.
$ airflow webserver -p 8080
Шаг 6: Планировщик воздушного потока для мониторинга рабочего процесса
$ airflow scheduler