Создание кластера Apache Airflow™
Каждый кластер Managed Service for Apache Airflow™ состоит из набора компонентов Apache Airflow™, каждый из которых может быть представлен в нескольких экземплярах. Экземпляры могут находиться в разных зонах доступности.
Перед созданием кластера
- В каталоге, в котором планируется создать кластер, создайте сервисный аккаунт с ролью
storage.viewer
. - Создайте статический ключ доступа для сервисного аккаунта.
- Создайте бакет Yandex Object Storage, в котором будут храниться DAG-файлы.
Создайте кластер
-
В консоли управления
выберите каталог, в котором нужно создать кластер. -
Выберите сервис Managed Service for Apache Airflow™.
-
Нажмите кнопку Создать кластер.
-
В блоке Базовые параметры:
- Введите имя кластера. Имя должно быть уникальным в рамках каталога.
- (Опционально) Введите описание кластера.
- (Опционально) Создайте метки:
- Нажмите кнопку Добавить метку.
- Введите метку в формате
ключ: значение
. - Нажмите Enter.
-
В блоке Настройки доступа задайте пароль пользователя-администратора. Пароль должен иметь длину не менее 8 символов и содержать как минимум:
- одну заглавную букву;
- одну строчную букву;
- одну цифру;
- один специальный символ.
Примечание
Сохраните пароль локально или запомните его. Сервис не показывает пароли после создания.
-
В блоке Сетевые настройки выберите:
-
зоны доступности для размещения кластера;
-
облачную сеть;
-
подсеть в каждой из выбранных зон доступности;
-
группу безопасности для сетевого трафика кластера.
Настройки группы безопасности не влияют на доступ к веб-интерфейсу Apache Airflow™.
-
-
Задайте количество экземпляров и ресурсы для компонентов Managed Service for Apache Airflow™:
-
веб-сервера;
-
планировщика;
-
воркеров;
Примечание
Если минимальное количество воркеров равно максимальному количеству, то будет создано фиксированное число воркеров. Если минимальное значение меньше, чем максимальное, то при отсутствии задач в очереди количество воркеров будет равно минимальному значению, а при наличии задач в очереди, количество воркеров будет увеличиваться, не превышая заданного максимального значения.
-
(опционально) службы Triggerer.
-
-
(Опционально) В блоке Зависимости укажите названия pip-пакетов, чтобы установить в кластер дополнительные библиотеки и приложения для запуска DAG-файлов.
Чтобы указать более одного пакета, нажмите кнопку Добавить.
При необходимости задайте ограничения на версии устанавливаемых пакетов, например:
pandas==2.0.2 scikit-learn>=1.0.0 clickhouse-driver~=0.2.0
Формат названия пакета и выбор версии определены командой установки:
pip install
— для pip-пакетов.Важно
Для установки pip-пакетов из публичных репозиториев необходимо в блоке Сетевые настройки указать сеть с настроенным NAT в интернет.
-
В блоке Хранилище DAG-файлов задайте:
- Имя ранее созданного бакета, в котором будут храниться DAG-файлы.
- Параметры статического ключа доступа для сервисного аккаунта.
-
(Опционально) В блоке Дополнительные настройки включите защиту от удаления кластера.
-
(Опционально) В блоке Конфигурация Airflow задайте дополнительные свойства Apache Airflow™
, например: ключ —api.maximum_page_limit
, значение —150
. Заполните поля вручную или загрузите конфигурацию из файла (см. пример конфигурационного файла ). -
Нажмите кнопку Создать.