Автоматическое масштабирование подкластеров

Статья создана

Обновлена 7 сентября 2023 г.

Примечание

Автоматическое масштабирование подкластеров поддерживается в кластерах Yandex Data Proc версии 1.4 и выше.

Yandex Data Proc поддерживает автоматическое масштабирование подкластеров для обработки данных на основе метрик, которые поставляются в сервис Yandex Monitoring:

Если значение метрики превысит заданный порог, то в подкластер будут добавлены новые хосты. Они станут доступны в YARN-кластере с Apache Spark или Apache Hive, как только перейдут в статус Alive.
Если значение опорной метрики опустится ниже заданного порога, в подкластере последовательно будут запущены процессы декомиссии и удаления избыточных хостов.

Подробнее о механизмах автоматического масштабирования читайте в документации Instance Groups.

Вы можете выбрать способ масштабирования, который лучше подходит для ваших задач:

Масштабирование по умолчанию — масштабирование на основе метрики yarn.cluster.containersPending.

Это внутренняя метрика YARN, которая показывает, сколько единиц аллокации ресурсов ожидают поставленные в очередь задания. Она подойдет, если в кластере есть много относительно небольших заданий, которые управляются Apache Hadoop® YARN. Такой способ масштабирования не требует дополнительной настройки.
Целевой уровень загрузки CPU, % — масштабирование на основе метрики загрузки vCPU. Подробнее о масштабировании на ее основе читайте в документации Instance Groups.

Чтобы настроить автоматическое масштабирование кластера по иным метрикам и формулам — отправьте запрос в службу технической поддержки.

Для автоматического масштабирования можно настроить следующие параметры:

Начальный (он же минимальный) размер группы.
Таймаут декомиссии. Задается в секундах. Максимальное значение — 86400 секунд (сутки). Значение по умолчанию — 120 секунд.
Тип виртуальных машин: стандартные или прерываемые.
Максимальный размер группы.
Промежуток времени, используемый при расчете средней нагрузки каждой виртуальной машины в группе.
Время на разогрев виртуальной машины. В течение указанного периода после запуска виртуальной машины вместо ее метрик будут использоваться средние значения в группе.
Период стабилизации, в минутах или секундах — период, в течение которого количество виртуальных машин в группе не может быть снижено.