Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex Compute Cloud
  • Начало работы
    • Обзор
    • Создание виртуальной машины Linux
    • Создание виртуальной машины Windows
    • Создание группы виртуальных машин
  • Пошаговые инструкции
    • Все инструкции
    • Создание виртуальной машины
      • Создать ВМ Linux
      • Создать ВМ Windows
      • Создать ВМ из набора дисков
      • Создать ВМ с дисками из снимков
      • Создать ВМ из пользовательского образа
      • Создать ВМ c GPU
      • Сделать ВМ прерываемой
    • DSVM
      • Обзор
      • Создать ВМ из публичного образа DSVM
    • Группы размещения
      • Создать группу размещения
      • Удалить группу размещения
      • Создать ВМ в группе размещения
      • Добавить ВМ в группу размещения
      • Исключить ВМ из группы размещения
    • Образы с предустановленным ПО
      • Создать ВМ из публичного образа
      • Настроить ПО
      • Работа с ВМ на базе публичного образа
      • Получить список публичных образов
    • Получение информации о виртуальной машине
      • Получить информацию о ВМ
      • Получить вывод последовательного порта
    • Управление виртуальной машиной
      • Остановить и запустить ВМ
      • Сбросить пароль пользователя ВМ
      • Подключить диск к ВМ
      • Отключить диск от ВМ
      • Перенести ВМ в другую зону доступности
      • Перенести ВМ в другой каталог
      • Привязать к ВМ публичный IP-адрес
      • Отвязать от ВМ публичный IP-адрес
      • Сделать публичный IP-адрес ВМ статическим
      • Изменить ВМ
      • Изменить вычислительные ресурсы ВМ
      • Удалить ВМ
    • Работа на виртуальной машине
      • Подключиться к ВМ по SSH
      • Подключиться к ВМ по RDP
      • Подключиться к ВМ через PowerShell
      • Работа с Yandex Cloud изнутри ВМ
      • Установить NVIDIA-драйверы
      • Восстановить доступ к ВМ
    • Управление агентом для сброса паролей
      • Проверить работу агента
      • Установить агент
      • Удалить агент
    • Создание диска
      • Создать пустой диcк
      • Создать пустой диск с блоком большого размера
      • Создать нереплицируемый диск
    • Управление диском
      • Создать снимок диска
      • Изменить диск
      • Перенести диск в другой каталог
      • Удалить диcк
      • Удалить снимок диска
    • Группы размещения дисков
      • Создать группу размещения дисков
      • Удалить диск из группы размещения
    • Создание образа
      • Подготовить образ диска
      • Загрузить свой образ
      • Создать образ из диска
      • Создать образ из снимка диска
      • Создать образ из другого пользовательского образа
    • Управление образом
      • Получить список образов
      • Удалить образ
    • Файловые хранилища
      • Создать файловое хранилище
      • Подключить файловое хранилище к ВМ
      • Отключить файловое хранилище от ВМ
      • Изменить файловое хранилище
      • Удалить файловое хранилище
    • Управление серийной консолью
      • Начало работы
      • Подключиться к серийной консоли по SSH
      • Подключиться к серийной консоли с помощью CLI
      • Запустить командную оболочку в Windows SAC
      • Отключить доступ к серийной консоли
    • Создание группы виртуальных машин
      • Создать группу ВМ фиксированного размера
      • Создать группу ВМ фиксированного размера с сетевым балансировщиком
      • Создать группу ВМ фиксированного размера с L7-балансировщиком
      • Создать автоматически масштабируемую группу ВМ
      • Создать группу ВМ с Container Optimized Image
      • Создать группу ВМ по YAML-спецификации
    • Получение информации о группе виртуальных машин
      • Получить список групп ВМ
      • Получить информацию о группе ВМ
      • Получить список ВМ в группе
    • Управление группой виртуальных машин
      • Изменить группу ВМ
      • Изменить группу ВМ по YAML-спецификации
      • Настроить проверку состояния приложения на ВМ
      • Обновить группу
        • Постепенное обновление
        • Обновление без простоя
      • Приостановить процессы в группе ВМ
      • Возобновить процессы в группе ВМ
      • Остановить группу ВМ
      • Запустить группу ВМ
      • Удалить группу ВМ
    • Выделенные хосты
      • Создать группу выделенных хостов
      • Создать ВМ в группе выделенных хостов
      • Создать ВМ на выделенном хосте
  • Yandex Container Solution
  • Практические руководства
    • Настройка синхронизации времени NTP
    • Работа с группой ВМ с автоматическим масштабированием
    • Автомасштабирование группы ВМ для обработки сообщений из очереди
    • Обновление группы ВМ под нагрузкой
    • Развертывание Remote Desktop Gateway
    • Передача логов с ВМ в Yandex Cloud Logging
    • Сборка образа ВМ с набором инфраструктурных инструментов с помощью Packer
  • Концепции
    • Взаимосвязь ресурсов
    • Виртуальные машины
      • Обзор
      • Платформы
      • Уровни производительности vCPU
      • Прерываемые виртуальные машины
      • Сеть на виртуальной машине
      • Программно-ускоренная сеть
      • Динамическая миграция
      • Группы размещения
      • Статусы
      • Метаданные
      • Сброс паролей на ВМ Windows
    • Графические ускорители
    • Диски и файловые хранилища
      • Обзор
      • Диски
      • Снимки дисков
      • Группы размещения нереплицируемых дисков
      • Файловые хранилища
      • Операции чтения и записи
    • Образы
    • Группы виртуальных машин
      • Обзор
      • Доступ
      • YAML-спецификация
      • Шаблон виртуальной машины
      • Переменные в шаблоне виртуальной машины
      • Политики
        • Обзор
        • Политика распределения
        • Политика развертывания
        • Политика масштабирования
      • Типы масштабирования
      • Автоматическое восстановление
      • Обновление
        • Обзор
        • Распределение виртуальных машин по зонам
        • Алгоритм развертывания
        • Правила обновления виртуальных машин
        • Изменение дополнительных дисков в шаблоне виртуальной машины
      • Остановка группы и приостановка процессов
      • Статусы
    • Выделенный хост
    • Резервное копирование
    • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
    • Действующие правила
    • Архив
      • До 1 января 2019 года
      • С 1 января до 1 марта 2019 года
      • С 1 марта до 1 мая 2019 года
  • Справочник API
    • Аутентификация в API
    • gRPC (англ.)
      • Overview
      • DiskPlacementGroupService
      • DiskService
      • DiskTypeService
      • FilesystemService
      • HostGroupService
      • HostTypeService
      • ImageService
      • InstanceService
      • PlacementGroupService
      • SnapshotService
      • ZoneService
      • InstanceGroupService
      • OperationService
    • REST (англ.)
      • Overview
      • DiskPlacementGroup
        • Overview
        • create
        • delete
        • get
        • list
        • listDisks
        • listOperations
        • update
      • Disk
        • Overview
        • create
        • delete
        • get
        • list
        • listOperations
        • move
        • update
      • DiskType
        • Overview
        • get
        • list
      • Filesystem
        • Overview
        • create
        • delete
        • get
        • list
        • listOperations
        • update
      • HostGroup
        • Overview
        • create
        • delete
        • get
        • list
        • listHosts
        • listInstances
        • listOperations
        • update
      • HostType
        • Overview
        • get
        • list
      • Image
        • Overview
        • create
        • delete
        • get
        • getLatestByFamily
        • list
        • listOperations
        • update
      • Instance
        • Overview
        • addOneToOneNat
        • attachDisk
        • attachFilesystem
        • create
        • delete
        • detachDisk
        • detachFilesystem
        • get
        • getSerialPortOutput
        • list
        • listOperations
        • move
        • removeOneToOneNat
        • restart
        • start
        • stop
        • update
        • updateMetadata
        • updateNetworkInterface
      • PlacementGroup
        • Overview
        • create
        • delete
        • get
        • list
        • listInstances
        • listOperations
        • update
      • Snapshot
        • Overview
        • create
        • delete
        • get
        • list
        • listOperations
        • update
      • Zone
        • Overview
        • get
        • list
      • Operation
        • Overview
        • get
      • InstanceGroup
        • Overview
        • list
        • get
        • listLogRecords
        • updateFromYaml
        • updateAccessBindings
        • pauseProcesses
        • stop
        • start
        • delete
        • listInstances
        • createFromYaml
        • update
        • setAccessBindings
        • listOperations
        • create
        • listAccessBindings
        • resumeProcesses
  • Вопросы и ответы
    • Общие вопросы
    • Виртуальные машины
    • Подключение
    • Диски, снимки, образы
    • Аварийное восстановление
    • Мониторинг
    • Лицензирование
    • Все вопросы на одной странице
  1. Концепции
  2. Группы виртуальных машин
  3. Автоматическое восстановление

Автоматическое восстановление

Статья создана
Yandex Cloud
  • Типы проверок
    • Проверка, что ВМ работает
    • Проверка состояния приложения на ВМ
  • Особенности автоматического восстановления
    • Восстановление и политики развертывания
    • Изменение статуса ВМ при восстановлении
    • Восстановление при обновлении конфигураций ВМ
    • Восстановление при изменении размера группы
    • Восстановление прерываемых ВМ

Instance Groups регулярно проверяет, что ВМ в вашей группе работают корректно. Если ВМ остановилась или приложение слишком долго отвечает, Instance Groups попробует восстановить эту ВМ — перезапустит ее или создаст новую, в зависимости от политики развертывания.

Примечание

Если для группы ВМ приостановлены процессы (статус PAUSED), ВМ не восстанавливаются.

Типы проверок

Для автоматического восстановления Instance Groups выполняет проверки двух типов:

  • Проверка, что ВМ работает.
  • Проверка состояния приложения на ВМ.

Не путайте эти проверки с проверкой состояния в сетевом балансировщике, которая не приводит к автоматическому восстановлению ВМ. Она влияет только на процесс развертывания: когда во время запуска ВМ перейдет в статус OPENING_TRAFFIC, Instance Groups будет ждать, пока в балансировщике состояние ВМ станет HEALTHY, после этого Instance Groups прекратит следить за состоянием ВМ в балансировщике.

Проверка, что ВМ работает

Instance Groups раз в несколько секунд автоматически проверяет статус ВМ в Compute Cloud. Если ВМ остановилась или произошла ошибка (статусы STOPPED, ERROR, CRASHED), Instance Groups попробует перезапустить ее, а также создаст новую ВМ, если это позволяет политика развертывания.

Проверка состояния приложения на ВМ

Эта проверка позволит обнаружить, что приложение на вашей ВМ зависло, завершило работу или слишком долго отвечает. Вы можете включить проверку состояния приложения при создании или изменении ВМ.

Если вы включили эту проверку, Instance Groups будет с заданной периодичностью опрашивать статус приложения на ВМ все время, пока группа ВМ находится в статусе ACTIVE.

Рекомендации для групп с сетевым балансировщиком

Если вы создали группу с сетевым балансировщиком, то для проверки в Instance Groups выставляйте более мягкие настройки, чем для проверки состояния в балансировщике. Балансировщик распределяет нагрузку на приложение, а Instance Groups только следит за работоспособностью приложения.

Например, если в сетевом балансировщике вы задали время ожидания ответа — 1 секунда, то в Instance Groups выставьте 30 секунд. Если приложение не отвечает 3-5 секунд, возможно оно не справляется с текущим потоком трафика. А если приложение не отвечает более 30 секунд, скорее всего оно совсем не работает и ВМ необходимо восстановить.

Особенности автоматического восстановления

Восстановление и политики развертывания

Для восстановления ВМ Instance Groups может пересоздавать или перезапускать ВМ. Какой метод восстановления использовать, определено настройками политики развертывания.

  • Создание новых ВМ
    Instance Groups будет создавать новые ВМ вместо тех, которые не прошли проверку, если в настройках политики развертывания разрешено превышение целевого размера группы. Задать максимальное количество ВМ, на которое разрешено превысить целевой размер группы, можно с помощью параметра max_expansion. Допустимые значения: от 0 до 100. Тогда Instance Groups сначала создаст новую ВМ, дождется, пока она пройдет все проверки, а затем удалит ВМ, которая не прошла проверку.

  • Перезагрузка ВМ
    Instance Groups будет перезагружать ВМ, которые не прошли проверку, если в настройках политики развертывания разрешено уменьшение целевого размера группы. Задать максимальное количество ВМ, которые разрешается сделать недоступными одновременно, можно с помощью параметра max_unavailable. Допустимые значения: от 0 до 100. Instance Groups будет стремиться не превышать этого значения при автоматическом восстановлении.

    Это ограничение не действует на ВМ в статусах CRASHED, ERROR и STOPPED, так как в этих случаях ВМ уже считается недоступной и должна быть перезагружена немедленно.

Если одновременно задать значения max_expansion и max_unavailable, Instance Groups будет использовать оба метода восстановления.

Например, вы указали max_expansion = 1 и max_unavailable = 1. Когда одна из ВМ не пройдет проверку, Instance Groups начнет одновременно перезапускать эту ВМ и создавать новую. ВМ, которая первая успешно пройдет все проверки, будет работать, а вторая будет удалена.

Чтобы ограничить скорость восстановления и развертывания, вы также можете задать:

  • Максимальное количество ВМ, которые вводятся в эксплуатацию одновременно, в значении параметра max_creating. Учитываются создаваемые и запускаемые ВМ в статусах CREATING и STARTING.

    Допустимые значения: от 0 до 100. Значение 0 — любое количество ВМ в рамках допустимых значений.

  • Максимальное количество ВМ, которые выводятся из эксплуатации одновременно, в значении параметра max_deleting. Учитываются останавливаемые ВМ в статусе STOPPING, так как при удалении ВМ Instance Groups сначала останавливает ее.

    Допустимые значения: от 0 до 100. Значение 0 — любое количество ВМ в рамках допустимых значений.

Изменение статуса ВМ при восстановлении

Instance Groups не будет восстанавливать ВМ, если это уже не требуется.

Например, если в группе из 10 ВМ все 10 стали недоступны, то при max_unavailable = 3 Instance Groups перезапустит первые три ВМ. Если в это время остальные семь ВМ снова станут работоспособны, то Instance Groups не будет перезапускать их.

При max_expansion = 3 Instance Groups запустит создание трех новых ВМ. Старые ВМ не удаляются до тех пор, пока не будут созданы новые. Если в процессе создания все ВМ в группе снова станут работоспособны, то Instance Groups отменит создание новых ВМ.

Восстановление при обновлении конфигураций ВМ

Восстановление ВМ имеет более высокий приоритет, чем обновление конфигурации ВМ.

Допустим, у вас группа из 100 ВМ, а значение max_unavailable = 1. Когда вы обновите конфигурацию ВМ в группе, Instance Groups будет по очереди перезапускать машины, обновляя конфигурацию на них.

Если в этот момент одна из ВМ не пройдет проверку состояния приложения, то Instance Groups поставит ее первой в очереди на перезапуск.

Восстановление при изменении размера группы

При уменьшении целевого размера группы в первую очередь удаляются те ВМ, которые не прошли проверку (если такие есть).

При увеличении целевого размера группы новые ВМ будут создаваться параллельно с восстановлением ВМ, не прошедших проверку, если это позволяют параметры max_creating и max_expansion:

Допустим, в группе 2 из 4 ВМ не прошли проверку состояния приложения. В этот момент целевой размер группы увеличился до 6 ВМ. Две ВМ необходимо создать, еще две восстановить.

Если max_expansion = 1, а max_creating не задано, то Instance Groups начнет создавать сразу три ВМ: две в рамках увеличения группы, одну в рамках восстановления.

Восстановление прерываемых ВМ

Автоматическое восстановление прерываемых ВМ будет происходить только, если в зоне доступности для этого достаточно вычислительных ресурсов. Если ресурсов недостаточно, Instance Groups продолжит автоматическое восстановление, когда появятся свободные ресурсы, но этот процесс может занять продолжительное время.

Прерываемые ВМ должны быть принудительно остановлены через 24 часа с момента запуска. Однако в таком случае есть риск, что вся группа ВМ перезапустится одновременно и перестанет обслуживать нагрузку запущенных приложений. Чтобы избежать этого, Instance Groups останавливает прерываемые ВМ в группе не ровно через 24 часа, а через случайный момент времени — от 22 до 24 часов.

См. также

  • Настроить проверку состояния приложения на ВМ.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Типы проверок
  • Проверка, что ВМ работает
  • Проверка состояния приложения на ВМ
  • Особенности автоматического восстановления
  • Восстановление и политики развертывания
  • Изменение статуса ВМ при восстановлении
  • Восстановление при обновлении конфигураций ВМ
  • Восстановление при изменении размера группы
  • Восстановление прерываемых ВМ