Мониторинг состояния кластера Elasticsearch и хостов

Статья создана

Обновлена 12 апреля 2024 г.

Мониторинг состояния кластера
Мониторинг состояния хостов
Настройка алертов в Yandex Monitoring
Состояние и статус кластера
- Состояния кластера
- Статусы кластера

Важно

Сервис Yandex Managed Service for Elasticsearch недоступен с 11 апреля 2024 года.

Вы можете создать кластер OpenSearch в Yandex Cloud в качестве альтернативы Elasticsearch.

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Новые данные для графиков поступают каждые 15 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Managed Service for Elasticsearch:

Консоль управления

В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for Elasticsearch.
Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.

На странице отображаются следующие графики:

Active shards — количество активных первичных шардов и общее количество активных шардов в кластере.
Deletion rate — количество операций удаления в секунду, для каждого хоста.
Disk space usage percent — использование дискового пространства, для каждого хоста (в процентах).
Flushes — количество операций сохранения лога транзакций (flush), для каждого хоста.
Health status — уровень работоспособности и техническое состояние кластера:
- 0 — красный: неработоспособное или частично работоспособное состояние. Хотя бы один из первичных шардов недоступен. Если кластер отвечает на запросы, результаты поиска в ответах будут неполными.
- 1 — желтый: работоспособное состояние. Нет доступа хотя бы к одному из шардов-реплик. Результаты поиска в ответах кластера полные, но если появятся еще недоступные шарды, работоспособность кластера нарушится.
- 2 — зеленый: исправное состояние. Все шарды кластера доступны.
Indexing rate — интенсивность индексирования, для каждого хоста (операций/с).
JVM heap — использование памяти кучи JVM, для каждого хоста (в байтах).
JVM heap pressure — использование пула долгоживущих объектов JVM, для каждого хоста (в процентах).
JVM old collections — количество циклов сборки мусора в пуле долгоживущих объектов JVM, для каждого хоста.
JVM young collections — количество циклов сборки мусора в пуле новых объектов JVM, для каждого хоста.
Merges — количество слияний сегментов индексов, для каждого хоста.
Nodes — количество хостов с ролью Data node и общее количество хостов в кластере.
Open file descriptors — количество открытых файловых дескрипторов, для каждого хоста.
Other shards — количество неактивных шардов в каждом из состояний:
- Delayed unassigned — назначение хоста отложено;
- Unassigned — нет назначенного хоста;
- Relocating — перемещаются на другой хост;
- Initializing — инициализируются.
Process CPU — загрузка процессорных ядер, которую создает процесс JVM Elasticsearch, для каждого хоста.
Query cache — количество запросов в кеше, для каждого хоста.
Read bytes — скорость чтения с диска, для каждого хоста (байт/с).
Read operations — интенсивность чтения с диска, для каждого хоста (операций/с).
Refreshes — количество операций обновления сегментов индексов (refresh), для каждого хоста.
Search queries — количество запросов поиска в секунду, для каждого хоста.
Segments — количество сегментов индексов, для каждого хоста.
Store size — размер хранилища индексов на диске (в байтах).
Write bytes — скорость записи на диск, для каждого хоста (байт/с).
Write operations — интенсивность записи на диск, для каждого хоста (операций/с).

Примечание

Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Monitoring, нажмите кнопку Открыть в Monitoring на панели сверху.

Мониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Managed Service for Elasticsearch:

Консоль управления

В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for Elasticsearch.
Нажмите на имя нужного кластера и выберите вкладку Хосты.
Выберите вкладку Мониторинги.
Выберите нужный хост из выпадающего списка.

На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:

CPU — загрузка процессорных ядер. При повышении нагрузки значение Idle уменьшается.
Disk Bytes — скорость дисковых операций (байт/с).
Disk IOPS — интенсивность дисковых операций (операций/с).
Memory — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, а значения остальных — растут.
Network Bytes — скорость обмена данными по сети (байт/с).
Network Packets — интенсивность обмена данными по сети (пакетов/с).

Настройка алертов в Yandex Monitoring

Консоль управления

В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
В списке сервисов выберите Monitoring.
В блоке Сервисные дашборды выберите:
- Managed Service for Elasticsearch для настройки алертов кластера;
- Managed Service for Elasticsearch — Host Overview для настройки алертов хостов.
На нужном графике нажмите на значок и выберите пункт Создать алерт.
Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. документацию Yandex Monitoring.
Задайте значения порогов Alarm и Warning для срабатывания алерта.
Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления

Создайте алерт.
Добавьте метрику состояния.
Задайте значения порогов для оповещения в параметрах алерта.

Рекомендуемые значения порогов для некоторых метрик:

Метрика	Обозначение	Формула	`Alarm`	`Warning`
Статус кластера	`elasticsearch_status`	`bottom_last(1)`	`равно 0`	`равно 1`
Число неназначенных шардов	`elasticsearch_unassigned_shards`	`top_last(1)`	`больше 0`
Число перемещаемых шардов	`elasticsearch_relocating_shards`	`top_last(1)`	`больше 0`
Число инициализируемых шардов	`elasticsearch_initializing_shards`	`top_last(1)`	`больше 0`
Число отложенных к назначению шардов	`elasticsearch_delayed_unassigned_shards`	`top_last(1)`	`больше 0`
Объем использованной памяти кучи JVM	`elasticsearch_jvm_mem_heap_used_percent`	`top_last(1)`	больше 90% от объема RAM на хосте
Объем использованного хранилища	`elasticsearch_fs_total_used_percent`	`top_last(1)`	больше 90% от размера хранилища	больше 85% от размера хранилища
Использование пула долгоживущих объектов JVM	`elasticsearch_jvm_mem_heap_pressure`	`top_last(1)`	больше 90% от объема RAM на хосте	больше 75% от объема RAM на хосте
Размер использованного хранилища	`disk.used_bytes`	—	90% от размера хранилища	80% от размера хранилища

Для метрики disk.used_bytes значения порогов Alarm и Warning задаются только в байтах. Например, рекомендуемые значения для диска размером в 100 ГБ:

Alarm — 96636764160 байтов (90%).
Warning — 85899345920 байтов (80%).

Текущий размер хранилища и объем RAM на хостах можно посмотреть в детальной информации о кластере.

Состояние и статус кластера

Состояние кластера указывает на исправность его хостов, а Статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

Консоль управления

API

В консоли управления перейдите на страницу каталога и выберите Managed Service for Elasticsearch.
Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Воспользуйтесь методом REST API get для ресурса Cluster или вызовом gRPC API ClusterService/Get и передайте в запросе идентификатор требуемого кластера в параметре clusterId.

Состояние и статус кластера будут указаны в параметрах health и status.

Идентификатор кластера можно получить со списком кластеров в каталоге.

Состояния кластера

Состояние	Описание	Предлагаемые действия
ALIVE	Кластер работает в штатном режиме.	Действий не требуется.
DEGRADED	Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от `ALIVE`.	Выполните диагностику: Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии. Перейдите на вкладку Операции и убедитесь, что все операции завершились. Убедитесь, что кластер не находится в процессе технического обслуживания. Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD	Кластер неработоспособен: все его хосты не работают.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `DEAD`.
UNKNOWN	Состояние кластера неизвестно.	Составьте обращение в службу поддержки, указав: Идентификатор кластера. Идентификаторы последних операций, которые на нем выполнялись. Время по графикам доступности, когда кластер перешел в состояние `UNKNOWN`.

Статусы кластера

Статус	Описание	Предлагаемые действия
CREATING	Идет подготовка к первому запуску	Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING	Кластер работает в штатном режиме	Действий не требуется.
STOPPING	Кластер останавливается	Через некоторое время кластеру будет присвоен статус `STOPPED`, и он будет выведен из работы. Действий не требуется.
STOPPED	Кластер остановлен	Чтобы вернуть его в работу, обратитесь к разделу Остановка и запуск кластера.
STARTING	Остановленный ранее кластер запускается	Через некоторое время кластеру будет присвоен статус `RUNNING`. Подождите немного и приступайте к работе.
UPDATING	Выполняется обновление состояния кластера	По завершении обновления ему будет присвоен статус `RUNNING`. Подождите немного и приступайте к работе.
ERROR	Произошла ошибка, которая не позволяет кластеру продолжить работу	Выполните начальную диагностику: Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись. Соберите список из идентификаторов проблемных ресурсов. Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.
STATUS_UNKNOWN	Кластер не может определить свой статус	Выполните начальную диагностику: Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись. Соберите список из идентификаторов проблемных ресурсов. Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.

Мониторинг состояния кластера Elasticsearch и хостов

Мониторинг состояния кластераМониторинг состояния кластера

Мониторинг состояния хостовМониторинг состояния хостов

Настройка алертов в Yandex MonitoringНастройка алертов в Yandex Monitoring

Состояние и статус кластераСостояние и статус кластера

Состояния кластераСостояния кластера

Статусы кластераСтатусы кластера

Была ли статья полезна?

Мониторинг состояния кластера

Мониторинг состояния хостов

Настройка алертов в Yandex Monitoring

Состояние и статус кластера

Состояния кластера

Статусы кластера