Мониторинг состояния кластера и хостов
Вы можете отслеживать состояние кластера Managed Service for ClickHouse и отдельных его хостов с помощью инструментов мониторинга в консоли управления. Эти инструменты предоставляют диагностическую информацию в виде графиков.
Собирает значения метрик кластера и отображает графики сервис Yandex Monitoring. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в Мониторинге на панели сверху.
Период обновления графиков:
- Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (
memory-optimized
): 15 секунд. - Для хостов с гарантированной долей vCPU ниже 100% (
burstable
): 150 секунд.
Примечание
На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).
Мониторинг состояния кластера
Для просмотра детальной информации о состоянии кластера Managed Service for ClickHouse:
- В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for ClickHouse.
- Нажмите на имя нужного кластера и выберите вкладку Мониторинг.
Если в кластере используется механизм репликации и распределения запросов с использованием ZooKeeper, на вкладке Мониторинг появляются две вкладки:
- Clickhouse — графики, которые показывают работу всего кластера и хостов ClickHouse.
- Zookeeper — графики, которые характеризуют работу хостов ZooKeeper.
Если репликация не используется или использует механизм ClickHouse Keeper, графики с вкладки Clickhouse показываются на общей вкладке Мониторинг.
- Active locks per host — количество активных блокировок, для каждого хоста.
- Average insert query time per host — среднее время исполнения запросов вставки, для каждого хоста.
- Average query time per host — среднее время исполнения запросов, для каждого хоста.
- Average select query time per host — среднее время исполнения запросов выборки, для каждого хоста.
- Connections per host — количество подключений, для каждого хоста.
- CPU cores usage — количество занятых процессорных ядер.
- CPU cores usage per host — количество занятых процессорных ядер, для каждого хоста.
- CPU usage per host — загрузка процессорных ядер, для каждого хоста.
- Disk read per host — скорость чтения с диска, для каждого хоста (байт/с).
- Disk space usage — занятое дисковое пространство (в байтах).
- Disk space usage per host — занятое дисковое пространство, для каждого хоста (выводится два графика: в байтах и в процентах).
- Disk usage per host — скорость дисковых операций, для каждого хоста (байт/с).
- Disk write per host — скорость записи на диск, для каждого хоста (байт/с).
- Failed insert queries per host — количество неуспешных запросов вставки в секунду, для каждого хоста.
- Failed queries per host — общее количество неуспешных запросов в секунду, для каждого хоста.
- Failed select queries per host — количество неуспешных запросов выборки в секунду, для каждого хоста.
- Inserted data — скорость вставки данных (байт/с).
- Inserted data per host — скорость вставки данных, для каждого хоста (байт/с).
- Inserted rows per host — скорость вставки данных, для каждого хоста (строк/с).
- Insert queries — количество запросов вставки в секунду.
- Insert queries per host — количество запросов вставки в секунду, для каждого хоста.
- Max data parts per partition — количество кусков данных в партиции, наибольшее среди всех таблиц. Лимит для этой величины определяется настройками СУБД. Приближение к лимиту указывает на чрезмерную нагрузку или низкую эффективность вставки данных.
- Max replication delay across tables — задержка репликации, наибольшая среди всех таблиц. Значения больше нескольких секунд могут указывать на чрезмерную нагрузку или проблемы в работе репликации.
- Max replication queue across tables — максимальная длина очереди репликации таблиц. Значения больше нескольких единиц могут указывать на чрезмерную нагрузку или проблемы в работе репликации.
- Memory usage — использование оперативной памяти (в байтах).
- Memory usage per host — использование оперативной памяти, для каждого хоста (выводится два графика: в байтах и в процентах).
- Merged data — скорость слияния данных (байт/с).
- Merged data per host — скорость слияния данных, для каждого хоста (байт/с).
- Merged rows per host — скорость слияния данных, для каждого хоста (строк/с).
- Network data received per host — скорость приема данных из сети, для каждого хоста (байт/с).
- Network data sent per host — скорость отправки данных в сеть, для каждого хоста (байт/с).
- Network usage per host — скорость обмена данными по сети, для каждого хоста (байт/с).
- Read data — скорость чтения данных (байт/с).
- Read data per host — скорость чтения данных, для каждого хоста (байт/с).
- Read parts per host — скорость чтения кусков данных, для каждого хоста (строк/с).
- Select queries — количество запросов выборки в секунду.
- Select queries per host — количество запросов выборки в секунду, для каждого хоста.
- Total queries — общее количество запросов в секунду.
- Total queries per host — общее количество запросов в секунду, для каждого хоста.
- Waiting locks per host — количество ожидающих блокировок, для каждого хоста.
- Average latency per ZooKeeper host — средняя задержка ответа, для каждого хоста ZooKeeper.
- Average transaction time per ClickHouse host — среднее время транзакции, для каждого хоста ClickHouse. Характеризует время, затрачиваемое ClickHouse на обращения к ZooKeeper.
- Connections per ZooKeeper host — количество подключений, для каждого хоста ZooKeeper.
- CPU cores usage — количество занятых процессорных ядер.
- CPU cores usage per host — количество занятых процессорных ядер, для каждого хоста.
- CPU usage per host — загрузка процессорных ядер, для каждого хоста.
- Disk read per host — скорость чтения с диска, для каждого хоста (байт/с).
- Disk space usage — занятое дисковое пространство (в байтах). Выводится два графика: для каждого хоста и для всех хостов.
- Disk space usage per host — использование дискового пространства, для каждого хоста (в процентах).
- Disk usage per host — скорость дисковых операций, для каждого хоста (байт/с).
- Disk write per host — скорость записи на диск, для каждого хоста (байт/с).
- Ephemeral nodes — количество объектов Ephemeral node.
Примечание
Подробнее об объектах Znode, Ephemeral node и Watch см. в документации ZooKeeper.
- Memory usage — использование оперативной памяти (в байтах).
- Memory usage per host — использование оперативной памяти, для каждого хоста (выводится два графика: в байтах и в процентах).
- Network data received per host — скорость приема данных из сети, для каждого хоста (байт/с).
- Network data sent per host — скорость отправки данных в сеть, для каждого хоста (байт/с).
- Network usage per host — скорость обмена данными по сети, для каждого хоста (байт/с).
- Outstanding requests per ZooKeeper host — количество запросов, находящихся в обработке, для каждого хоста ZooKeeper.
- Transactions — количество транзакций в секунду.
- Transactions per ClickHouse host — количество транзакций в секунду, для каждого хоста ClickHouse.
- Watches — количество объектов Watch.
- Znodes — количество объектов Znode.
Мониторинг состояния хостов
Для просмотра детальной информации о состоянии отдельных хостов Managed Service for ClickHouse:
- В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for ClickHouse.
- Нажмите на имя нужного кластера и выберите вкладку Хосты.
- Выберите вкладку Мониторинги.
- Выберите нужный хост из выпадающего списка. Возле имени хоста будет показан его тип:
CLICKHOUSE
илиZOOKEEPER
.
На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:
- CPU — загрузка процессорных ядер. При повышении нагрузки значение Idle уменьшается.
- Disk Bytes — скорость дисковых операций (байт/с).
- Disk IOPS — интенсивность дисковых операций (операций/с).
- Memory — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, остальные — растут.
- Network Bytes — скорость обмена данными по сети (байт/с).
- Network Packets — интенсивность обмена данными по сети (пакетов/с).
Интеграция с Yandex Monitoring
Чтобы настроить алерты показателей состояния кластера и хостов:
- В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
- Нажмите на значок и выберите раздел Monitoring.
- В блоке Сервисные дашборды выберите:
- Managed Service for ClickHouse — Cluster Overview для настройки алертов кластера;
- Managed Service for ClickHouse — ZooKeeper для настройки алертов хостов ZooKeeper.
- На нужном графике с показателями нажмите на значок и выберите Создать алерт.
- Если на графике больше одного показателя, создайте запрос данных для формирования метрики. Подробнее о языке запросов см. в документации Yandex Monitoring.
- Задайте значения порогов
Alarm
иWarning
для алерта. - Нажмите кнопку Создать алерт.
Чтобы настроить автоматический мониторинг других показателей состояния кластера:
-
В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
-
Добавьте метрику состояния.
-
В параметрах задайте значения порогов для алерта.
Рекомендуемые значения порогов для некоторых метрик:
Метрика | Обозначение | Alarm |
Warning |
---|---|---|---|
Максимальное число кусков данных в разделе | ch_system_async_metrics_MaxPartCountForPartition |
250 |
150 |
Количество запросов, завершившихся с ошибкой | ch_system_events_FailedQuery_rate |
20% от общего числа запросов | 10% от общего числа запросов |
Объем использованного хранилища | disk.used_bytes |
95% от размера хранилища | 80% от размера хранилища |
Количество работоспособных хостов | is_alive |
<количество хостов> - 2 |
<количество хостов> - 1 |
Чтобы определить пороговые значения метрики ch_system_events_FailedQuery_rate
, используйте значение показателя Total queries
для кластера.
Текущий размер хранилища можно посмотреть в детальной информации о кластере.
Состояние и статус кластера
Состояние кластера указывает на исправность его хостов, а статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.
Для просмотра состояния и статуса кластера:
- В консоли управления перейдите на страницу каталога и выберите Managed Service for ClickHouse.
- Наведите курсор на индикатор в столбце Статус в строке нужного кластера.
Состояния кластера
Состояние | Описание | Предлагаемые действия |
---|---|---|
ALIVE | Кластер работает в штатном режиме. | Действий не требуется. |
DEGRADED | Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE . |
Выполните диагностику:
|
DEAD | Кластер неработоспособен: все его хосты не работают. | Составьте обращение в службу поддержки, указав:
|
UNKNOWN | Состояние кластера неизвестно. | Составьте обращение в службу поддержки, указав:
|
Статусы кластера
Статус | Описание | Предлагаемые действия |
---|---|---|
CREATING | Идет подготовка к первому запуску | Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов. |
RUNNING | Кластер работает в штатном режиме | Действий не требуется. |
STOPPING | Кластер останавливается | Через некоторое время кластеру будет присвоен статус STOPPED , и он будет выведен из работы. Действий не требуется. |
STOPPED | Кластер остановлен | Чтобы вернуть его в работу, обратитесь к разделу Остановка и запуск кластера |
STARTING | Остановленный ранее кластер запускается | Через некоторое время кластеру будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
UPDATING | Выполняется обновление состояния кластера | По завершении обновления ему будет присвоен статус RUNNING . Подождите немного и приступайте к работе. |
ERROR | Произошла ошибка, которая не позволяет кластеру продолжить работу | Выполните начальную диагностику:
|
STATUS_UNKNOWN | Кластер не может определить свой статус | Выполните начальную диагностику:
|