Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
Проект Яндекса
© 2023 ООО «Яндекс.Облако»
Yandex Managed Service for ClickHouse
  • Начало работы
  • Пошаговые инструкции
    • Все инструкции
    • Информация об имеющихся кластерах
    • Создание кластера
    • Подключение к базе данных
    • Остановка и запуск кластера
    • SQL-запросы в консоли управления
    • Изменение настроек кластера и базы данных
    • Настройка доступа к ObjectStorage
    • Подключение внешних словарей
    • Подключение собственной геобазы
    • Управление моделями машинного обучения
    • Управление схемами формата данных
    • Подключение к DataLens
    • Изменение версии ClickHouse
    • Управление хостами ZooKeeper
    • Управление хостами ClickHouse
    • Управление базами данных
    • Управление пользователями БД
    • Управление резервными копиями
    • Управление шардами
    • Управление группами шардов
    • Просмотр логов кластера
    • Удаление кластера
    • Мониторинг состояния кластера и хостов
  • Практические руководства
    • Все сценарии
    • Добавление данных в БД
    • Шардирование таблиц
    • Использование гибридного хранилища
    • Получение данных из Managed Service for Apache Kafka®
    • Получение данных из RabbitMQ
    • Обмен данными с Yandex Data Proc
    • Настройка Yandex Cloud DNS для доступа к кластеру из других облачных сетей
    • Анализ логов Object Storage при помощи DataLens
    • Настройка Managed Service for ClickHouse для Graphite
    • Сохранение потока данных Yandex Data Streams в Managed Service for ClickHouse
    • Миграция базы данных из Google BigQuery в Managed Service for ClickHouse
    • Поставка данных из Yandex Managed Service for Apache Kafka® с помощью Yandex Data Transfer
  • Концепции
    • Взаимосвязь ресурсов сервиса
    • Классы хостов
      • Действующие классы хостов
      • Архив
        • До 1 июня 2020 года
      • Использование устаревших классов хостов
    • Сеть в Managed Service for ClickHouse
    • Квоты и лимиты
    • Типы дисков
    • Резервные копии
    • Репликация
    • Словари
    • Шардирование
    • Техническое обслуживание
    • Поддерживаемые клиенты
    • Управление памятью в Managed Service for ClickHouse
    • Политика работы с версиями ClickHouse
    • Настройки ClickHouse
  • Управление доступом
  • Правила тарификации
    • Действующие правила
    • Архив
      • До 1 января 2019 года
      • С 1 января до 1 марта 2019 года
      • С 1 марта 2019 года до 1 февраля 2020 года
  • Справочник API
    • Аутентификация в API
    • gRPC (англ.)
      • Overview
      • BackupService
      • ClusterService
      • DatabaseService
      • FormatSchemaService
      • MlModelService
      • ResourcePresetService
      • UserService
      • VersionsService
      • OperationService
    • REST (англ.)
      • Overview
      • Backup
        • Overview
        • get
        • list
      • Cluster
        • Overview
        • addHosts
        • addShard
        • addZookeeper
        • backup
        • create
        • createExternalDictionary
        • createShardGroup
        • delete
        • deleteExternalDictionary
        • deleteHosts
        • deleteShard
        • deleteShardGroup
        • get
        • getShard
        • getShardGroup
        • list
        • listBackups
        • listExternalDictionaries
        • listHosts
        • listLogs
        • listOperations
        • listShardGroups
        • listShards
        • move
        • rescheduleMaintenance
        • restore
        • start
        • stop
        • streamLogs
        • update
        • updateExternalDictionary
        • updateHosts
        • updateShard
        • updateShardGroup
      • Database
        • Overview
        • create
        • delete
        • get
        • list
      • FormatSchema
        • Overview
        • create
        • delete
        • get
        • list
        • update
      • MlModel
        • Overview
        • create
        • delete
        • get
        • list
        • update
      • ResourcePreset
        • Overview
        • get
        • list
      • User
        • Overview
        • create
        • delete
        • get
        • grantPermission
        • list
        • revokePermission
        • update
      • Versions
        • Overview
        • list
      • Operation
        • Overview
        • get
  • История изменений
  • Вопросы и ответы
    • Общие вопросы
    • Вопросы о ClickHouse
    • Подключение
    • Изменение кластера
    • Настройки параметров кластера
    • Перемещение и восстановление кластера
    • Мониторинг и логи
    • Все вопросы на одной странице
  1. Пошаговые инструкции
  2. Мониторинг состояния кластера и хостов

Мониторинг состояния ClickHouse-кластера и хостов

Статья создана
Yandex Cloud
  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Настройка алертов в Yandex Monitoring
  • Состояние и статус кластера
    • Состояния кластера
    • Статусы кластера

Данные о состоянии кластера и его хостов доступны в консоли управления. Их можно посмотреть на вкладке Мониторинг страницы управления кластером или в сервисе Yandex Monitoring.

Диагностическая информация о состоянии кластера представлена в виде графиков.

Период обновления графиков:

  • Для хостов стандартной конфигурации и хостов с увеличенным соотношением количества гигабайт RAM к количеству vCPU (memory-optimized): 15 секунд.
  • Для хостов с гарантированной долей vCPU ниже 100% (burstable): 150 секунд.

Примечание

На графиках автоматически применяются наиболее подходящие кратные единицы измерения (мегабайты, гигабайты и т. д.).

Вы можете настроить алерты в сервисе Yandex Monitoring для получения уведомлений о сбоях в работе кластера. В Yandex Monitoring используются два порога срабатывания алерта: Warning и Alarm. При превышении заданного порога вы получите оповещения через настроенные каналы уведомлений.

Мониторинг состояния кластера

Для просмотра детальной информации о состоянии кластера Managed Service for ClickHouse:

Консоль управления
  1. В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for ClickHouse.

  2. Нажмите на имя нужного кластера и выберите вкладку Мониторинг.

  3. Чтобы перейти к работе с метриками, дашбордами или алертами в сервисе Yandex Monitoring, нажмите кнопку Открыть в мониторинге на панели сверху.

Если в кластере используется механизм репликации и распределения запросов с использованием ZooKeeper, на вкладке Мониторинг появляются две вкладки:

  • Clickhouse — графики, которые показывают работу всего кластера и хостов ClickHouse.
  • Zookeeper — графики, которые характеризуют работу хостов ZooKeeper.

Если репликация не используется или использует механизм ClickHouse Keeper, графики с вкладки Clickhouse показываются на общей вкладке Мониторинг.

Clickhouse
Zookeeper
  • Active locks per host — количество активных блокировок, для каждого хоста.
  • Average insert query time per host — среднее время исполнения запросов вставки, для каждого хоста.
  • Average query time per host — среднее время исполнения запросов, для каждого хоста.
  • Average select query time per host — среднее время исполнения запросов выборки, для каждого хоста.
  • Connections per host — количество подключений, для каждого хоста.
  • Data parts — количество кусков данных.
  • Databases — количество баз данных.
  • CPU cores usage — количество занятых процессорных ядер.
  • CPU cores usage per host — количество занятых процессорных ядер, для каждого хоста.
  • CPU usage per host — загрузка процессорных ядер, для каждого хоста.
  • Disk read per host — скорость чтения с диска, для каждого хоста (байт/с).
  • Disk space usage — занятое дисковое пространство (в байтах).
  • Disk space usage per host — занятое дисковое пространство, для каждого хоста (выводится два графика: в байтах и в процентах).
  • Disk usage per host — скорость дисковых операций, для каждого хоста (байт/с).
  • Disk write per host — скорость записи на диск, для каждого хоста (байт/с).
  • Failed insert queries per host — процент неуспешных запросов вставки в секунду, для каждого хоста.
  • Failed queries per host — общий процент неуспешных запросов в секунду, для каждого хоста.
  • Failed select queries per host — процент неуспешных запросов выборки в секунду, для каждого хоста.
  • Inode usage — использованное количество inodes (выводится два графика: в штуках и в процентах).
  • Insert queries — количество запросов вставки в секунду.
  • Insert queries per host — количество запросов вставки в секунду, для каждого хоста.
  • Inserted data — скорость вставки данных (байт/с).
  • Inserted data per host — скорость вставки данных, для каждого хоста (байт/с).
  • Inserted rows per host — скорость вставки данных, для каждого хоста (строк/с).
  • Max data parts per partition — количество кусков данных в партиции, наибольшее среди всех таблиц. Лимит для этой величины определяется настройками СУБД. Приближение к лимиту указывает на чрезмерную нагрузку или низкую эффективность вставки данных.
  • Max replication delay across tables — задержка репликации, наибольшая среди всех таблиц. Значения больше нескольких секунд могут указывать на чрезмерную нагрузку или проблемы в работе репликации.
  • Memory usage — использование оперативной памяти (в байтах).
  • Memory usage per host — использование оперативной памяти, для каждого хоста (выводится два графика: в байтах и в процентах).
  • Merged data — скорость слияния данных (байт/с).
  • Merged data per host — скорость слияния данных, для каждого хоста (байт/с).
  • Merged rows per host — скорость слияния данных, для каждого хоста (строк/с).
  • Network data received per host — скорость приема данных из сети, для каждого хоста (байт/с).
  • Network data sent per host — скорость отправки данных в сеть, для каждого хоста (байт/с).
  • Network usage per host — скорость обмена данными по сети, для каждого хоста (байт/с).
  • Read data — скорость чтения данных (байт/с).
  • Read data per host — скорость чтения данных, для каждого хоста (байт/с).
  • Read rows per host — скорость чтения данных, для каждого хоста (строк/с).
  • Replication queue — суммарная очередь репликации всех таблиц.
  • Rows of MergeTree tables — количество строк в таблицах семейства MergeTree.
  • Select queries — количество запросов выборки в секунду.
  • Select queries per host — количество запросов выборки в секунду, для каждого хоста.
  • Tables — количество таблиц.
  • Total queries — общее количество запросов в секунду.
  • Total queries per host — общее количество запросов в секунду, для каждого хоста.
  • Waiting locks per host — количество ожидающих блокировок, для каждого хоста.
  • Average latency per ZooKeeper host — средняя задержка ответа, для каждого хоста ZooKeeper.
  • Average transaction time per ClickHouse host — среднее время транзакции, для каждого хоста ClickHouse. Характеризует время, затрачиваемое ClickHouse на обращения к ZooKeeper.
  • Connections per ZooKeeper host — количество подключений, для каждого хоста ZooKeeper.
  • CPU cores usage — количество занятых процессорных ядер.
  • CPU cores usage per host — количество занятых процессорных ядер, для каждого хоста.
  • CPU usage per host — загрузка процессорных ядер, для каждого хоста.
  • Disk read per host — скорость чтения с диска, для каждого хоста (байт/с).
  • Disk space usage — занятое дисковое пространство (в байтах). Выводится два графика: для каждого хоста и для всех хостов.
  • Disk space usage per host — использование дискового пространства, для каждого хоста (в процентах).
  • Disk usage per host — скорость дисковых операций, для каждого хоста (байт/с).
  • Disk write per host — скорость записи на диск, для каждого хоста (байт/с).
  • Ephemeral nodes — количество объектов Ephemeral node.

Примечание

Подробнее об объектах Znode, Ephemeral node и Watch см. в документации ZooKeeper.

  • Memory usage — использование оперативной памяти (в байтах).
  • Memory usage per host — использование оперативной памяти, для каждого хоста (выводится два графика: в байтах и в процентах).
  • Network data received per host — скорость приема данных из сети, для каждого хоста (байт/с).
  • Network data sent per host — скорость отправки данных в сеть, для каждого хоста (байт/с).
  • Network usage per host — скорость обмена данными по сети, для каждого хоста (байт/с).
  • Outstanding requests per ZooKeeper host — количество запросов, находящихся в обработке, для каждого хоста ZooKeeper.
  • Transactions — количество транзакций в секунду.
  • Transactions per ClickHouse host — количество транзакций в секунду, для каждого хоста ClickHouse.
  • Watches — количество объектов Watch.
  • Znodes — количество объектов Znode.

Мониторинг состояния хостов

Для просмотра детальной информации о состоянии отдельных хостов Managed Service for ClickHouse:

Консоль управления
  1. В консоли управления перейдите на страницу каталога и выберите сервис Managed Service for ClickHouse.
  2. Нажмите на имя нужного кластера и выберите вкладку Хосты.
  3. Выберите вкладку Мониторинги.
  4. Выберите нужный хост из выпадающего списка. Возле имени хоста будет показан его тип: CLICKHOUSE или ZOOKEEPER.

На этой странице выводятся графики, показывающие нагрузку на отдельный хост кластера:

  • CPU usage — загрузка процессорных ядер. При повышении нагрузки значение Idle уменьшается.
  • Disk read/write bytes — скорость дисковых операций (байт/с).
  • Disk IOPS — интенсивность дисковых операций (операций/с).
  • Memory usage — использование оперативной памяти (в байтах). При высоких нагрузках значение параметра Free уменьшается, остальные — растут.
  • Network bytes — скорость обмена данными по сети (байт/с).
  • Network packets — интенсивность обмена данными по сети (пакетов/с).

Настройка алертов в Yandex Monitoring

Консоль управления
  1. В консоли управления выберите каталог с кластером, для которого нужно настроить алерты.
  2. В списке сервисов выберите  Monitoring.
  3. В блоке Сервисные дашборды выберите:
    • Managed Service for ClickHouse — Cluster Overview для настройки алертов кластера;
    • Managed Service for ClickHouse — ZooKeeper для настройки алертов хостов ZooKeeper.
    • Managed Service for ClickHouse — Host Overview для настройки алертов хостов.
  4. На нужном графике с показателями нажмите на значок и выберите Создать алерт.
  5. Если на графике несколько показателей, выберите запрос данных для формирования метрики и нажмите Продолжить. Подробнее о языке запросов см. в документации Yandex Monitoring.
  6. Задайте значения порогов Alarm и Warning для срабатывания алерта.
  7. Нажмите кнопку Создать алерт.

Чтобы настроить автоматический мониторинг других показателей состояния кластера:

Консоль управления
  1. Создайте алерт.
  2. Добавьте метрику состояния.
  3. Задайте в параметрах алерта значения порогов для оповещения.

Рекомендуемые значения порогов для некоторых метрик:

Метрика Обозначение Alarm Warning
Максимальное число кусков данных в разделе ch_system_async_metrics_MaxPartCountForPartition 250 150
Количество запросов, завершившихся с ошибкой ch_system_events_FailedQuery_rate 20% от общего числа запросов 10% от общего числа запросов
Размер использованного хранилища disk.used_bytes 95% от размера хранилища 80% от размера хранилища
Количество работоспособных хостов is_alive <количество хостов> - 2 <количество хостов> - 1

Чтобы определить пороговые значения метрики ch_system_events_FailedQuery_rate, используйте значение показателя Total queries для кластера.

Текущий размер хранилища можно посмотреть в детальной информации о кластере.

Полный список поддерживаемых метрик см. в документации Yandex Monitoring.

Состояние и статус кластера

Состояние кластера указывает на исправность его хостов, а статус показывает, запущен кластер, остановлен или находится в промежуточном состоянии.

Для просмотра состояния и статуса кластера:

Консоль управления
  1. В консоли управления перейдите на страницу каталога и выберите Managed Service for ClickHouse.
  2. Наведите курсор на индикатор в столбце Доступность в строке нужного кластера.

Состояния кластера

Состояние Описание Предлагаемые действия
ALIVE Кластер работает в штатном режиме. Действий не требуется.
DEGRADED Кластер работает не на полную мощность: минимум один из хостов имеет состояние, отличное от ALIVE. Выполните диагностику:
  • Перейдите на вкладку Хосты и посмотрите, какие из них в нерабочем состоянии.
  • Перейдите на вкладку Операции и убедитесь, что все операции завершились.
  • Убедитесь, что кластер не находится в процессе технического обслуживания.
Если причины не удалось выяснить самостоятельно, обратитесь в службу поддержки.
DEAD Кластер неработоспособен: все его хосты не работают. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние DEAD.
UNKNOWN Состояние кластера неизвестно. Составьте обращение в службу поддержки, указав:
  • Идентификатор кластера.
  • Идентификаторы последних операций, которые на нем выполнялись.
  • Время по графикам доступности, когда кластер перешел в состояние UNKNOWN.

Статусы кластера

Статус Описание Предлагаемые действия
CREATING Идет подготовка к первому запуску Подождите немного и приступайте к работе. Время создания кластера зависит от класса хостов.
RUNNING Кластер работает в штатном режиме Действий не требуется.
STOPPING Кластер останавливается Через некоторое время кластеру будет присвоен статус STOPPED, и он будет выведен из работы. Действий не требуется.
STOPPED Кластер остановлен Чтобы вернуть его в работу, обратитесь к разделу Остановка и запуск кластера.
STARTING Остановленный ранее кластер запускается Через некоторое время кластеру будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
UPDATING Выполняется обновление состояния кластера По завершении обновления ему будет присвоен статус RUNNING. Подождите немного и приступайте к работе.
ERROR Произошла ошибка, которая не позволяет кластеру продолжить работу Выполните начальную диагностику:
  • Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись.
  • Соберите список из идентификаторов проблемных ресурсов.
Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.
STATUS_UNKNOWN Кластер не может определить свой статус Выполните начальную диагностику:
  • Проанализируйте графики мониторинга кластера и просмотрите операции, которые на нем выполнялись.
  • Соберите список из идентификаторов проблемных ресурсов.
Если причины ошибки не удалось выяснить самостоятельно, обратитесь в службу поддержки.

Была ли статья полезна?

Language / Region
Проект Яндекса
© 2023 ООО «Яндекс.Облако»
В этой статье:
  • Мониторинг состояния кластера
  • Мониторинг состояния хостов
  • Настройка алертов в Yandex Monitoring
  • Состояние и статус кластера
  • Состояния кластера
  • Статусы кластера