Шардирование таблиц в ClickHouse®

Статья создана

Обновлена 27 апреля 2024 г.

Перед началом работы
- Подготовьте инфраструктуру
- Настройте clickhouse-client
Создайте таблицы с данными
Проверьте работоспособность таблиц
Удалите созданные ресурсы

Шардирование обеспечивает ряд преимуществ при высокой частоте запросов и работе с большими наборами данных. При этом создается распределенная таблица, которая маршрутизирует запросы к нижележащим таблицам. Обращаться к данным в шардированных таблицах можно как через распределенную таблицу, так и напрямую.

Существует три подхода к шардированию:

Классический, когда распределенная таблица использует все шарды кластера.
С группами шардов, когда часть шардов объединена в группу.
Продвинутый с группами шардов, когда шарды разделены на две группы: в одной находится распределенная таблица, в другой — нижележащие таблицы.

Далее рассмотрены примеры настройки шардирования для всех трех подходов.

Подробнее читайте в разделе Шардирование в Managed Service for ClickHouse®.

Чтобы настроить шардирование:

Если созданные ресурсы вам больше не нужны, удалите их.

Перед началом работы

Подготовьте инфраструктуру

Вручную

Terraform

Создайте кластер Managed Service for ClickHouse®:
- Имя кластера — chcluster.
- Тип диска — выберите нужный тип дисков.
  
  От выбранного типа дисков зависит минимальное количество хостов в каждом шарде:
  - Два хоста, если выбраны локальные SSD-диски (local-ssd).
  - Три хоста, если выбраны сетевые нереплицируемые диски (network-ssd-nonreplicated).
  Дополнительные хосты для этих типов дисков необходимы для обеспечения отказоустойчивости.
  
  Подробнее см. в разделе Типы дисков в Managed Service for ClickHouse®.
- Имя БД — tutorial.
Хосты кластера должны быть доступны из интернета.
Создайте два дополнительных шарда с именами shard2, shard3.
Добавьте в кластер три хоста ZooKeeper.
Создайте группы шардов. Их количество зависит от типа шардирования:
- Шардирование с использованием групп шардов требует одну группу шардов с именем sgroup, которая включает шарды shard1 и shard2.
- Продвинутое шардирование с использованием групп шардов требует две группы:
  - sgroup включает shard1 и shard2.
  - sgroup_data включает shard3.
Для классического шардирования создание групп шардов не требуется.
Если вы используете группы безопасности, настройте их так, чтобы к кластеру можно было подключаться из интернета.

Если у вас еще нет Terraform, установите его.
Получите данные для аутентификации. Вы можете добавить их в переменные окружения или указать далее в файле с настройками провайдера.
Настройте и инициализируйте провайдер. Чтобы не создавать конфигурационный файл с настройками провайдера вручную, скачайте его.
Поместите конфигурационный файл в отдельную рабочую директорию и укажите значения параметров. Если данные для аутентификации не были добавлены в переменные окружения, укажите их в конфигурационном файле.
Скачайте в ту же рабочую директорию файл конфигурации для одного из описанных ниже примеров шардирования:
- simple-sharding.tf — классическое шардирование.
- sharding-with-group.tf — шардирование с использованием групп шардов.
- advanced-sharding-with-groups.tf — продвинутое шардирование с использованием групп шардов.
В каждом файле описаны:
- сеть;
- подсеть;
- группа безопасности по умолчанию и правила, необходимые для подключения к кластеру из интернета;
- кластер Managed Service for ClickHouse® с необходимыми хостами и шардами.
Укажите в конфигурационном файле имя пользователя и пароль, которые будут использоваться для доступа к кластеру Managed Service for ClickHouse®.
Проверьте корректность файлов конфигурации Terraform с помощью команды:
```
terraform validate
```
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
Создайте необходимую инфраструктуру:
1. Выполните команду для просмотра планируемых изменений:
```
terraform plan
```
  Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
2. Если вас устраивают планируемые изменения, внесите их:
  1. Выполните команду:
```
terraform apply
```
  2. Подтвердите изменение ресурсов.
  3. Дождитесь завершения операции.
В указанном каталоге будут созданы все требуемые ресурсы. Проверить появление ресурсов и их настройки можно в консоли управления.

Настройте clickhouse-client

Установите и настройте clickhouse-client, чтобы иметь возможность подключаться с его помощью к базе данных.

Создайте таблицы с данными

Пусть необходимо включить шардирование для таблицы hits_v1. Текст запроса на создание таблицы зависит от выбранного подхода к шардированию.

Структура таблицы, которую нужно подставить вместо обозначения <структура_таблицы>, приведена в документации ClickHouse®.

После включения шардирования любым из способов, вы сможете отправлять SELECT- и INSERT-запросы к созданной распределенной таблице, и они будут обрабатываться согласно заданной конфигурации.

В примерах в качестве ключа шардирования используется случайное число rand().

Классическое шардирование

В этом примере распределенная таблица, которая будет создана на основе hits_v1, использует все шарды shard1, shard2, shard3 кластера chcluster.

Перед работой с распределенной таблицей:

Подключитесь к базе tutorial.

Создайте таблицу hits_v1 на движке MergeTree, которая будет размещена на всех хостах кластера:

CREATE TABLE tutorial.hits_v1 ON CLUSTER '{cluster}' ( <структура_таблицы> )
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192

Чтобы создать распределенную таблицу hits_v1_distributed в кластере:

Подключитесь к базе tutorial.
Создайте таблицу на движке Distributed:
```
CREATE TABLE tutorial.hits_v1_distributed ON CLUSTER '{cluster}' AS tutorial.hits_v1
ENGINE = Distributed('{cluster}', tutorial, hits_v1, rand())
```
Здесь допустимо вместо явного указания структуры таблицы использовать выражение AS tutorial.hits_v1, т. к. таблицы hits_v1_distributed и hits_v1 находятся на одних и тех же хостах кластера.

При создании таблицы на движке Distributed укажите идентификатор кластера chcluster. Его можно получить со списком кластеров в каталоге.

Совет

Вместо идентификатора кластера можно использовать макрос {cluster} — при выполнении запроса идентификатор кластера, в котором выполняется операция CREATE TABLE, будет подставлен автоматически.

Шардирование с использованием групп шардов

В этом примере:

Используется одна группа шардов sgroup.
Распределенная таблица и нижележащая таблица hits_v1 расположены в одной группе шардов sgroup кластера.

Перед работой с распределенной таблицей:

Подключитесь к базе tutorial.

Создайте таблицу hits_v1 на движке MergeTree, которая использует все хосты группы шардов sgroup кластера:

CREATE TABLE tutorial.hits_v1 ON CLUSTER sgroup ( <структура_таблицы> )
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192

Чтобы создать распределенную таблицу tutorial.hits_v1_distributed в кластере:

Подключитесь к базе tutorial.
Создайте таблицу на движке Distributed:
```
CREATE TABLE tutorial.hits_v1_distributed ON CLUSTER sgroup AS tutorial.hits_v1
ENGINE = Distributed(sgroup, tutorial, hits_v1, rand())
```
Здесь допустимо вместо явного указания структуры таблицы использовать выражение AS tutorial.hits_v1, т. к. таблицы hits_v1_distributed и hits_v1 используют один шард и находятся на одних и тех же хостах.

Продвинутое шардирование с использованием групп шардов

В этом примере:

Используются две группы шардов: sgroup и sgroup_data.
Распределенная таблица расположена в группе шардов sgroup.
Нижележащая таблица hits_v1 расположена в группе шардов sgroup_data.

Перед работой с распределенной таблицей:

Подключитесь к базе tutorial.

Создайте таблицу hits_v1 на движке ReplicatedMergeTree, которая использует все хосты группы шардов sgroup_data кластера:

CREATE TABLE tutorial.hits_v1 ON CLUSTER sgroup_data ( <структура_таблицы> )
ENGINE = ReplicatedMergeTree('/tables/{shard}/hits_v1', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192

Движок ReplicatedMergeTree используется для обеспечения отказоустойчивости.

Чтобы создать распределенную таблицу tutorial.hits_v1_distributed в кластере:

Подключитесь к базе tutorial.
Создайте таблицу на движке Distributed:
```
CREATE TABLE tutorial.hits_v1_distributed ON CLUSTER sgroup ( <структура_таблицы> )
ENGINE = Distributed(sgroup_data, tutorial, hits_v1, rand())
```
Здесь необходимо явно указать структуру распределенной таблицы, т. к. таблицы hits_v1_distributed и hits_v1 используют разные шарды и находятся на разных хостах.

Проверьте работоспособность таблиц

Чтобы проверить работоспособность созданной распределенной таблицы tutorial.hits_v1_distributed:

Загрузите тестовый набор данных hits_v1:

curl https://storage.yandexcloud.net/doc-files/managed-clickhouse/hits_v1.tsv.xz | unxz --threads=`nproc` > hits_v1.tsv

Наполните таблицу тестовыми данными:

clickhouse-client \
   --host "<FQDN_любого_хоста_с_распределенной_таблицей>" \
   --secure \
   --port 9440 \
   --user "<имя_пользователя>" \
   --password "<пароль_пользователя>" \
   --database "tutorial" \
   --query "INSERT INTO tutorial.hits_v1_distributed FORMAT TSV" \
   --max_insert_block_size=100000 < hits_v1.tsv

Чтобы узнать имена хостов, посмотрите список хостов ClickHouse® в кластере.

Выполните один или несколько тестовых запросов к этой таблице. Например, можно узнать количество строк в ней:
```
SELECT count() FROM tutorial.hits_v1_distributed
```
Результат:
```
8873898
```

Удалите созданные ресурсы

Удалите ресурсы, которые вы больше не будете использовать, чтобы за них не списывалась плата:

Вручную

Terraform

Удалите кластер Managed Service for ClickHouse®.
Если для доступа к кластеру использовались статические публичные IP-адреса, освободите и удалите их.

Чтобы удалить инфраструктуру, созданную с помощью Terraform:

В терминале перейдите в директорию с планом инфраструктуры.
Удалите конфигурационный файл (simple-sharding.tf sharding-with-group.tf или advanced-sharding-with-groups.tf).
Проверьте корректность файлов конфигурации Terraform с помощью команды:
```
terraform validate
```
Если в файлах конфигурации есть ошибки, Terraform на них укажет.
Подтвердите изменение ресурсов.
1. Выполните команду для просмотра планируемых изменений:
```
terraform plan
```
  Если конфигурации ресурсов описаны верно, в терминале отобразится список изменяемых ресурсов и их параметров. Это проверочный этап: ресурсы не будут изменены.
2. Если вас устраивают планируемые изменения, внесите их:
  1. Выполните команду:
```
terraform apply
```
  2. Подтвердите изменение ресурсов.
  3. Дождитесь завершения операции.
Все ресурсы, которые были описаны в конфигурационном файле, будут удалены.

ClickHouse® является зарегистрированным товарным знаком ClickHouse, Inc.

Шардирование таблиц в ClickHouse®

Перед началом работыПеред началом работы

Подготовьте инфраструктуруПодготовьте инфраструктуру

Настройте clickhouse-clientНастройте clickhouse-client

Создайте таблицы с даннымиСоздайте таблицы с данными

Классическое шардированиеКлассическое шардирование

Шардирование с использованием групп шардовШардирование с использованием групп шардов

Продвинутое шардирование с использованием групп шардовПродвинутое шардирование с использованием групп шардов

Проверьте работоспособность таблицПроверьте работоспособность таблиц

Удалите созданные ресурсыУдалите созданные ресурсы

Была ли статья полезна?

Перед началом работы

Подготовьте инфраструктуру

Настройте clickhouse-client

Создайте таблицы с данными

Классическое шардирование

Шардирование с использованием групп шардов

Продвинутое шардирование с использованием групп шардов

Проверьте работоспособность таблиц

Удалите созданные ресурсы