Создание кластера Data Proc
-
В консоли управления выберите каталог, в котором нужно создать кластер.
-
Нажмите кнопку Создать ресурс и выберите Кластер Data Proc в выпадающем списке.
-
Введите имя кластера в поле Имя кластера. Имя кластера должно быть уникальным в рамках каталога.
-
Выберите подходящую версию образа и компоненты, которые вы хотите использовать в кластере.
Примечание
Обратите внимание на то, что некоторые компоненты обязательны для использования других компонентов. Например, чтобы использовать Spark необходим YARN.
-
Вставьте в поле Публичный ключ публичную часть вашего SSH-ключа. Как сгенерировать и использовать SSH-ключи, читайте в документации Yandex Compute Cloud.
-
Выберите или создайте сервисный аккаунт, которому нужно разрешить доступ к кластеру.
-
Выберите зону доступности для кластера.
-
При необходимости задайте свойства Hadoop и его компонентов, например:
hdfs:dfs.replication : 2 hdfs:dfs.blocksize : 1073741824 spark:spark.driver.cores : 1
Доступные свойства перечислены в официальной документации компонентов:
-
Выберите или создайте сеть для кластера.
-
Включите опцию UI Proxy, чтобы получить доступ к веб-интерфейсам компонентов Data Proc.
-
Настройте подкластеры: не больше одного главного подкластера с управляющим хостом (обозначается как Мастер), и подкластеры для хранения данных или вычислений.
Роли подкластеров (
Compute
иData
) различаются тем, что наData
-подкластерах можно разворачивать компоненты для хранения данных, а наCompute
— компоненты обработки данных. Хранилище на подкластереCompute
предназначено только для временного хранения обрабатываемых файлов. -
Для каждого подкластера можно настроить:
- Количество хостов.
- Класс хостов — платформа и вычислительные ресурсы, доступные хосту.
- Размер и тип хранилища.
- Подсеть сети, в которой расположен кластер.
-
Для
Compute
подкластеров можно задать параметры автоматического масштабирования.Примечание
Для работы автоматического масштабирования необходимо выдать следующие роли сервисному аккаунту кластера:
editor
;dataproc.agent
.
- В блоке Добавить подкластер нажмите кнопку Добавить.
- В поле Роли выберите COMPUTENODE.
- В блоке Масштабирование включите настройку Автоматическое масштабирование.
- Задайте параметры автоматического масштабирования.
- По умолчанию в качестве метрики для автоматического масштабирования используется
yarn.cluster.containersPending
. Чтобы включить масштабирование на основе загрузки CPU, выключите настройку Масштабирование по умолчанию и укажите целевой уровень загрузки CPU. - Нажмите кнопку Добавить.
-
После того как все нужные подкластеры настроены, нажмите кнопку Создать кластер.
Data Proc запустит операцию создания кластера. После того, как кластер перейдет в статус Running, вы можете подключиться к любому активному подкластеру с помощью указанного SSH-ключа.