Создание кластера Data Proc

    1. В консоли управления выберите каталог, в котором нужно создать кластер.

    2. Нажмите кнопку Создать ресурс и выберите Кластер Data Proc в выпадающем списке.

    3. Введите имя кластера в поле Имя кластера. Имя кластера должно быть уникальным в рамках каталога.

    4. На этапе Preview доступна только одна версия образа Data Proc — 1.0. Выберите те компоненты, которые вы хотите использовать в кластере.

      Примечание

      Обратите внимание на то, что некоторые компоненты обязательны для использования других компонентов. Например, чтобы использовать Spark необходим YARN.

    5. Вставьте в поле Публичный ключ публичную часть вашего SSH-ключа. О том, как сгенерировать и использовать SSH-ключи, читайте в документации Yandex Compute Cloud.

    6. Выберите или создайте сервисный аккаунт, которому нужно разрешить доступ к кластеру.

    7. Выберите зону доступности для кластера.

    8. При необходимости задайте свойства Hadoop и его компонентов, например:

      hdfs:dfs.replication : 2
      hdfs:dfs.blocksize : 1073741824
      spark:spark.driver.cores : 1
      

      Доступные свойства перечислены в официальной документации компонентов:

    9. Выберите или создайте сеть для кластера.

    10. Настройте подкластеры: не больше одного главного подкластера с управляющим хостом (обозначается как Мастер), и подкластеры для хранения данных или вычислений.

      Роли подкластеров (COMPUTENODE и DATANODE) различаются тем, что на DATANODE-подкластерах можно разворачивать компоненты для хранения данных, а на COMPUTENODE — компоненты обработки данных. Хранилище на подкластере COMPUTENODE предназначено только для временного хранения обрабатываемых файлов.

    11. Для каждого подкластера можно настроить:

      • Количество хостов.
      • Класс хостов — платформа и вычислительные ресурсы, доступные хосту.
      • Размер и тип хранилища.
      • Подсеть сети, в которой расположен кластер.
    12. После того, как все нужные подкластеры настроены, нажмите кнопку Создать кластер.

    Data Proc запустит операцию создания кластера. После того, как кластер перейдет в статус Running, вы можете подключиться к любому активному подкластеру с помощью указанного SSH-ключа.