Yandex.Cloud
  • Сервисы
  • Почему Yandex.Cloud
  • Сообщество
  • Решения
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Yandex Data Proc
  • Сценарии использования
    • Настройка сети для кластеров Data Proc
    • Использование Apache Hive
    • Запуск Spark-приложений
    • Запуск приложений с удаленного хоста
    • Копирование файлов из Yandex Object Storage
  • Пошаговые инструкции
    • Все инструкции
    • Создание кластера
    • Подключение к кластеру
    • Изменение подкластера
    • Управление подкластерами
    • Удаление кластера
  • Концепции
    • Обзор Data Proc
    • Классы хостов
    • Версии Hadoop и компонентов
    • Интерфейсы и порты компонентов
    • Веб-интерфейсы компонентов
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Data Proc
    • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Справочник API
    • Аутентификация в API
    • gRPC
      • Обзор
      • ClusterService
      • JobService
      • ResourcePresetService
      • SubclusterService
      • OperationService
    • REST
      • Обзор
      • Cluster
        • Обзор
        • create
        • delete
        • get
        • list
        • listHosts
        • listOperations
        • start
        • stop
        • update
      • Job
        • Обзор
        • create
        • get
        • list
      • ResourcePreset
        • Обзор
        • get
        • list
      • Subcluster
        • Обзор
        • create
        • delete
        • get
        • list
        • update
  • Вопросы и ответы
  1. Пошаговые инструкции
  2. Создание кластера

Создание кластера Data Proc

    Консоль управления
    1. В консоли управления выберите каталог, в котором нужно создать кластер.

    2. Нажмите кнопку Создать ресурс и выберите Кластер Data Proc в выпадающем списке.

    3. Введите имя кластера в поле Имя кластера. Имя кластера должно быть уникальным в рамках каталога.

    4. Выберите подходящую версию образа и компоненты, которые вы хотите использовать в кластере.

      Примечание

      Обратите внимание на то, что некоторые компоненты обязательны для использования других компонентов. Например, чтобы использовать Spark необходим YARN.

    5. Вставьте в поле Публичный ключ публичную часть вашего SSH-ключа. Как сгенерировать и использовать SSH-ключи, читайте в документации Yandex Compute Cloud.

    6. Выберите или создайте сервисный аккаунт, которому нужно разрешить доступ к кластеру.

    7. Выберите зону доступности для кластера.

    8. При необходимости задайте свойства Hadoop и его компонентов, например:

      hdfs:dfs.replication : 2
      hdfs:dfs.blocksize : 1073741824
      spark:spark.driver.cores : 1
      

      Доступные свойства перечислены в официальной документации компонентов:

      • Hadoop
      • HDFS
      • YARN
      • MapReduce
      • Spark
      • Flume 1.8.0
      • HBASE
      • HIVE
      • SQOOP
      • Tez 0.9.1
      • Zeppelin 0.7.3
      • ZooKeeper 3.4.6
    9. Выберите или создайте сеть для кластера.

    10. Включите опцию UI Proxy, чтобы получить доступ к веб-интерфейсам компонентов Data Proc.

    11. Настройте подкластеры: не больше одного главного подкластера с управляющим хостом (обозначается как Мастер), и подкластеры для хранения данных или вычислений.

      Роли подкластеров (Compute и Data) различаются тем, что на Data-подкластерах можно разворачивать компоненты для хранения данных, а на Compute — компоненты обработки данных. Хранилище на подкластере Compute предназначено только для временного хранения обрабатываемых файлов.

    12. Для каждого подкластера можно настроить:

      • Количество хостов.
      • Класс хостов — платформа и вычислительные ресурсы, доступные хосту.
      • Размер и тип хранилища.
      • Подсеть сети, в которой расположен кластер.
    13. Для Compute подкластеров можно задать параметры автоматического масштабирования.

      Примечание

      Для работы автоматического масштабирования необходимо выдать следующие роли сервисному аккаунту кластера:

      • editor;
      • dataproc.agent.
      1. В блоке Добавить подкластер нажмите кнопку Добавить.
      2. В поле Роли выберите COMPUTENODE.
      3. В блоке Масштабирование включите настройку Автоматическое масштабирование.
      4. Задайте параметры автоматического масштабирования.
      5. По умолчанию в качестве метрики для автоматического масштабирования используется yarn.cluster.containersPending. Чтобы включить масштабирование на основе загрузки CPU, выключите настройку Масштабирование по умолчанию и укажите целевой уровень загрузки CPU.
      6. Нажмите кнопку Добавить.
    14. После того как все нужные подкластеры настроены, нажмите кнопку Создать кластер.

    Data Proc запустит операцию создания кластера. После того, как кластер перейдет в статус Running, вы можете подключиться к любому активному подкластеру с помощью указанного SSH-ключа.

    Language / Region
    Вакансии
    Политика конфиденциальности
    Условия использования
    Брендбук
    © 2021 ООО «Яндекс.Облако»