Взаимосвязь ресурсов сервиса Data Proc

    Сервис Data Proc позволяет реализовать распределенное хранение и обработку данных с помощью сервисов из экосистемы Apache Hadoop.

    Основная сущность сервиса — кластер. Кластер объединяет все ресурсы, доступные Hadoop: вычислительные мощности и хранилище.

    Каждый кластер состоит из подкластеров. Подкластеры объединяют хосты, выполняющие идентичные функции:

    • Подкластер с управляющими хостами (например, NameNode для HDFS или ResourceManager для YARN).

      Примечание

      В каждом кластере может быть не больше 1 подкластера с управляющими хостами.

    • Подкластеры для хранения данных (например, DataNode для HDFS).

    • Подкластеры для обработки данных (например, NodeManager для YARN).

    Подкластеры каждого кластера должны находиться в одной облачной сети и в одной зоне доступности. Подробнее о географии Облака.

    Хосты в каждом подкластере создаются с вычислительной мощностью, соответствующей указанному классу хостов. Список доступных классов хостов и их характеристики см. в разделе Классы хостов.

    О сетевой конфигурации и сетевом доступе к кластеру см. раздел Сеть, кластеры и подкластеры.