Взаимосвязь ресурсов сервиса Data Proc

Сервис Data Proc позволяет реализовать распределенное хранение и обработку данных с помощью сервисов из экосистемы Apache Hadoop.

Основная сущность сервиса — кластер. Кластер объединяет все ресурсы, доступные Hadoop: вычислительные мощности и хранилище.

Каждый кластер состоит из подкластеров. Подкластеры объединяют хосты, выполняющие идентичные функции:

  • Подкластер с управляющими хостами (например, NameNode для HDFS или ResourceManager для YARN).

    Примечание

    В каждом кластере может быть не больше 1 подкластера с управляющими хостами.

  • Подкластеры для хранения данных (например, DataNode для HDFS).

  • Подкластеры для обработки данных (например, NodeManager для YARN).

Подкластеры каждого кластера должны находиться в одной облачной сети и в одной зоне доступности. Подробнее о географии Облака.

Хосты в каждом подкластере создаются с вычислительной мощностью, соответствующей указанному классу хостов. Список доступных классов хостов и их характеристики см. в разделе Классы хостов.

О сетевой конфигурации и сетевом доступе к кластеру см. раздел Сеть, кластеры и подкластеры.

Безопасность

Так как кластер Data Proc имеет функцию запуска заданий без непосредственного доступа к кластеру по SSH, то для удобства пользователя кластер пишет журнал выполнения заданий в S3-бакет. Запись в бакет происходит под сервисным аккаунтом, указанным во время создания кластера. Более подробно с концепцией можно ознакомиться на странице Сервисные аккаунты.

Для Data Proc кластера рекомендуется использовать хотя бы два разных S3 бакета:

  1. Для исходных данных, где сервисный аккаунт имеет права только на чтение
  2. Для журналов и результатов операций - сервисный аккаунт имеет полный доступ.

Это необходимо для уменьшения рисков непредвиденных модификаций и удаления исходных данных.