Взаимосвязь ресурсов сервиса Data Proc
Сервис Data Proc позволяет реализовать распределенное хранение и обработку данных с помощью сервисов из экосистемы Apache Hadoop.
Основная сущность сервиса — кластер. Кластер объединяет все ресурсы, доступные Hadoop: вычислительные мощности и хранилище.
Каждый кластер состоит из подкластеров. Подкластеры объединяют хосты, выполняющие идентичные функции:
-
Подкластер с управляющими хостами (например, NameNode для HDFS или ResourceManager для YARN).
Примечание
В каждом кластере может быть не больше 1 подкластера с управляющими хостами.
-
Подкластеры для хранения данных (например, DataNode для HDFS).
-
Подкластеры для обработки данных (например, NodeManager для YARN).
Подкластеры каждого кластера должны находиться в одной облачной сети и в одной зоне доступности. Подробнее о географии Yandex.Cloud.
Хосты в каждом подкластере создаются с вычислительной мощностью, соответствующей указанному классу хостов. Список доступных классов хостов и их характеристики см. в разделе Классы хостов.
О сетевой конфигурации и сетевом доступе к кластеру см. раздел Сеть, кластеры и подкластеры.
Безопасность
Так как кластер Data Proc имеет функцию запуска заданий без непосредственного доступа к кластеру по SSH,
то для удобства пользователя кластер пишет журнал выполнения заданий в S3-бакет. Запись в бакет происходит
под сервисным аккаунтом, указанным во время создания кластера. Более подробно с концепцией можно ознакомиться на странице Сервисные аккаунты.
Для Data Proc кластера рекомендуется использовать хотя бы два разных S3 бакета:
- Для исходных данных, где сервисный аккаунт имеет права только на чтение
- Для журналов и результатов операций - сервисный аккаунт имеет полный доступ.
Это необходимо для уменьшения рисков непредвиденных модификаций и удаления исходных данных.