Взаимосвязь ресурсов сервиса Data Proc
Сервис Data Proc позволяет реализовать распределенное хранение и обработку данных с помощью сервисов из экосистемы Apache Hadoop.
Основная сущность сервиса — кластер. Кластер объединяет все ресурсы, доступные Hadoop: вычислительные мощности и хранилище.
Каждый кластер состоит из подкластеров. Подкластеры объединяют хосты, выполняющие идентичные функции:
-
Подкластер с управляющими хостами (например, NameNode для HDFS или ResourceManager для YARN).
Примечание
В каждом кластере может быть не больше 1 подкластера с управляющими хостами.
-
Подкластеры для хранения данных (например, DataNode для HDFS).
-
Подкластеры для обработки данных (например, NodeManager для YARN).
Подкластеры каждого кластера должны находиться в одной облачной сети и в одной зоне доступности. Подробнее о географии Yandex Cloud.
Хосты в каждом подкластере создаются с вычислительной мощностью, соответствующей указанному классу хостов. Список доступных классов хостов и их характеристики см. в разделе Классы хостов.
Виртуальные машины, соответствующие хостам кластера, могут размещаться:
-
На стандартных хостах Yandex Cloud.
Это физические серверы для размещения виртуальных машин кластера. Такие хосты выбираются случайным образом из пула доступных хостов, удовлетворяющих выбранной конфигурации подкластеров.
-
На выделенных хостах Yandex Cloud.
Это физические серверы для размещения исключительно ваших виртуальных машин. Эти виртуальные машины обеспечивают как работу кластера, так и работу других ваших сервисов, которые поддерживают выделенные хосты. Такие хосты выбираются из групп выделенных хостов, указанных при создании кластера.
При таком варианте размещения обеспечивается физическая изоляция виртуальных машин. Кластер Data Proc, использующий выделенные хосты, обладает всеми возможностями обычных кластеров.
Подробнее см. в документации Yandex Compute Cloud по выделенным хостам.
О сетевой конфигурации и сетевом доступе к кластеру см. раздел Сеть, кластеры и подкластеры.
Безопасность
Так как кластер Data Proc имеет функцию запуска заданий без непосредственного доступа к кластеру по SSH, то для удобства пользователя кластер пишет журнал выполнения заданий в S3-бакет. Запись в бакет происходит под сервисным аккаунтом, указанным во время создания кластера. Более подробно с концепцией можно ознакомиться на странице Сервисные аккаунты.
Для Data Proc кластера рекомендуется использовать хотя бы два разных S3 бакета:
- Для исходных данных, где сервисный аккаунт имеет права только на чтение.
- Для журналов и результатов операций — сервисный аккаунт имеет полный доступ.
Это необходимо для уменьшения рисков непредвиденных модификаций и удаления исходных данных.