Yandex.Cloud
  • Сервисы
  • Почему Yandex.Cloud
  • Сообщество
  • Решения
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Yandex Data Proc
  • Сценарии использования
    • Настройка сети для кластеров Data Proc
    • Использование Apache Hive
    • Запуск Spark-приложений
    • Запуск приложений с удаленного хоста
    • Копирование файлов из Yandex Object Storage
  • Пошаговые инструкции
    • Все инструкции
    • Создание кластера
    • Подключение к кластеру
    • Изменение подкластера
    • Управление подкластерами
    • Удаление кластера
  • Концепции
    • Обзор Data Proc
    • Классы хостов
    • Версии Hadoop и компонентов
    • Интерфейсы и порты компонентов
    • Веб-интерфейсы компонентов
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Data Proc
    • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Справочник API
    • Аутентификация в API
    • gRPC
      • Обзор
      • ClusterService
      • JobService
      • ResourcePresetService
      • SubclusterService
      • OperationService
    • REST
      • Обзор
      • Cluster
        • Обзор
        • create
        • delete
        • get
        • list
        • listHosts
        • listOperations
        • start
        • stop
        • update
      • Job
        • Обзор
        • create
        • get
        • list
      • ResourcePreset
        • Обзор
        • get
        • list
      • Subcluster
        • Обзор
        • create
        • delete
        • get
        • list
        • update
  • Вопросы и ответы
  1. Концепции
  2. Обзор Data Proc

Взаимосвязь ресурсов сервиса Data Proc

  • Безопасность

Сервис Data Proc позволяет реализовать распределенное хранение и обработку данных с помощью сервисов из экосистемы Apache Hadoop.

Основная сущность сервиса — кластер. Кластер объединяет все ресурсы, доступные Hadoop: вычислительные мощности и хранилище.

Каждый кластер состоит из подкластеров. Подкластеры объединяют хосты, выполняющие идентичные функции:

  • Подкластер с управляющими хостами (например, NameNode для HDFS или ResourceManager для YARN).

    Примечание

    В каждом кластере может быть не больше 1 подкластера с управляющими хостами.

  • Подкластеры для хранения данных (например, DataNode для HDFS).

  • Подкластеры для обработки данных (например, NodeManager для YARN).

Подкластеры каждого кластера должны находиться в одной облачной сети и в одной зоне доступности. Подробнее о географии Yandex.Cloud.

Хосты в каждом подкластере создаются с вычислительной мощностью, соответствующей указанному классу хостов. Список доступных классов хостов и их характеристики см. в разделе Классы хостов.

О сетевой конфигурации и сетевом доступе к кластеру см. раздел Сеть, кластеры и подкластеры.

Безопасность

Так как кластер Data Proc имеет функцию запуска заданий без непосредственного доступа к кластеру по SSH,
то для удобства пользователя кластер пишет журнал выполнения заданий в S3-бакет. Запись в бакет происходит
под сервисным аккаунтом, указанным во время создания кластера. Более подробно с концепцией можно ознакомиться на странице Сервисные аккаунты.

Для Data Proc кластера рекомендуется использовать хотя бы два разных S3 бакета:

  1. Для исходных данных, где сервисный аккаунт имеет права только на чтение
  2. Для журналов и результатов операций - сервисный аккаунт имеет полный доступ.

Это необходимо для уменьшения рисков непредвиденных модификаций и удаления исходных данных.

Language / Region
Вакансии
Политика конфиденциальности
Условия использования
Брендбук
© 2021 ООО «Яндекс.Облако»