Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
  • Пошаговые инструкции
    • Все инструкции
    • Управление проектом
      • Создание проекта
      • Выбор версии Python
      • Установка зависимостей
      • Управление вычислительными ресурсами
      • Настроить ограничения вычислений для проекта
      • Настроить ограничения вычислений для каталога
      • Изменение размера хранилища проекта
      • Изменение имени или описания
      • Удаление ноутбука или проекта
    • Поделиться ноутбуком
      • Публикация ноутбука
      • Экспорт проекта
    • Работа с ноутбуком
      • Запуск примеров кода в ноутбуке
      • Версионирование. Работа с контрольными точками
      • Очистка состояния интерпретатора
      • Работа с Git
    • Управление Docker‑образами
      • Docker-образ для проекта
      • Docker-образ в ячейке
    • Подключение к источникам данных
      • Подключение к базе данных ClickHouse
      • Подключение к базе данных PostgreSQL
      • Подключение к хранилищу S3
    • Настройка интеграции с Data Proc
    • Работа с приватными данными
      • Создание секрета
      • Вызов секрета
      • Изменение секрета
      • Копирование секрета
      • Удаление секрета
    • Запуск распределенного обучения
    • Развертывание эксплуатации моделей
      • Создание ноды из ячейки с кодом на Python
      • Настройка окружения ноды
      • Запросы в ноды
  • Концепции
    • Обзор
    • Проект
    • Список предустановленного ПО
    • Доступные команды
    • Служебные команды #pragma
    • Конфигурации вычислительных ресурсов
    • Интеграция с системами контроля версий и данных
    • Сохранение состояния
    • Интеграция с Data Proc
    • Фоновые операции
    • Датасеты
    • Хранение приватных данных
    • Развертывание эксплуатации моделей
    • Использование TensorBoard в DataSphere
    • Распределенное обучение
    • Управление расходами
    • Квоты и лимиты
  • Ранний доступ
    • Обзор
    • Специальные фоновые операции
  • Практические руководства
    • Все руководства
    • Знакомство с DataSphere
    • Голосовая биометрия
    • Оценка качества STT моделей
    • Разметка аудио
    • Классификация изображений на видеокадрах
  • Справочник API
    • Аутентификация в API
    • gRPC (англ.)
      • Overview
      • AppTokenService
      • FolderBudgetService
      • NodeService
      • ProjectDataService
      • ProjectService
      • OperationService
    • REST (англ.)
      • Overview
      • AppToken
        • Overview
        • validate
      • FolderBudget
        • Overview
        • get
        • set
      • Node
        • Overview
        • execute
      • Project
        • Overview
        • create
        • delete
        • execute
        • get
        • getCellOutputs
        • getNotebookMetadata
        • getStateVariables
        • getUnitBalance
        • list
        • open
        • setUnitBalance
        • update
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • Релизы
  • Вопросы и ответы
  1. Концепции
  2. Интеграция с Data Proc

Интеграция с Apache Spark™

Статья создана
Yandex.Cloud
  • Кластер Data Proc
    • Настройка проекта DataSphere для работы с кластерами Data Proc
    • Роли, необходимые для корректной работы с кластерами Data Proc
    • Создание кластера из проекта DataSphere
    • Создание кластера в сервисе Data Proc
  • Вычислительные сессии
    • Запуск python-кода

С помощью интеграции DataSphere с сервисом Yandex Data Proc вы можете производить вычисления на кластерах Apache Spark™. Вычисления производятся в сессиях, созданных с помощью Apache Livy.

Кластер Data Proc

Вы можете использовать кластер, уже созданный в вашей подсети, или создать новый. Для корректной работы интеграции необходимо настроить проект и назначить роли.

Настройка проекта DataSphere для работы с кластерами Data Proc

Чтобы вы могли создавать кластеры Data Proc из DataSphere или запускать уже существующие кластеры Data Proc, у проекта должны быть указаны:

  • сервисный аккаунт, от имени которого будут производиться все операции с кластерами Data Proc;
  • подсеть, в которой будет создаваться или из которой будет подключаться уже существующий кластер Data Proc. В рамках интеграции доступны только подсети, созданные в зоне доступности ru-central1-a.

Эти параметры необходимо указать в дополнительных настройках проекта.

Примечание

Если вы указали подсеть в настройках проекта, время выделения вычислительных ресурсов может быть увеличено.

Роли, необходимые для корректной работы с кластерами Data Proc

  • Для создания кластера Data Proc вам необходимо разрешение на сервисный аккаунт, от имени которого DataSphere будет выполнять операции. Это разрешение входит в роли iam.serviceAccounts.user, editor и выше.
  • Для управления кластерами Data Proc сервисному аккаунту необходимы роли:
    • vpc.user — для доступа к сети, указанной в настройках проекта;
    • mdb.all.admin — для создания и использования кластеров Data Proc;
    • mdb.dataproc.agent — для создания и использования кластеров Data Proc.

Подробнее об управлении доступом.

Создание кластера из проекта DataSphere

Особенности кластера, созданного из проекта DataSphere:

  • Кластер будет создан в каталоге с проектом и в подсети, указанной в настройках проекта.

  • DataSphere следит за временем жизни кластера и автоматически удаляет его после двух часов бездействия.

    Кластер Data Proc считается активным, если на нем производятся вычисления или если активен ноутбук в проекте с кластером. Ноутбук считается активным, если перерыв в вычислениях составляет менее 20 минут.

Подробнее о том, как создать кластер из проекта.

Создание кластера в сервисе Data Proc

Особенности кластера, созданного в сервисе Data Proc:

  • Вы управляете жизненным циклом кластера.
  • Для корректной работы необходима версия кластера Data Proc не ниже 1.3, а также должны быть включены сервисы: LIVY, SPARK, YARN и HDFS.

Подробнее о том, как создать кластер в сервисе.

Вычислительные сессии

В кластере Data Proc ваш код выполняется в сессиях. Сессия хранит промежуточное состояние до тех пор, пока вы не удалите сессию или кластер. У каждого кластера есть сессия по умолчанию. Ее идентификатор равен идентификатору проекта.

Для управления сессиями используйте следующие команды:

  • %create_livy_session --host $host --id $id — создание сессии;
  • %delete_livy_session $id — удаление сессии.

Запуск python-кода

Код запускается в ячейках с заголовком:

#!spark [--cluster <кластер>] [--session <сессия>] [--variables <переменная>].

Где:

  • <кластер> — кластер Data Proc, на котором будут производиться вычисления. Может быть:
    • HTTP-ссылкой на Livy, например, http://10.0.0.8:8998/.
    • Именем кластера, созданного через интерфейс ноутбука.
    • Кластером Data Proc из настроек проекта в консоли управления, если параметр пропущен.
  • <сессия> — идентификатор вычислительной сессии. Если параметр пропущен, используется сессия кластера Data Proc по умолчанию.
  • <переменная> — переменная, импортированная в ячейку из ядра. Поддерживаемые типы: bool, int, float, str, pandas.DataFrame (преобразовывается в Spark DataFrame).

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Кластер Data Proc
  • Настройка проекта DataSphere для работы с кластерами Data Proc
  • Роли, необходимые для корректной работы с кластерами Data Proc
  • Создание кластера из проекта DataSphere
  • Создание кластера в сервисе Data Proc
  • Вычислительные сессии
  • Запуск python-кода