Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex Data Proc
  • Практические руководства
    • Работа с заданиями
      • Обзор
      • Работа с заданиями Hive
      • Работа с заданиями MapReduce
      • Работа с заданиями PySpark
      • Работа с заданиями Spark
      • Использование Apache Hive
      • Запуск Spark-приложений
      • Запуск приложений с удаленного хоста
    • Настройка сети для кластеров Data Proc
    • Использование Yandex Object Storage в Data Proc
    • Обмен данными с Managed Service for ClickHouse
    • Импорт базы данных с использованием Sqoop
  • Пошаговые инструкции
    • Все инструкции
    • Информация об имеющихся кластерах
    • Создание кластера
    • Подключение к кластеру
    • Изменение кластера
    • Изменение подкластера
    • Управление подкластерами
    • Подключение к интерфейсам компонентов
    • Использование Sqoop
    • Управление заданиями
      • Все задания
      • Задания Spark
      • Задания PySpark
      • Задания Hive
      • Задания MapReduce
    • Удаление кластера
    • Работа с логами
    • Мониторинг состояния кластера и хостов
  • Концепции
    • Обзор Data Proc
    • Классы хостов
    • Среда исполнения
    • Интерфейсы и порты компонентов Data Proc
    • Задания в Data Proc
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Data Proc
    • Техническое обслуживание
    • Квоты и лимиты
    • Свойства компонентов
    • Логи в Data Proc
  • Управление доступом
  • Правила тарификации
  • Справочник API
    • Аутентификация в API
    • gRPC (англ.)
      • Overview
      • ClusterService
      • JobService
      • ResourcePresetService
      • SubclusterService
      • OperationService
    • REST (англ.)
      • Overview
      • Cluster
        • Overview
        • create
        • delete
        • get
        • list
        • listHosts
        • listOperations
        • listUILinks
        • start
        • stop
        • update
      • Job
        • Overview
        • cancel
        • create
        • get
        • list
        • listLog
      • ResourcePreset
        • Overview
        • get
        • list
      • Subcluster
        • Overview
        • create
        • delete
        • get
        • list
        • update
  • История изменений
    • Изменения сервиса
    • Образы
  • Вопросы и ответы
  1. Пошаговые инструкции
  2. Управление заданиями
  3. Задания MapReduce

Управление заданиями MapReduce

Статья создана
Yandex.Cloud
  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания

Создать задание

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.

  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

  3. Нажмите кнопку Создать задание.

  4. (опционально) Укажите имя задания.

  5. В поле Тип задания выберите Mapreduce.

  6. Выберите один из типов драйвера и укажите, что использовать для запуска задания:

    • имя основного класса;

    • путь к основному JAR-файлу в формате:

      Размещение файла Формат пути
      Файловая система инстанса file:///<путь к файлу>
      Распределенная файловая система кластера hdfs:///<путь к файлу>
      Бакет Object Storage s3a://<имя бакета>/<путь к файлу>
      Интернет http://<путь к файлу> или https://<путь к файлу>

      Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

      Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

  7. Укажите аргументы задания.

    Если аргумент, переменная или свойство состоит из нескольких частей, разделенных пробелом, указывайте каждую часть отдельно. При этом важно сохранить порядок объявления аргументов, переменных и свойств.

    Например, аргумент -mapper mapper.py должен быть преобразован в два аргумента -mapper и mapper.py, стоящих последовательно.

  8. (опционально) Укажите пути к дополнительным JAR-файлам, если они используются.

  9. (опционально) Задайте продвинутые настройки:

    • Пути к необходимым файлам и архивам.
    • Настройки в виде пары ключ-значение.
  10. Нажмите кнопку Создать задание.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы создать задание:

  1. Посмотрите описание команды CLI для создания заданий типа Mapreduce:

    yc dataproc job create-mapreduce --help
    
  2. Создайте задание (в примере приведены не все доступные параметры):

    yc dataproc job create-mapreduce \
      --cluster-name <имя кластера> \
      --name <имя задания> \
      --main-class <имя основного класса> \
      --file-uris <путь к файлу> \
      --archive-uris <пути к архивам> \
      --properties <ключ-значение> \
      --args <аргумент> \
    

    Пути к необходимым для выполнения задания файлам передавайте в формате:

    Размещение файла Формат пути
    Файловая система инстанса file:///<путь к файлу>
    Распределенная файловая система кластера hdfs:///<путь к файлу>
    Бакет Object Storage s3a://<имя бакета>/<путь к файлу>
    Интернет http://<путь к файлу> или https://<путь к файлу>

    Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

    Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API create и передайте в запросе:

  • идентификатор кластера в параметре clusterId;
  • имя задания в параметре name;
  • свойства задания в параметре mapreduceJob.

Идентификатор кластера можно получить со списком кластеров в каталоге.

Отменить задание

Примечание

Задания в статусах ERROR, DONE или CANCELLED отменить нельзя. Чтобы узнать статус задания, получите список заданий в кластере.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.
  4. В правом верхнем углу страницы нажмите кнопку Отменить и подтвердите действие.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы отменить задание, выполните команду:

yc dataproc job cancel <идентификатор или имя задания> \
   --cluster-name=<имя кластера>

Идентификатор и имя задания можно получить со списком заданий в кластере, имя кластера — со списком кластеров в каталоге.

Воспользуйтесь методом API cancel и передайте в запросе:

  • идентификатор кластера в параметре clusterId;
  • идентификатор задания в параметре jobId.

Идентификатор кластера можно получить со списком кластеров в каталоге, идентификатор задания — со списком заданий в кластере.

Получить список заданий

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы получить список заданий, выполните команду:

yc dataproc job list --cluster-name <имя кластера>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API list и передайте идентификатор кластера в параметре clusterId запроса.

Идентификатор кластера можно получить со списком кластеров в каталоге.

Получить общую информацию о задании

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Для получения общей информации о задании выполните команду:

yc dataproc job get \
   --cluster-name <имя кластера> \
   --name <имя задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API get и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Получить логи выполнения задания

Примечание

Вы можете просматривать логи выполнения заданий и искать в них информацию с помощью сервиса Yandex Cloud Logging. Подробнее см. в разделе Работа с логами.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы получить логи выполнения задания, выполните команду:

yc dataproc job log \
   --cluster-name <имя кластера> \
   --name <имя задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API listLog и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге.
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания