Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex Data Proc
  • Практические руководства
    • Работа с заданиями
      • Обзор
      • Работа с заданиями Hive
      • Работа с заданиями MapReduce
      • Работа с заданиями PySpark
      • Работа с заданиями Spark
      • Использование Apache Hive
      • Запуск Spark-приложений
      • Запуск приложений с удаленного хоста
    • Настройка сети для кластеров Data Proc
    • Использование Yandex Object Storage в Data Proc
    • Обмен данными с Managed Service for ClickHouse
    • Импорт базы данных с использованием Sqoop
  • Пошаговые инструкции
    • Все инструкции
    • Информация об имеющихся кластерах
    • Создание кластера
    • Подключение к кластеру
    • Изменение кластера
    • Изменение подкластера
    • Управление подкластерами
    • Подключение к интерфейсам компонентов
    • Использование Sqoop
    • Управление заданиями
      • Все задания
      • Задания Spark
      • Задания PySpark
      • Задания Hive
      • Задания MapReduce
    • Удаление кластера
    • Работа с логами
    • Мониторинг состояния кластера и хостов
  • Концепции
    • Обзор Data Proc
    • Классы хостов
    • Среда исполнения
    • Интерфейсы и порты компонентов Data Proc
    • Задания в Data Proc
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Data Proc
    • Техническое обслуживание
    • Квоты и лимиты
    • Свойства компонентов
    • Логи в Data Proc
  • Управление доступом
  • Правила тарификации
  • Справочник API
    • Аутентификация в API
    • gRPC (англ.)
      • Overview
      • ClusterService
      • JobService
      • ResourcePresetService
      • SubclusterService
      • OperationService
    • REST (англ.)
      • Overview
      • Cluster
        • Overview
        • create
        • delete
        • get
        • list
        • listHosts
        • listOperations
        • listUILinks
        • start
        • stop
        • update
      • Job
        • Overview
        • cancel
        • create
        • get
        • list
        • listLog
      • ResourcePreset
        • Overview
        • get
        • list
      • Subcluster
        • Overview
        • create
        • delete
        • get
        • list
        • update
  • История изменений
    • Изменения сервиса
    • Образы
  • Вопросы и ответы
  1. Пошаговые инструкции
  2. Управление заданиями
  3. Задания Hive

Управление заданиями Hive

Статья создана
Yandex.Cloud
  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания

В кластере Data Proc можно управлять заданиями (jobs), а также получать логи их выполнения. Примеры заданий см. в разделе Работа с заданиями.

Создать задание

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.

  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

  3. Нажмите кнопку Создать задание.

  4. (опционально) Укажите имя задания.

  5. В поле Тип задания выберите Hive.

  6. Укажите Настройки в виде пары ключ-значение.

    Если аргумент, переменная или свойство состоит из нескольких частей, разделенных пробелом, указывайте каждую часть отдельно. При этом важно сохранить порядок объявления аргументов, переменных и свойств.

    Например, аргумент -mapper mapper.py должен быть преобразован в два аргумента -mapper и mapper.py, стоящих последовательно.

  7. (опционально) Включите настройку Продолжать при ошибке.

  8. Укажите Переменные скрипта в виде пары ключ-значение.

  9. (опционально) Укажите пути к JAR-файлам, если они используются:

    Размещение файла Формат пути
    Файловая система инстанса file:///<путь к файлу>
    Распределенная файловая система кластера hdfs:///<путь к файлу>
    Бакет Object Storage s3a://<имя бакета>/<путь к файлу>
    Интернет http://<путь к файлу> или https://<путь к файлу>

    Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

    Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

  10. Выберите один из типов драйвера и укажите, что использовать для запуска задания:

    • список запросов, которые необходимо выполнить;
    • путь к файлу с запросами, которые нужно выполнить.
  11. Нажмите кнопку Создать задание.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы создать задание:

  1. Посмотрите описание команды CLI для создания заданий типа Hive:

    yc dataproc job create-hive --help
    
  2. Создайте задание (в примере приведены не все доступные параметры):

    yc dataproc job create-hive \
      --cluster-name <имя кластера> \
      --name <имя задания> \
      --query-file-uri <URI файла запроса> \
      --script-variables <список значений переменных, разделенных запятыми>
    

    Пути к необходимым для выполнения задания файлам передавайте в формате:

    Размещение файла Формат пути
    Файловая система инстанса file:///<путь к файлу>
    Распределенная файловая система кластера hdfs:///<путь к файлу>
    Бакет Object Storage s3a://<имя бакета>/<путь к файлу>
    Интернет http://<путь к файлу> или https://<путь к файлу>

    Допускается использование архивов стандартных для Linux форматов: zip, gz, xz, bz2 и т. д.

    Сервисному аккаунту кластера необходим доступ на чтение ко всем файлам в бакете. Пошаговые инструкции по настройке доступа к Object Storage приведены в разделе Редактирование ACL бакета.

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API create и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге.
  • Имя задания в параметре name.
  • Свойства задания в параметре hiveJob.

Отменить задание

Примечание

Задания в статусах ERROR, DONE или CANCELLED отменить нельзя. Чтобы узнать статус задания, получите список заданий в кластере.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.
  4. В правом верхнем углу страницы нажмите кнопку Отменить и подтвердите действие.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы отменить задание, выполните команду:

yc dataproc job cancel <идентификатор или имя задания> \
   --cluster-name=<имя кластера>

Идентификатор и имя задания можно получить со списком заданий в кластере, имя кластера — со списком кластеров в каталоге.

Воспользуйтесь методом API cancel и передайте в запросе:

  • идентификатор кластера в параметре clusterId;
  • идентификатор задания в параметре jobId.

Идентификатор кластера можно получить со списком кластеров в каталоге, идентификатор задания — со списком заданий в кластере.

Получить список заданий

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы получить список заданий, выполните команду:

yc dataproc job list --cluster-name <имя кластера>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API list и передайте идентификатор кластера в параметре clusterId запроса.

Идентификатор кластера можно получить со списком кластеров в каталоге.

Получить общую информацию о задании

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Для получения общей информации о задании выполните команду:

yc dataproc job get \
   --cluster-name <имя кластера> \
   --name <имя задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API get и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Получить логи выполнения задания

Примечание

Вы можете просматривать логи выполнения заданий и искать в них информацию с помощью сервиса Yandex Cloud Logging. Подробнее см. в разделе Работа с логами.

Консоль управления
CLI
API
  1. Перейдите на страницу каталога и выберите сервис Data Proc.
  2. Нажмите на имя нужного кластера и выберите вкладку Задания.
  3. Нажмите на имя нужного задания.

Если у вас еще нет интерфейса командной строки Yandex Cloud, установите и инициализируйте его.

По умолчанию используется каталог, указанный в профиле CLI. Вы можете указать другой каталог с помощью параметра --folder-name или --folder-id.

Чтобы получить логи выполнения задания, выполните команду:

yc dataproc job log \
   --cluster-name <имя кластера> \
   --name <имя задания>

Идентификатор и имя кластера можно получить со списком кластеров в каталоге.

Воспользуйтесь методом API listLog и передайте в запросе:

  • Идентификатор кластера в параметре clusterId. Его можно получить со списком кластеров в каталоге.
  • Идентификатор задания в параметре jobId. Его можно получить со списком заданий в кластере.

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»
В этой статье:
  • Создать задание
  • Отменить задание
  • Получить список заданий
  • Получить общую информацию о задании
  • Получить логи выполнения задания