Yandex.Cloud
  • Сервисы
  • Почему Yandex.Cloud
  • Сообщество
  • Решения
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Yandex Data Proc
  • Сценарии использования
    • Настройка сети для кластеров Data Proc
    • Использование Apache Hive
    • Запуск Spark-приложений
    • Запуск приложений с удаленного хоста
    • Копирование файлов из Yandex Object Storage
  • Пошаговые инструкции
    • Все инструкции
    • Создание кластера
    • Подключение к кластеру
    • Изменение подкластера
    • Управление подкластерами
    • Удаление кластера
  • Концепции
    • Обзор Data Proc
    • Классы хостов
    • Версии Hadoop и компонентов
    • Интерфейсы и порты компонентов
    • Веб-интерфейсы компонентов
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Data Proc
    • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Справочник API
    • Аутентификация в API
    • gRPC
      • Обзор
      • ClusterService
      • JobService
      • ResourcePresetService
      • SubclusterService
      • OperationService
    • REST
      • Обзор
      • Cluster
        • Обзор
        • create
        • delete
        • get
        • list
        • listHosts
        • listOperations
        • start
        • stop
        • update
      • Job
        • Обзор
        • create
        • get
        • list
      • ResourcePreset
        • Обзор
        • get
        • list
      • Subcluster
        • Обзор
        • create
        • delete
        • get
        • list
        • update
  • Вопросы и ответы
  1. Справочник API
  2. REST
  3. Job
  4. Обзор

Job

  • JSON-представление
  • Методы

Набор методов для управления задачами Data Proc.

JSON-представление

{
  "id": "string",
  "clusterId": "string",
  "createdAt": "string",
  "startedAt": "string",
  "finishedAt": "string",
  "name": "string",
  "createdBy": "string",
  "status": "string",

  //  включает только одно из полей `mapreduceJob`, `sparkJob`, `pysparkJob`, `hiveJob`
  "mapreduceJob": {
    "args": [
      "string"
    ],
    "jarFileUris": [
      "string"
    ],
    "fileUris": [
      "string"
    ],
    "archiveUris": [
      "string"
    ],
    "properties": "object",

    // `mapreduceJob` включает только одно из полей `mainJarFileUri`, `mainClass`
    "mainJarFileUri": "string",
    "mainClass": "string",
    // конец списка возможных полей`mapreduceJob`

  },
  "sparkJob": {
    "args": [
      "string"
    ],
    "jarFileUris": [
      "string"
    ],
    "fileUris": [
      "string"
    ],
    "archiveUris": [
      "string"
    ],
    "properties": "object",
    "mainJarFileUri": "string",
    "mainClass": "string"
  },
  "pysparkJob": {
    "args": [
      "string"
    ],
    "jarFileUris": [
      "string"
    ],
    "fileUris": [
      "string"
    ],
    "archiveUris": [
      "string"
    ],
    "properties": "object",
    "mainPythonFileUri": "string",
    "pythonFileUris": [
      "string"
    ]
  },
  "hiveJob": {
    "properties": "object",
    "continueOnFailure": true,
    "scriptVariables": "object",
    "jarFileUris": [
      "string"
    ],

    // `hiveJob` включает только одно из полей `queryFileUri`, `queryList`
    "queryFileUri": "string",
    "queryList": {
      "queries": [
        "string"
      ]
    },
    // конец списка возможных полей`hiveJob`

  },
  // конец списка возможных полей

}
Поле Описание
id string

Идентификатор задачи. Генерируется во время создания.

clusterId string

Идентификатор кластера Data Proc, которому принадлежит задача.

createdAt string (date-time)

Время создания.

Строка в формате RFC3339.

startedAt string (date-time)

Время запуска задачи.

Строка в формате RFC3339.

finishedAt string (date-time)

Время завершения задачи.

Строка в формате RFC3339.

name string

Имя задачи, указанное в запросе create.

createdBy string

Идентификатор пользователя, создавшего задачу.

status string
Статус задачи.
  • PROVISIONING: Задача зарегистрирована в базе данных и ожидает, пока агент запустит ее.
  • PENDING: Задача получена агентом и находится в очереди на выполнение.
  • RUNNING: Задача выполняется в кластере.
  • ERROR: Задача не смогла завершиться должным образом.
  • DONE: Задача выполнена.
mapreduceJob object
включает только одно из полей mapreduceJob, sparkJob, pysparkJob, hiveJob

mapreduceJob.
args[]
string

Необязательные аргументы, которые передаются драйверу.

mapreduceJob.
jarFileUris[]
string

URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.

mapreduceJob.
fileUris[]
string

URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.

mapreduceJob.
archiveUris[]
string

URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.

mapreduceJob.
properties
object

Имена и значения свойств, которые используются для настройки Data Proc и MapReduce.

mapreduceJob.
mainJarFileUri
string
mapreduceJob включает только одно из полей mainJarFileUri, mainClass

HCFS URI JAR-файла, который содержит класс драйвера.

mapreduceJob.
mainClass
string
mapreduceJob включает только одно из полей mainJarFileUri, mainClass

Имя класса драйвера.

sparkJob object
включает только одно из полей mapreduceJob, sparkJob, pysparkJob, hiveJob

sparkJob.
args[]
string

Необязательные аргументы, которые передаются драйверу.

sparkJob.
jarFileUris[]
string

URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.

sparkJob.
fileUris[]
string

URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.

sparkJob.
archiveUris[]
string

URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.

sparkJob.
properties
object

Имена и значения свойств, которые используются для настройки Data Proc и Spark.

sparkJob.
mainJarFileUri
string

URI HCFS JAR-файла, содержащего класс main для задачи.

sparkJob.
mainClass
string

Имя класса драйвера.

pysparkJob object
включает только одно из полей mapreduceJob, sparkJob, pysparkJob, hiveJob

pysparkJob.
args[]
string

Необязательные аргументы, которые передаются драйверу.

pysparkJob.
jarFileUris[]
string

URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.

pysparkJob.
fileUris[]
string

URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.

pysparkJob.
archiveUris[]
string

URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.

pysparkJob.
properties
object

Имена и значения свойств, которые используются для настройки Data Proc и PySpark.

pysparkJob.
mainPythonFileUri
string

URI файла с кодом драйвера. Должен быть .py-файлом.

pysparkJob.
pythonFileUris[]
string

URI Python-файлов, которые передаются PySpark.

hiveJob object
включает только одно из полей mapreduceJob, sparkJob, pysparkJob, hiveJob

hiveJob.
properties
object

Имена и значения свойств, которые используются для настройки Data Proc и Hive.

hiveJob.
continueOnFailure
boolean (boolean)

Флаг, указывающий на то, что задачу следует продолжать даже если запрос выполнить не удалось.

hiveJob.
scriptVariables
object

Переменные запросов и их значения.

hiveJob.
jarFileUris[]
string

URI JAR-файлов, которые добавляются в CLASSPATH драйвера Hive и каждого задания в рамках задачи.

hiveJob.
queryFileUri
string
hiveJob включает только одно из полей queryFileUri, queryList

URI скрипта со всеми необходимыми Hive-запросами.

hiveJob.
queryList
object
hiveJob включает только одно из полей queryFileUri, queryList

hiveJob.
queryList.
queries[]
string

Список Hive-запросов.

Методы

Метод Описание
create Создает задачу для кластера.
get Возвращает указанную задачу.
list Получает список задач для указанного кластера.
В этой статье:
  • JSON-представление
  • Методы
Language
Вакансии
Политика конфиденциальности
Условия использования
© 2021 ООО «Яндекс.Облако»