Yandex.Cloud
  • Сервисы
  • Почему Yandex.Cloud
  • Сообщество
  • Решения
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Yandex Data Proc
  • Сценарии использования
    • Настройка сети для кластеров Data Proc
    • Использование Apache Hive
    • Запуск Spark-приложений
    • Запуск приложений с удаленного хоста
    • Копирование файлов из Yandex Object Storage
  • Пошаговые инструкции
    • Все инструкции
    • Создание кластера
    • Подключение к кластеру
    • Изменение подкластера
    • Управление подкластерами
    • Удаление кластера
  • Концепции
    • Обзор Data Proc
    • Классы хостов
    • Версии Hadoop и компонентов
    • Интерфейсы и порты компонентов
    • Веб-интерфейсы компонентов
    • Автоматическое масштабирование
    • Декомиссия подкластеров и хостов
    • Сеть в Data Proc
    • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Справочник API
    • Аутентификация в API
    • gRPC
      • Обзор
      • ClusterService
      • JobService
      • ResourcePresetService
      • SubclusterService
      • OperationService
    • REST
      • Обзор
      • Cluster
        • Обзор
        • create
        • delete
        • get
        • list
        • listHosts
        • listOperations
        • start
        • stop
        • update
      • Job
        • Обзор
        • create
        • get
        • list
      • ResourcePreset
        • Обзор
        • get
        • list
      • Subcluster
        • Обзор
        • create
        • delete
        • get
        • list
        • update
  • Вопросы и ответы
  1. Справочник API
  2. gRPC
  3. JobService

JobService

  • Вызовы JobService
  • List
    • ListJobsRequest
    • ListJobsResponse
    • Job
    • MapreduceJob
    • SparkJob
    • PysparkJob
    • HiveJob
    • QueryList
  • Create
    • CreateJobRequest
    • MapreduceJob
    • SparkJob
    • PysparkJob
    • HiveJob
    • QueryList
    • Operation
    • CreateJobMetadata
    • Job
    • MapreduceJob
    • SparkJob
    • PysparkJob
    • HiveJob
    • QueryList
  • Get
    • GetJobRequest
    • Job
    • MapreduceJob
    • SparkJob
    • PysparkJob
    • HiveJob
    • QueryList

Набор методов для управления задачами Data Proc.

Вызов Описание
List Получает список задач для указанного кластера.
Create Создает задачу для кластера.
Get Возвращает указанную задачу.

Вызовы JobService

List

Получает список задач для указанного кластера.

rpc List (ListJobsRequest) returns (ListJobsResponse)

ListJobsRequest

Поле Описание
cluster_id string
Обязательное поле. Идентификатор кластера, для которого запрашивается список задач. Максимальная длина строки в символах — 50.
page_size int64
Максимальное количество результатов на странице ответа на запрос. Если количество результатов больше чем page_size, сервис вернет значение ListJobsResponse.next_page_token, которое можно использовать для получения следующей страницы. Значение по умолчанию: 100. Максимальное значение — 1000.
page_token string
Токен страницы. Установите значение page_token равным значению поля ListJobsResponse.next_page_token предыдущего запроса, чтобы получить следующую страницу результатов. Максимальная длина строки в символах — 100.
filter string
  1. Имя поля. В настоящее время фильтрация осуществляется только по полю Job.name.
  2. Оператор. Операторы = или != для одиночных значений, IN или NOT IN для списков значений.
  3. Значение. Значение длиной от 3 до 63 символов, совпадающее с регулярным выражением ^[a-z][-a-z0-9]{1,61}[a-z0-9]. Пример фильтра: name=my-job.
Максимальная длина строки в символах — 1000.

ListJobsResponse

Поле Описание
jobs[] Job
Список задач для указанного кластера.
next_page_token string
Токен для получения следующей страницы списка. Если количество результатов больше чем ListJobsRequest.page_size, используйте next_page_token в качестве значения параметра ListJobsRequest.page_token в следующем запросе списка ресурсов.
У каждой последующей страницы будет собственный next_page_token, чтобы можно было продолжать просматривать результаты.

Job

Поле Описание
id string
Идентификатор задачи. Генерируется во время создания.
cluster_id string
Идентификатор кластера Data Proc, которому принадлежит задача.
created_at google.protobuf.Timestamp
Время создания.
started_at google.protobuf.Timestamp
Время запуска задачи.
finished_at google.protobuf.Timestamp
Время завершения задачи.
name string
Имя задачи, указанное в запросе JobService.Create.
created_by string
Идентификатор пользователя, создавшего задачу.
status enum Status
Статус задачи.
  • PROVISIONING: Задача зарегистрирована в базе данных и ожидает, пока агент запустит ее.
  • PENDING: Задача получена агентом и находится в очереди на выполнение.
  • RUNNING: Задача выполняется в кластере.
  • ERROR: Задача не смогла завершиться должным образом.
  • DONE: Задача выполнена.
    job_spec oneof: mapreduce_job, spark_job, pyspark_job или hive_job
    Спецификация задачи.
      mapreduce_job MapreduceJob
    Спецификация задачи для MapReduce.
      spark_job SparkJob
    Спецификация задачи для Spark.
      pyspark_job PysparkJob
    Спецификация задачи для PySpark.
      hive_job HiveJob
    Спецификация задачи для Hive.

    MapreduceJob

    Поле Описание
    args[] string
    Необязательные аргументы, которые передаются драйверу.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
    file_uris[] string
    URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
    archive_uris[] string
    URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и MapReduce.
    driver oneof: main_jar_file_uri или main_class
      main_jar_file_uri string
    HCFS URI JAR-файла, который содержит класс драйвера.
      main_class string
    Имя класса драйвера.

    SparkJob

    Поле Описание
    args[] string
    Необязательные аргументы, которые передаются драйверу.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
    file_uris[] string
    URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
    archive_uris[] string
    URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и Spark.
    main_jar_file_uri string
    URI HCFS JAR-файла, содержащего класс main для задачи.
    main_class string
    Имя класса драйвера.

    PysparkJob

    Поле Описание
    args[] string
    Необязательные аргументы, которые передаются драйверу.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
    file_uris[] string
    URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
    archive_uris[] string
    URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и PySpark.
    main_python_file_uri string
    URI файла с кодом драйвера. Должен быть .py-файлом.
    python_file_uris[] string
    URI Python-файлов, которые передаются PySpark.

    HiveJob

    Поле Описание
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и Hive.
    continue_on_failure bool
    Флаг, указывающий на то, что задачу следует продолжать даже если запрос выполнить не удалось.
    script_variables map<string,string>
    Переменные запросов и их значения.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Hive и каждого задания в рамках задачи.
    query_type oneof: query_file_uri или query_list
      query_file_uri string
    URI скрипта со всеми необходимыми Hive-запросами.
      query_list QueryList
    Список запросов Hive, которые используются в задаче.

    QueryList

    Поле Описание
    queries[] string
    Список Hive-запросов.

    Create

    Создает задачу для кластера.

    rpc Create (CreateJobRequest) returns (operation.Operation)

    Метаданные и результат операции:

        Operation.metadata:CreateJobMetadata

        Operation.response:Job

    CreateJobRequest

    Поле Описание
    cluster_id string
    Обязательное поле. Идентификатор кластера, для которого следует создать задачу. Максимальная длина строки в символах — 50.
    name string
    Имя задачи. Значение должно соответствовать регулярному выражению `
    job_spec oneof: mapreduce_job, spark_job, pyspark_job или hive_job
    Спецификация задачи.
      mapreduce_job MapreduceJob
    Спецификация задачи для MapReduce.
      spark_job SparkJob
    Спецификация задачи для Spark.
      pyspark_job PysparkJob
    Спецификация задачи для PySpark.
      hive_job HiveJob
    Спецификация задачи для Hive.

    MapreduceJob

    Поле Описание
    args[] string
    Необязательные аргументы, которые передаются драйверу.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
    file_uris[] string
    URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
    archive_uris[] string
    URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и MapReduce.
    driver oneof: main_jar_file_uri или main_class
      main_jar_file_uri string
    HCFS URI JAR-файла, который содержит класс драйвера.
      main_class string
    Имя класса драйвера.

    SparkJob

    Поле Описание
    args[] string
    Необязательные аргументы, которые передаются драйверу.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
    file_uris[] string
    URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
    archive_uris[] string
    URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и Spark.
    main_jar_file_uri string
    URI HCFS JAR-файла, содержащего класс main для задачи.
    main_class string
    Имя класса драйвера.

    PysparkJob

    Поле Описание
    args[] string
    Необязательные аргументы, которые передаются драйверу.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
    file_uris[] string
    URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
    archive_uris[] string
    URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и PySpark.
    main_python_file_uri string
    URI файла с кодом драйвера. Должен быть .py-файлом.
    python_file_uris[] string
    URI Python-файлов, которые передаются PySpark.

    HiveJob

    Поле Описание
    properties map<string,string>
    Имена и значения свойств, которые используются для настройки Data Proc и Hive.
    continue_on_failure bool
    Флаг, указывающий на то, что задачу следует продолжать даже если запрос выполнить не удалось.
    script_variables map<string,string>
    Переменные запросов и их значения.
    jar_file_uris[] string
    URI JAR-файлов, которые добавляются в CLASSPATH драйвера Hive и каждого задания в рамках задачи.
    query_type oneof: query_file_uri или query_list
      query_file_uri string
    URI скрипта со всеми необходимыми Hive-запросами.
      query_list QueryList
    Список запросов Hive, которые используются в задаче.

    QueryList

    Поле Описание
    queries[] string
    Список Hive-запросов.

    Operation

    Поле Описание
    id string
    Идентификатор операции.
    description string
    Описание операции. Длина описания должна быть от 0 до 256 символов.
    created_at google.protobuf.Timestamp
    Время создания ресурса в формате в RFC3339.
    created_by string
    Идентификатор пользователя или сервисного аккаунта, инициировавшего операцию.
    modified_at google.protobuf.Timestamp
    Время, когда ресурс Operation последний раз обновлялся. Значение в формате RFC3339.
    done bool
    Если значение равно false — операция еще выполняется. Если true — операция завершена, и задано значение одного из полей error или response.
    metadata google.protobuf.Any<CreateJobMetadata>
    Метаданные операции. Обычно в поле содержится идентификатор ресурса, над которым выполняется операция. Если метод возвращает ресурс Operation, в описании метода приведена структура соответствующего ему поля metadata.
    result oneof: error или response
    Результат операции. Если done == false и не было выявлено ошибок — значения полей error и response не заданы. Если done == false и была выявлена ошибка — задано значение поля error. Если done == true — задано значение ровно одного из полей error или response.
      error google.rpc.Status
    Описание ошибки в случае сбоя или отмены операции.
      response google.protobuf.Any<Job>
    в случае успешного выполнения операции.

    CreateJobMetadata

    Поле Описание
    cluster_id string
    Обязательное поле. Идентификатор кластера, для которого создается задача. Максимальная длина строки в символах — 50.
    job_id string
    Идентификатор создаваемой задачи. Максимальная длина строки в символах — 50.

    Job

    Поле Описание
    id string
    Идентификатор задачи. Генерируется во время создания.
    cluster_id string
    Идентификатор кластера Data Proc, которому принадлежит задача.
    created_at google.protobuf.Timestamp
    Время создания.
    started_at google.protobuf.Timestamp
    Время запуска задачи.
    finished_at google.protobuf.Timestamp
    Время завершения задачи.
    name string
    Имя задачи, указанное в запросе JobService.Create.
    created_by string
    Идентификатор пользователя, создавшего задачу.
    status enum Status
    Статус задачи.
    • PROVISIONING: Задача зарегистрирована в базе данных и ожидает, пока агент запустит ее.
    • PENDING: Задача получена агентом и находится в очереди на выполнение.
    • RUNNING: Задача выполняется в кластере.
    • ERROR: Задача не смогла завершиться должным образом.
    • DONE: Задача выполнена.
      job_spec oneof: mapreduce_job, spark_job, pyspark_job или hive_job
      Спецификация задачи.
        mapreduce_job MapreduceJob
      Спецификация задачи для MapReduce.
        spark_job SparkJob
      Спецификация задачи для Spark.
        pyspark_job PysparkJob
      Спецификация задачи для PySpark.
        hive_job HiveJob
      Спецификация задачи для Hive.

      MapreduceJob

      Поле Описание
      args[] string
      Необязательные аргументы, которые передаются драйверу.
      jar_file_uris[] string
      URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
      file_uris[] string
      URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
      archive_uris[] string
      URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
      properties map<string,string>
      Имена и значения свойств, которые используются для настройки Data Proc и MapReduce.
      driver oneof: main_jar_file_uri или main_class
        main_jar_file_uri string
      HCFS URI JAR-файла, который содержит класс драйвера.
        main_class string
      Имя класса драйвера.

      SparkJob

      Поле Описание
      args[] string
      Необязательные аргументы, которые передаются драйверу.
      jar_file_uris[] string
      URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
      file_uris[] string
      URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
      archive_uris[] string
      URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
      properties map<string,string>
      Имена и значения свойств, которые используются для настройки Data Proc и Spark.
      main_jar_file_uri string
      URI HCFS JAR-файла, содержащего класс main для задачи.
      main_class string
      Имя класса драйвера.

      PysparkJob

      Поле Описание
      args[] string
      Необязательные аргументы, которые передаются драйверу.
      jar_file_uris[] string
      URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
      file_uris[] string
      URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
      archive_uris[] string
      URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
      properties map<string,string>
      Имена и значения свойств, которые используются для настройки Data Proc и PySpark.
      main_python_file_uri string
      URI файла с кодом драйвера. Должен быть .py-файлом.
      python_file_uris[] string
      URI Python-файлов, которые передаются PySpark.

      HiveJob

      Поле Описание
      properties map<string,string>
      Имена и значения свойств, которые используются для настройки Data Proc и Hive.
      continue_on_failure bool
      Флаг, указывающий на то, что задачу следует продолжать даже если запрос выполнить не удалось.
      script_variables map<string,string>
      Переменные запросов и их значения.
      jar_file_uris[] string
      URI JAR-файлов, которые добавляются в CLASSPATH драйвера Hive и каждого задания в рамках задачи.
      query_type oneof: query_file_uri или query_list
        query_file_uri string
      URI скрипта со всеми необходимыми Hive-запросами.
        query_list QueryList
      Список запросов Hive, которые используются в задаче.

      QueryList

      Поле Описание
      queries[] string
      Список Hive-запросов.

      Get

      Возвращает указанную задачу.

      rpc Get (GetJobRequest) returns (Job)

      GetJobRequest

      Поле Описание
      cluster_id string
      Обязательное поле. Идентификатор кластера, для которого запрашивается задача. Максимальная длина строки в символах — 50.
      job_id string
      Обязательное поле. Идентификатор возвращаемой задачи.
      Чтобы получить идентификатор задачи, выполните запрос JobService.List. Максимальная длина строки в символах — 50.

      Job

      Поле Описание
      id string
      Идентификатор задачи. Генерируется во время создания.
      cluster_id string
      Идентификатор кластера Data Proc, которому принадлежит задача.
      created_at google.protobuf.Timestamp
      Время создания.
      started_at google.protobuf.Timestamp
      Время запуска задачи.
      finished_at google.protobuf.Timestamp
      Время завершения задачи.
      name string
      Имя задачи, указанное в запросе JobService.Create.
      created_by string
      Идентификатор пользователя, создавшего задачу.
      status enum Status
      Статус задачи.
      • PROVISIONING: Задача зарегистрирована в базе данных и ожидает, пока агент запустит ее.
      • PENDING: Задача получена агентом и находится в очереди на выполнение.
      • RUNNING: Задача выполняется в кластере.
      • ERROR: Задача не смогла завершиться должным образом.
      • DONE: Задача выполнена.
        job_spec oneof: mapreduce_job, spark_job, pyspark_job или hive_job
        Спецификация задачи.
          mapreduce_job MapreduceJob
        Спецификация задачи для MapReduce.
          spark_job SparkJob
        Спецификация задачи для Spark.
          pyspark_job PysparkJob
        Спецификация задачи для PySpark.
          hive_job HiveJob
        Спецификация задачи для Hive.

        MapreduceJob

        Поле Описание
        args[] string
        Необязательные аргументы, которые передаются драйверу.
        jar_file_uris[] string
        URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
        file_uris[] string
        URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
        archive_uris[] string
        URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
        properties map<string,string>
        Имена и значения свойств, которые используются для настройки Data Proc и MapReduce.
        driver oneof: main_jar_file_uri или main_class
          main_jar_file_uri string
        HCFS URI JAR-файла, который содержит класс драйвера.
          main_class string
        Имя класса драйвера.

        SparkJob

        Поле Описание
        args[] string
        Необязательные аргументы, которые передаются драйверу.
        jar_file_uris[] string
        URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
        file_uris[] string
        URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
        archive_uris[] string
        URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
        properties map<string,string>
        Имена и значения свойств, которые используются для настройки Data Proc и Spark.
        main_jar_file_uri string
        URI HCFS JAR-файла, содержащего класс main для задачи.
        main_class string
        Имя класса драйвера.

        PysparkJob

        Поле Описание
        args[] string
        Необязательные аргументы, которые передаются драйверу.
        jar_file_uris[] string
        URI JAR-файлов, которые добавляются в CLASSPATH драйвера Data Proc и каждого задания в рамках задачи.
        file_uris[] string
        URI ресурсных файлов, которые копируются в рабочий каталог драйверов Data Proc и распределенных заданий Hadoop.
        archive_uris[] string
        URI архивов, содержимое которых извлекается в рабочий каталог драйверов и каждого задания в рамках задачи.
        properties map<string,string>
        Имена и значения свойств, которые используются для настройки Data Proc и PySpark.
        main_python_file_uri string
        URI файла с кодом драйвера. Должен быть .py-файлом.
        python_file_uris[] string
        URI Python-файлов, которые передаются PySpark.

        HiveJob

        Поле Описание
        properties map<string,string>
        Имена и значения свойств, которые используются для настройки Data Proc и Hive.
        continue_on_failure bool
        Флаг, указывающий на то, что задачу следует продолжать даже если запрос выполнить не удалось.
        script_variables map<string,string>
        Переменные запросов и их значения.
        jar_file_uris[] string
        URI JAR-файлов, которые добавляются в CLASSPATH драйвера Hive и каждого задания в рамках задачи.
        query_type oneof: query_file_uri или query_list
          query_file_uri string
        URI скрипта со всеми необходимыми Hive-запросами.
          query_list QueryList
        Список запросов Hive, которые используются в задаче.

        QueryList

        Поле Описание
        queries[] string
        Список Hive-запросов.
        В этой статье:
        • Вызовы JobService
        • List
        • ListJobsRequest
        • ListJobsResponse
        • Job
        • MapreduceJob
        • SparkJob
        • PysparkJob
        • HiveJob
        • QueryList
        • Create
        • CreateJobRequest
        • MapreduceJob
        • SparkJob
        • PysparkJob
        • HiveJob
        • QueryList
        • Operation
        • CreateJobMetadata
        • Job
        • MapreduceJob
        • SparkJob
        • PysparkJob
        • HiveJob
        • QueryList
        • Get
        • GetJobRequest
        • Job
        • MapreduceJob
        • SparkJob
        • PysparkJob
        • HiveJob
        • QueryList
        Language / Region
        Вакансии
        Политика конфиденциальности
        Условия использования
        Брендбук
        © 2021 ООО «Яндекс.Облако»