В сервисе Data Proc появилась возможность создавать задачи при помощи CLI и API

Data Proc Jobs — это способ удаленного запуска задач (jobs) на кластерах Yandex Data Proc. Запускать задачи можно с использованием HTTP или gRPC Data Proc API, а так же через Yandex Cloud SDK или YC CLI.

Data Proc поддерживает четыре типа задач:

  • sparkJob — Apache Spark™
  • pysparkJob — Python API для Apache Spark™
  • mapreduceJob — Apache Hadoop®
  • hiveJob — Apache Hive™

Зачем нужны задачи Data Proc Jobs?

Задачи позволяют упростить использование Hadoop-стека технологий. Data Proc Jobs разделяет процесс обработки данных на задачи и позволяет запускать их без непосредственного доступа на хосты в Облаке. Data Proc Jobs подходит как для выполнения разовых операций, так и для построения ETL-процессов и запуска регулярных аналитических расчётов.

Для каких версий поддерживается создание задач?

Запуск заданий доступен для кластеров, созданных с версией образа v1.1 и выше. Всю диагностическую информацию о запущенных и выполненных задачах можно найти в истории операций над кластером, а также в бакете сервиса Object Storage, который был указан при создании кластера.

В версии образа 1.1 компоненты обновились до следующих версий:

  • Hadoop 2.10.0
  • Tez 0.9.2
  • Hive 2.3.6
  • Zookeeper 3.4.14
  • HBase 1.3.5
  • Sqoop 1.4.7
  • Oozie 4.3.1
  • Spark 2.4.4
  • Flume 1.8.0
  • Zeppelin 0.8.2

Подробнее об использовании задач Spark и PySpark читайте в документации.

  • Новости