История изменений в Yandex Data Proc
Статья создана
Обновлена 20 июля 2023 г.
В разделе представлена история изменений сервиса Data Proc.
Метки рядом с описанием изменения позволяют определить, в каком интерфейсе оно поддерживается: в консоли управления, CLI, API, Terraform или SQL.
II квартал 2023
III квартал 2022
- Добавлена поддержка новых настроек
в Airflow-оператореDataprocCreateClusterOperator
. - Добавлены классы хостов
cpu-optimized
с соотношением количества гигабайт RAM к количеству vCPU 2 к 1. Новые конфигурации доступны только для платформы Intel Ice Lake. - Опубликовано руководство по использованию скриптов инициализации для настройки GeeseFS.
II квартал 2022
- Доступна версия образа 2.1.
- Появилась возможность включить публичный доступ из интернета для всех видов подкластеров.
Консоль управления
CLI
API
- Lightweight Spark стал доступен начиная с версии образа 2.0.39. Теперь можно создавать кластер без подкластеров для хранения данных, так как сервисы YARN и SPARK больше не зависят от HDFS.
- Добавлена поддержка скриптов инициализации в CLI.
CLI
I квартал 2022
- Доступно создание кластеров на сетевых нереплицируемых дисках размером до 8 ТБ. Устройство нереплицируемых дисков существенно проще стандартных сетевых хранилищ SSD, благодаря чему их производительность выше в несколько раз.
- Добавлена возможность отмены заданий.
Консоль управления
CLI
- Добавлен номер сборки в версии образов Data Proc.
- Добавлена возможность передачи параметров
packages
,repositories
иexclude_packages
для заданий Spark и PySpark. Использование этих параметров позволяет скачивать дополнительные зависимости и пакеты из внешних репозиториев.Консоль управления
CLI