Дайджест новостей платформы данных (апрель-июнь)

Рассказываем, что нового появилось в сервисах платформы данных с апреля по июнь 2022 года.

21 июля 2022 г.
15 минут чтения
9

Общие новости

С апреля по июнь 2022 года мы проделали большую работу в сервисах платформы данных. Особенное внимание было уделено Yandex Data Proc.

Мы проанализировали использование сервиса, собрали обратную связь от наших пользователей и увидели, что большинство использует Apache Spark для запуска заданий, не используя другие компоненты. В такой конфигурации все равно приходилось поднимать HDFS data node и часть данных хранилась на ней, а не в Yandex Object Storage.

Теперь для запуска только spark-кода с версии образа 2.0 мы добавили легковесные кластеры Apache Spark без HDFS и DataNodes. Такие кластеры могут быть особенно удобны для запуска задач машинного обучения и подготовки витрин, так как они поднимаются быстрее и с меньшими затратами. Среди преимуществ легковестных кластеров стоит отметить запуск Spark Driver на подкластере с управляющими хостами. Это позволяет выдавать разные ресурсы для подкластера с управляющими хостами, где будет запущен Spark Driver, и подкластеров для обработки данных, где будут запущены Spark Executors. В легковесных кластерах Spark Driver может использовать все свободные ресурсы подкластера с управляющими хостами, а Spark Executors — все свободные ресурсы подкластеров для обработки данных. Это повышает эффективность работы хостов.

Также стала доступна для тестирования версия образа 2.1 с Hadoop 3.3.2, Spark 3.2.1 и обновлениями других компонентов.

Про остальные новости Yandex Data Proc и других сервисов платформы данных читайте в нашем дайджесте.

Data Proc

  • Стала доступна поддержка скриптов инициализации, которые могут быть полезны для автоматической установки или обновления ПО, необходимого для запуска заданий. Подробнее →

  • Реализована возможность отмены заданий, результат которых уже не важен. Подробнее →

  • Добавлено включение публичного доступа из интернета для всех видов подкластеров.

Managed Service for PostgreSQL

  • Прекращается поддержка PostgreSQL 10. С 15 августа создание новых кластеров версии 10 станет недоступно, с 1 сентября будет запланировано принудительное обновление кластеров в рамках окна обслуживания. Пользователи могут протестировать и обновить кластер уже сейчас. Подробнее →

  • Состоялся релиз Odyssey 1.3.

  • Поддержали возможность обновления кластера с версии 13 на 14.

  • Доступно создание кластера версии 13 и 14 для 1С из UI консоли.

  • В мажорные версии установлены обновления из версий 14.3, 13.7, 12.11, 11.16 и 10.21.

  • Добавлена новая роль mdb_monitor, которая включает в себя привилегии системной роли pg_monitor для мониторинга и диагностики. Подробнее →

  • В Terraform добавлены новые ресурсы yandex_mdb_postgresql_database и yandex_mdb_postgresql_user.

  • Добавлены настройки max_logical_replication_workers и max_replication_slots.

  • В UI консоли появилась возможность создания новой базы данных из шаблона. Подробнее →

  • Реализована поддержка сторонних инструментов:

    • pgcompacttable — утилита для оптимизации занимаемого объема данных, освобождения места;
    • clickhouse_fdw — позволяет работать с данными в СУБД ClickHouse;
    • orafce — поддержка функций БД Oracle;
    • pg_cron — долгожданное расширение, которое позволяет добавлять в базу данных задачи и выполнять SQL-запросы по расписанию. Подробнее о настройке расширений →

Managed Service for MySQL®

  • В Terraform добавлена секция диагностики производительности и ресурсы yandex_mdb_mysql_database и yandex_mdb_mysql_user.

  • Добавлены настройки innodb_compression_level, innodb_strict_mode, max_digest_length, max_sp_recursion_depth.

  • Добавлено управление настройками сервиса диагностики производительности во всех интерфейсах: CLI, Terraform, UI консоль.

  • Ускорен процесс восстановления реплики из резервной копии за счет использования многопоточности при сжатии/шифровании бэкапа.

  • Доработан механизм переключения мастера: теперь переключение невозможно на значительно отставшую реплику или в случае отсутствия кворума. Максимальное отставание реплики задается настройкой mdb_priority_choice_max_lag.

  • В UI консоли добавлена возможность задавать приоритет выбора мастер-хоста в случае смены мастера.

Managed Service for Greenplum®

  • В CLI добавлены команды yc managed-greenplum cluster и yc managed-greenplum hosts.

  • Добавлена возможность миграции базы данных с помощью сервиса Yandex Data Transfer. Функциональность находится в стадии Preview. Подробнее →

  • Добавлена поддержка расширения pgcrypto, которое предоставляет криптографические функции PostgreSQL, и модуля diskquota, который позволяет ограничивать схемы БД по месту на диске.

  • Поддержали возможность создания кластера с нечётным количеством сегментов.

  • Минимальный размер хранилища на сетевых SSD-дисках для мастер-хоста ограничен 100 ГБ.

  • Добавлены настройки max_statement_mem и log_statement, доступные при создании и изменении кластера.

  • Оптимизировано создание резервных копий за счет особой обработки append-only сегментов.

  • Реализовано автоматическое переключение на резервный мастер через gpactivatestandby.

  • Оптимизирован процесс очистки (VACUUM):

    • операция выполняется параллельно по нескольким базам;
    • новые таблицы обрабатываются последними;
    • таблицы с активными блокировками исключаются.

Managed Service for ClickHouse

  • Доступна новая версия 22.5. Список изменений →

  • Добавлена выдача пользователям прав на системные таблицы _system.

  • Включена настройка force_remove_data_recursively_on_drop для предотвращения ошибок Directory not empty при удалении баз данных.

  • Поддержали запрос SYSTEM UNFREEZE, который удаляет бекап из облачного хранилища, включая данные таблиц, которые могут занимать место в облачном хранилище после удаления. Подробнее →

Managed Service for Redis

  • Прекращена поддержка версий 5.0 и 6.0. Создание кластеров этих версий больше недоступно. Началось автоматическое обновление всех таких кластеров до версии 6.2.

  • Добавлено управление публичным доступом и приоритетом реплик в Terraform.

  • Добавлено изменение настроек client-output-buffer-limit normal и pubsub. Подробнее →

Читайте наш обзор Redis в блоге.

Managed Service for Apache Kafka®

  • Новая версия 3.1 доступна в PRODUCTION окружении.

  • Новый коннектор: S3 Sink.

  • В UI консоли добавлена загрузка SSL-сертификата для соединения с кластером через коннектор MirrorMaker.

  • Поддержка оффлайн-обслуживания.

  • Добавлено изменение настройки публичного доступа.

  • Ускорены операции по изменению прав пользователей для случая большого количества топиков.

  • Добавлена поддержка стандартного сжатия (zstd) для реестра схем (schema registry).

  • Запрещено использование флага preallocate, провоцирующего CorruptRecordException: KAFKA-13664.

Data Transfer

В нашем блоге рассказали о возможностях Data Transfer: как работает сервис, какие задачи помогает решить, почему его стоит выбрать и какие у него преимущеста перед аналогичными инструментами.

DataLens

Использование параметров

Главное нововведение DataLens — возможность использования параметров. Основные моменты:

  • Создать параметры можно на уровне датасета или чарта.

  • Использовать параметры можно в вычисляемых полях.

  • Значения для параметров на дашборде задаются через селектор типа «Ручной ввод».

  • После добавления параметра в датасет нужно пересохранить чарт.

Примеры на обновленном демодашборде, детали — в документации.

Порядок виджетов в мобильной верстке

По умолчанию виджеты на мобильных устройствах выстраиваются в единую ленту по порядку «слева-направо, сверху-вниз». Добавили возможность изменять этот порядок в настройках вкладки дашборда.

Новинки навигации

  • Возможность выбора множества элементов в навигации для переноса объектов.

  • Рекурсивное назначение прав на содержимое папок.

Новинки в таблицах

Регулировка ширины столбца и перенос строк в плоских таблица. Эта настройка доступна в секции «Столбцы» в визуализации «Таблица». Есть возможность задавать ширину в пикселях и процентах. Важное ограничение: ширина столбцов в таблице не влияет на размеры самой таблицы. Если сумма ширины всех столбцов меньше размера таблицы, то столбцы будут растянуты в том соотношении, которое указано в настройках.

Линейные индикаторы в ячейках. Для их использования перейдите в настройки поля и включите опцию «Линейный индикатор». Важное ограничение: если задавать масштаб вручную, то нужно обязательно указывать минимальное и максимальное значение. Выравнивание работает только если все значения в столбце отрицательные или только положительные (не работает для смешанных значений).

Форма запроса помощи партнера

Если вам нужна помощь в реализации проекта бизнес-аналитики под ключ, наша команда подберёт оптимального партнера под вашу задачу и свяжется с вами!

Все изменения можно попробовать на нашем обновленном демодашборде: https://datalens.yandex/demo

Евгений Левашов
Главный редактор Yandex Cloud. Пишет для IT-компаний с 2015 года, ведёт собственный блог и канал про технологии

Напишите нам

Начать пользоваться Yandex Cloud

Тарифы

Узнать цены и рассчитать стоимость

Документация

Подробные руководства