
Дайджест новостей платформы данных (апрель-июнь)
Рассказываем, что нового появилось в сервисах платформы данных с апреля по июнь 2022 года.
Общие новости
С апреля по июнь 2022 года мы проделали большую работу в сервисах платформы данных. Особенное внимание было уделено Yandex Data Proc.
Мы проанализировали использование сервиса, собрали обратную связь от наших пользователей и увидели, что большинство использует Apache Spark для запуска заданий, не используя другие компоненты. В такой конфигурации все равно приходилось поднимать HDFS data node и часть данных хранилась на ней, а не в Yandex Object Storage.
Теперь для запуска только spark-кода с версии образа 2.0 мы добавили легковесные кластеры Apache Spark без HDFS и DataNodes. Такие кластеры могут быть особенно удобны для запуска задач машинного обучения и подготовки витрин, так как они поднимаются быстрее и с меньшими затратами. Среди преимуществ легковестных кластеров стоит отметить запуск Spark Driver на подкластере с управляющими хостами. Это позволяет выдавать разные ресурсы для подкластера с управляющими хостами, где будет запущен Spark Driver, и подкластеров для обработки данных, где будут запущены Spark Executors. В легковесных кластерах Spark Driver может использовать все свободные ресурсы подкластера с управляющими хостами, а Spark Executors — все свободные ресурсы подкластеров для обработки данных. Это повышает эффективность работы хостов.
Также стала доступна для тестирования версия образа 2.1 с Hadoop 3.3.2, Spark 3.2.1 и обновлениями других компонентов.
Про остальные новости Yandex Data Proc и других сервисов платформы данных читайте в нашем дайджесте.
Data Proc
-
Стала доступна поддержка скриптов инициализации, которые могут быть полезны для автоматической установки или обновления ПО, необходимого для запуска заданий. Подробнее →
-
Реализована возможность отмены заданий, результат которых уже не важен. Подробнее →
-
Добавлено включение публичного доступа из интернета для всех видов подкластеров.
Managed Service for PostgreSQL
-
Прекращается поддержка PostgreSQL 10. С 15 августа создание новых кластеров версии 10 станет недоступно, с 1 сентября будет запланировано принудительное обновление кластеров в рамках окна обслуживания. Пользователи могут протестировать и обновить кластер уже сейчас. Подробнее →
-
Состоялся релиз Odyssey 1.3.
-
Поддержали возможность обновления кластера с версии 13 на 14.
-
Доступно создание кластера версии 13 и 14 для 1С из UI консоли.
-
В мажорные версии установлены обновления из версий 14.3, 13.7, 12.11, 11.16 и 10.21.
-
Добавлена новая роль mdb_monitor, которая включает в себя привилегии системной роли pg_monitor для мониторинга и диагностики. Подробнее →
-
В Terraform добавлены новые ресурсы yandex_mdb_postgresql_database и yandex_mdb_postgresql_user.
-
Добавлены настройки max_logical_replication_workers и max_replication_slots.
-
В UI консоли появилась возможность создания новой базы данных из шаблона. Подробнее →
-
Реализована поддержка сторонних инструментов:
- pgcompacttable — утилита для оптимизации занимаемого объема данных, освобождения места;
- clickhouse_fdw — позволяет работать с данными в СУБД ClickHouse;
- orafce — поддержка функций БД Oracle;
- pg_cron — долгожданное расширение, которое позволяет добавлять в базу данных задачи и выполнять SQL-запросы по расписанию. Подробнее о настройке расширений →
Managed Service for MySQL®
-
В Terraform добавлена секция диагностики производительности и ресурсы yandex_mdb_mysql_database и yandex_mdb_mysql_user.
-
Добавлены настройки innodb_compression_level, innodb_strict_mode, max_digest_length, max_sp_recursion_depth.
-
Добавлено управление настройками сервиса диагностики производительности во всех интерфейсах: CLI, Terraform, UI консоль.
-
Ускорен процесс восстановления реплики из резервной копии за счет использования многопоточности при сжатии/шифровании бэкапа.
-
Доработан механизм переключения мастера: теперь переключение невозможно на значительно отставшую реплику или в случае отсутствия кворума. Максимальное отставание реплики задается настройкой mdb_priority_choice_max_lag.
-
В UI консоли добавлена возможность задавать приоритет выбора мастер-хоста в случае смены мастера.
Managed Service for Greenplum®
-
В CLI добавлены команды
yc managed-greenplum cluster
иyc managed-greenplum hosts
. -
Добавлена возможность миграции базы данных с помощью сервиса Yandex Data Transfer. Функциональность находится в стадии Preview. Подробнее →
-
Добавлена поддержка расширения pgcrypto, которое предоставляет криптографические функции PostgreSQL, и модуля diskquota, который позволяет ограничивать схемы БД по месту на диске.
-
Поддержали возможность создания кластера с нечётным количеством сегментов.
-
Минимальный размер хранилища на сетевых SSD-дисках для мастер-хоста ограничен 100 ГБ.
-
Добавлены настройки max_statement_mem и log_statement, доступные при создании и изменении кластера.
-
Оптимизировано создание резервных копий за счет особой обработки append-only сегментов.
-
Реализовано автоматическое переключение на резервный мастер через gpactivatestandby.
-
Оптимизирован процесс очистки (VACUUM):
- операция выполняется параллельно по нескольким базам;
- новые таблицы обрабатываются последними;
- таблицы с активными блокировками исключаются.
Managed Service for ClickHouse
-
Доступна новая версия 22.5. Список изменений →
-
Добавлена выдача пользователям прав на системные таблицы _system.
-
Включена настройка force_remove_data_recursively_on_drop для предотвращения ошибок
Directory not empty
при удалении баз данных. -
Поддержали запрос SYSTEM UNFREEZE, который удаляет бекап из облачного хранилища, включая данные таблиц, которые могут занимать место в облачном хранилище после удаления. Подробнее →
Managed Service for Redis™
-
Прекращена поддержка версий 5.0 и 6.0. Создание кластеров этих версий больше недоступно. Началось автоматическое обновление всех таких кластеров до версии 6.2.
-
Добавлено управление публичным доступом и приоритетом реплик в Terraform.
-
Добавлено изменение настроек client-output-buffer-limit normal и pubsub. Подробнее →
Читайте наш обзор Redis в блоге.
Managed Service for Apache Kafka®
-
Новая версия 3.1 доступна в PRODUCTION окружении.
-
Новый коннектор: S3 Sink.
-
В UI консоли добавлена загрузка SSL-сертификата для соединения с кластером через коннектор MirrorMaker.
-
Поддержка оффлайн-обслуживания.
-
Добавлено изменение настройки публичного доступа.
-
Ускорены операции по изменению прав пользователей для случая большого количества топиков.
-
Добавлена поддержка стандартного сжатия (zstd) для реестра схем (schema registry).
-
Запрещено использование флага preallocate, провоцирующего CorruptRecordException: KAFKA-13664.
Data Transfer
В нашем блоге рассказали о возможностях Data Transfer: как работает сервис, какие задачи помогает решить, почему его стоит выбрать и какие у него преимущеста перед аналогичными инструментами.
DataLens
Использование параметров
Главное нововведение DataLens — возможность использования параметров. Основные моменты:
-
Создать параметры можно на уровне датасета или чарта.
-
Использовать параметры можно в вычисляемых полях.
-
Значения для параметров на дашборде задаются через селектор типа «Ручной ввод».
-
После добавления параметра в датасет нужно пересохранить чарт.
Примеры на обновленном демодашборде, детали — в документации.

Порядок виджетов в мобильной верстке
По умолчанию виджеты на мобильных устройствах выстраиваются в единую ленту по порядку «слева-направо, сверху-вниз». Добавили возможность изменять этот порядок в настройках вкладки дашборда.

Новинки навигации
-
Возможность выбора множества элементов в навигации для переноса объектов.
-
Рекурсивное назначение прав на содержимое папок.
Новинки в таблицах
Регулировка ширины столбца и перенос строк в плоских таблица. Эта настройка доступна в секции «Столбцы» в визуализации «Таблица». Есть возможность задавать ширину в пикселях и процентах. Важное ограничение: ширина столбцов в таблице не влияет на размеры самой таблицы. Если сумма ширины всех столбцов меньше размера таблицы, то столбцы будут растянуты в том соотношении, которое указано в настройках.

Линейные индикаторы в ячейках. Для их использования перейдите в настройки поля и включите опцию «Линейный индикатор». Важное ограничение: если задавать масштаб вручную, то нужно обязательно указывать минимальное и максимальное значение. Выравнивание работает только если все значения в столбце отрицательные или только положительные (не работает для смешанных значений).

Форма запроса помощи партнера
Если вам нужна помощь в реализации проекта бизнес-аналитики под ключ, наша команда подберёт оптимального партнера под вашу задачу и свяжется с вами!

Все изменения можно попробовать на нашем обновленном демодашборде: https://datalens.yandex/demo