Команда архитекторов Yandex Cloud собрала общепринятые методики и проверенные практики, которые помогут оптимизировать хранилище данных на базе Greenplum. Заполните форму ниже, чтобы получить доступ.

Дайджест новостей платформы данных (апрель — июль)
В этом дайджесте новостей платформы данных рассказываем про новый тип кластеров Hive Metastore в Data Proc и обновления в наших сервисах.
Новый тип кластеров Hive Metastore в Data Proc
В сервисе Data Proc теперь можно создавать управляемые кластеры Hive Metastore в режиме Public Preview. Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными, упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.
С помощью новой технологии стало проще подготавливать и очищать данные, создавать хранилища и предметно-ориентированные витрины данных.
Ограничение доступности Managed Service for Elasticsearch
Компания Elastic сообщила, что с апреля 2024 года доступ к сервису Elasticsearch для пользователей Yandex Cloud будет ограничен. Поэтому мы решили не выпускать новые функции для сервиса Managed Service for Elasticsearch.
Пользователи сервиса смогут работать с существующими кластерами и создавать новые до апреля 2024 года. Пользователи, которые ещё не работали с Elasticsearch в облаке, не смогут создавать кластеры сервиса с 20 июля 2023 года.
Data Transfer
Последние нововведения в сервисе:
-
поддержали работу с PostgreSQL-источниками версии 15;
-
поддержали Apache Kafka и YDB в Terraform-провайдере;
-
упростили работу со списком операций: теперь их можно сортировать по типу, статусу и дате создания;
-
сократили сообщения об ошибках, продолжим делать их более понятными;
-
обновили сервисный дашборд во вкладке Мониторинг и, соответственно, скорректировали описание метрик и алертов в документации.
Data Transfer
Managed Service for Apache Kafka®
Для пользователей управляемого сервиса доступна версия Apache Kafka 3.4.
В ней появились:
-
ускорение записи сообщений без ключей в случае сетевых проблем;
-
улучшения в Kafka Streams;
-
поддержка exactly-once-семантики для Kafka Connectors;
-
автоматическое удаление старых ProducerID;
-
запрос consumer-offsets при использовании exactly-once-семантики;
-
запрос consumer-offsets для многих групп разом;
-
метрики прогресса log-recovery.
Managed Service for Apache Kafka®
Managed Service for Greenplum®
За последние несколько месяцев мы добавили следующие изменения:
-
Для новых кластеров включили поддержку инкрементальных бэкапов. Благодаря этому данные будут занимать меньше места в хранилище.
-
Поддержали Point-in-Time-Recovery. Теперь можно указать точку во времени при восстановлении из бэкапа.
-
Обновили версию PXF до 6.6.0. В ней используются новые драйверы ClickHouse, которые поддерживают TLS-шифрование.
-
При восстановлении кластера Greenplum теперь можно выбрать количество хостов и сегментов. Это позволит сэкономить ресурсы и не переплачивать за избыточные мощности и место.
-
В логи добавили события от протокола PXF.
Managed Service for Greenplum®
Managed Service for ClickHouse
Поддержали мажорные версии ClickHouse 23.4 и 23.5.
Что нового появилось:
-
улучшенная совместимость с MySQL;
-
поддержка Apache Iceberg v2;
-
улучшенная поддержка форматов Parquet, ORC и Arrow: добавили настройки управления сжатием, увеличили быстродействие до 100 раз.
-
интеграция с Azure Blob Storage;
-
автоматический вывод схемы для интеграционных движков PostgreSQL и MySQL;
-
запрос GRANT CURRENT GRANTS для копирования прав доступа между пользователями;
-
системные таблицы: system.user_processes, system.zookeeper_connection, system.server_settings;
-
экспериментальные фичи Lightweight Deletes, Query Results Cache и Geographical Data Types объявлены production ready.
Managed Service for ClickHouse
Managed Service for MySQL®
Поддержали минорные версии MySQL 5.7 и 8.0. Для версии 5.7 добавили возможность анализировать запросы при помощи query_response_time_stats
.
Добавили новые глобальные разрешения для пользователей:
- FLUSH_OPTIMIZER_COSTS — для пересчёта текущей стоимостной модели;
- SHOW_ROUTINE — для доступа к определениям процедур и функций.
Managed Service for MySQL®
Managed Service for PostgreSQL
Добавили экспорт данных. Теперь можно экспортировать сырые данные диагностики производительности через API.
Также появилась новая настройка session_duration_timeout. Она регулирует время жизни самой длинной активной сессии или транзакции: по умолчанию — 12 часов.
Managed Service for PostgreSQL
DataLens
Пользователям сервиса стала доступна сортировка показатели в сводной таблице по клику на заголовки. Ориентироваться в данных и находить инсайты стало проще и быстрее.
Сортировка показателей в сводной таблице
Кроме того, в сводных таблицах стали доступны подытоги. Теперь вычислить сумму строк или столбцов можно по клику. Для первого поля в секции подытоги будут работать как общее «Итого». Включить функцию можно в настройках поля секции.
Также для удобства мы сгруппировали подключения по типам: базы данных, файлы и сервисы, партнёрские подключения.

Группировка подключений по типам
И добавили возможность подключения к Snowflake.

Подключение к Snowflake
Добавили настройку отображения подписи для столбчатых и линейчатых визуализаций с группировкой и без:
-
изменить поведение можно в настройках чарта;
-
для новых чартов подпись теперь по умолчанию отображается снаружи;
-
для существующих чартов поведение не поменялось.
Разнесли по разным секциям настройки формы и цвета для точечных диаграмм. Теперь управлять ими стало удобнее.

Настройки формы и цвета для точечных диаграмм
Также стоит отметить, что мы масштабно обновили механику расчёта LOD и оконных функций: исправили много багов, ускорили работу и оптимизировали вычисления.
Новинки RLS
-
Для полей с включённым RLS теперь отображается кликабельная иконка «Ключик» в общем списке.
-
Если логин в конфиге не прошёл валидацию — например, из-за опечатки или если пользователь удалён из организации — ему будет добавлен префикс
!FAILED_
. -
В индикаторах теперь можно выбирать цвет из любой палитры или кодом.

Выбор цвета палитры
Обновлённая структура документации DataLens
Теперь корневые разделы разбиты по ключевым сущностям — подключения, датасеты, чарты, дашборды — и важным сквозным концептам — вычисляемые поля, настройка прав и т. п.
Эти доработки не окончательные — будем делать структуру ещё проще и удобнее.
Полезные материалы
На вебинаре 20 июня мы рассказали, как с помощью serverless-сервисов реализовать упрощённый пайплайн поставки данных Telegram API в Managed ClickHouse и их визуализации в DataLens. Эта информация будет полезна всем, кто занимается подготовкой данных для DataLens.
Ещё в июне мы говорили о проектировании дашбордов. Роман Бунин, BI-евангелист Yandex DataLens и автор телеграм-канала Reveal the Data, рассказал, как собрать требования для дашборда от заказчика, разработать макет, собрать дашборд и организовать совместную работу над ним в DataLens.
Пополняем коллекцию лайфхаков по работе с DataLens в YouTube. В этом квартале — новые ролики о том, как настроить переходы между дашбордами, применяя фильтры и текстовые показатели для подписи значений на графике. Смотрите в DataLens Shorts.

Лайфхаки и опыт экспертов помогут оптимизировать работу с дашбордами в Yandex DataLens. Однако в любой компании объём данных неизбежно растёт, и чем их больше, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам. Роман Бунин вместе с коллегами, архитекторами Yandex Cloud Игорем Путятиным и Кузьмой Лешаковым, рассказал, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд.