Дайджест новостей платформы данных (апрель — июль)

В этом дайджесте новостей платформы данных рассказываем про новый тип кластеров Hive Metastore в Data Proc и обновления в наших сервисах.

Новый тип кластеров Hive Metastore в Data Proc

В сервисе Data Proc теперь можно создавать управляемые кластеры Hive Metastore в режиме Public Preview. Hive Metastore связывает разнородные ETL-системы и инструменты для работы с общими данными, упрощает их развёртывание. Кластеры Metastore управляют табличными метаданными объектов, которые находятся в бакетах Object Storage.

С помощью новой технологии стало проще подготавливать и очищать данные, создавать хранилища и предметно-ориентированные витрины данных.

Читать подробнее →

Ограничение доступности Managed Service for Elasticsearch

Компания Elastic сообщила, что с апреля 2024 года доступ к сервису Elasticsearch для пользователей Yandex Cloud будет ограничен. Поэтому мы решили не выпускать новые функции для сервиса Managed Service for Elasticsearch.

Пользователи сервиса смогут работать с существующими кластерами и создавать новые до апреля 2024 года. Пользователи, которые ещё не работали с Elasticsearch в облаке, не смогут создавать кластеры сервиса с 20 июля 2023 года.

Что с этим делать, рассказываем в статье →

Data Transfer

Последние нововведения в сервисе:

  • поддержали работу с PostgreSQL-источниками версии 15;

  • поддержали Apache Kafka и YDB в Terraform-провайдере;

  • упростили работу со списком операций: теперь их можно сортировать по типу, статусу и дате создания;

  • сократили сообщения об ошибках, продолжим делать их более понятными;

  • обновили сервисный дашборд во вкладке Мониторинг и, соответственно, скорректировали описание метрик и алертов в документации.

Managed Service for Apache Kafka®

Для пользователей управляемого сервиса доступна версия Apache Kafka 3.4.

В ней появились:

  • ускорение записи сообщений без ключей в случае сетевых проблем;

  • улучшения в Kafka Streams;

  • поддержка exactly-once-семантики для Kafka Connectors;

  • автоматическое удаление старых ProducerID;

  • запрос consumer-offsets при использовании exactly-once-семантики;

  • запрос consumer-offsets для многих групп разом;

  • метрики прогресса log-recovery.

Полный список обновлений →

Managed Service for Apache Kafka®

Managed Service for Greenplum®

За последние несколько месяцев мы добавили следующие изменения:

  • Для новых кластеров включили поддержку инкрементальных бэкапов. Благодаря этому данные будут занимать меньше места в хранилище.

  • Поддержали Point-in-Time-Recovery. Теперь можно указать точку во времени при восстановлении из бэкапа.

  • Обновили версию PXF до 6.6.0. В ней используются новые драйверы ClickHouse®, которые поддерживают TLS-шифрование.

  • При восстановлении кластера Greenplum теперь можно выбрать количество хостов и сегментов. Это позволит сэкономить ресурсы и не переплачивать за избыточные мощности и место.

  • В логи добавили события от протокола PXF.

Команда архитекторов Yandex Cloud собрала общепринятые методики и проверенные практики, которые помогут оптимизировать хранилище данных на базе Greenplum. Заполните форму ниже, чтобы получить доступ.

Managed Service for Greenplum®

Managed Service for ClickHouse

Поддержали мажорные версии ClickHouse 23.4 и 23.5.

Что нового появилось:

  • улучшенная совместимость с MySQL;

  • поддержка Apache Iceberg v2;

  • улучшенная поддержка форматов Parquet, ORC и Arrow: добавили настройки управления сжатием, увеличили быстродействие до 100 раз.

  • интеграция с Azure Blob Storage;

  • автоматический вывод схемы для интеграционных движков PostgreSQL и MySQL;

  • запрос GRANT CURRENT GRANTS для копирования прав доступа между пользователями;

  • системные таблицы: system.user_processes, system.zookeeper_connection, system.server_settings;

  • экспериментальные фичи Lightweight Deletes, Query Results Cache и Geographical Data Types объявлены production ready.

Полный список изменений →

Managed Service for ClickHouse

Managed Service for MySQL®

Поддержали минорные версии MySQL 5.7 и 8.0. Для версии 5.7 добавили возможность анализировать запросы при помощи query_response_time_stats.

Подробнее →

Добавили новые глобальные разрешения для пользователей:

  • FLUSH_OPTIMIZER_COSTS — для пересчёта текущей стоимостной модели;
  • SHOW_ROUTINE — для доступа к определениям процедур и функций.

Полное описание разрешений →

Managed Service for MySQL®

Managed Service for PostgreSQL

Добавили экспорт данных. Теперь можно экспортировать сырые данные диагностики производительности через API.

Также появилась новая настройка session_duration_timeout. Она регулирует время жизни самой длинной активной сессии или транзакции: по умолчанию — 12 часов.

Managed Service for PostgreSQL

DataLens

Пользователям сервиса стала доступна сортировка показатели в сводной таблице по клику на заголовки. Ориентироваться в данных и находить инсайты стало проще и быстрее.

Сортировка показателей в сводной таблице

Кроме того, в сводных таблицах стали доступны подытоги. Теперь вычислить сумму строк или столбцов можно по клику. Для первого поля в секции подытоги будут работать как общее «Итого». Включить функцию можно в настройках поля секции.

Также для удобства мы сгруппировали подключения по типам: базы данных, файлы и сервисы, партнёрские подключения.

Группировка подключений по типам

И добавили возможность подключения к Snowflake.

Подключение к Snowflake

Добавили настройку отображения подписи для столбчатых и линейчатых визуализаций с группировкой и без:

  • изменить поведение можно в настройках чарта;

  • для новых чартов подпись теперь по умолчанию отображается снаружи;

  • для существующих чартов поведение не поменялось.

Разнесли по разным секциям настройки формы и цвета для точечных диаграмм. Теперь управлять ими стало удобнее.

Настройки формы и цвета для точечных диаграмм

Также стоит отметить, что мы масштабно обновили механику расчёта LOD и оконных функций: исправили много багов, ускорили работу и оптимизировали вычисления.

Новинки RLS

  • Для полей с включённым RLS теперь отображается кликабельная иконка «Ключик» в общем списке.

  • Если логин в конфиге не прошёл валидацию — например, из-за опечатки или если пользователь удалён из организации — ему будет добавлен префикс !FAILED_.

  • В индикаторах теперь можно выбирать цвет из любой палитры или кодом.

Выбор цвета палитры

Обновлённая структура документации DataLens

Теперь корневые разделы разбиты по ключевым сущностям — подключения, датасеты, чарты, дашборды — и важным сквозным концептам — вычисляемые поля, настройка прав и т. п.

Эти доработки не окончательные — будем делать структуру ещё проще и удобнее.

В документацию →

Полезные материалы

На вебинаре 20 июня мы рассказали, как с помощью serverless-сервисов реализовать упрощённый пайплайн поставки данных Telegram API в Managed ClickHouse и их визуализации в DataLens. Эта информация будет полезна всем, кто занимается подготовкой данных для DataLens.

Смотреть запись →

Ещё в июне мы говорили о проектировании дашбордов. Роман Бунин, BI-евангелист Yandex DataLens и автор телеграм-канала Reveal the Data, рассказал, как собрать требования для дашборда от заказчика, разработать макет, собрать дашборд и организовать совместную работу над ним в DataLens.

Смотреть запись →

Пополняем коллекцию лайфхаков по работе с DataLens в YouTube. В этом квартале — новые ролики о том, как настроить переходы между дашбордами, применяя фильтры и текстовые показатели для подписи значений на графике. Смотрите в DataLens Shorts.

Лайфхаки и опыт экспертов помогут оптимизировать работу с дашбордами в Yandex DataLens. Однако в любой компании объём данных неизбежно растёт, и чем их больше, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам. Роман Бунин вместе с коллегами, архитекторами Yandex Cloud Игорем Путятиным и Кузьмой Лешаковым, рассказал, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд.

Читать статью на Хабре →

Напишите нам

Начать пользоваться Yandex Cloud

Тарифы

Узнать цены и рассчитать стоимость

Мероприятия

Календарь событий Yandex Cloud
Дайджест новостей платформы данных (апрель — июль)
Войдите, чтобы сохранить пост