Дайджест новостей платформы данных (май‑сентябрь)

Рассказываем, что нового появилось в сервисах платформы данных с мая по сентябрь 2021 года.

24 сентября прошла конференция Yandex Scale 2021, где на треке Data Platform мы рассказали о всех новостях управляемых сервисов и новых возможностях поставки данных, а также показали, например, как создать корпоративное хранилище данных (Data Warehouse) в Yandex.Cloud. Смотрите записи докладов и заходите на наш стенд, чтобы узнать больше.

Общие новости

  • Новая платформа «Intel Ice Lake» с процессорами Intel® Xeon® Scalable 3-го поколения стала доступна для пользователей управляемых сервисов Yandex.Cloud. Максимальная конфигурация позволяет создать виртуальные машины с 96 ядрами и 576 ГБ памяти. Минимальный объем данных на хосте при использовании локального хранилища вырос до 368 ГБ. Подробнее.

  • Нереплицируемые сетевые диски стали доступны всем пользователям управляемых баз данных. Ранее диски были доступны только по запросу. Это диски с повышенной производительностью, о которых мы писали ранее.

  • Защита от случайного удаления: чтобы удалить защищенный кластер, пользователю придется сначала снять защиту в настройках. Включите эту опцию, чтобы защитить кластер от непреднамеренного удаления пользователем. Защита не помешает подключиться вручную и удалить содержимое базы данных. Настройкой можно управлять из Консоли на странице кластера, а также через Terraform и CLI. По умолчанию опция выключена.

Yandex Managed Service for Greenplum®

Запущен сервис для управления кластерами массивно-параллельной СУБД Greenplum® в инфраструктуре Yandex.Cloud. Yandex Managed Service for Greenplum® находится в стадии Preview и не тарифицируется. Чтобы начать пользоваться сервисом бесплатно, оставьте заявку на странице сервиса или в консоли управления.

Новости:

  • Стало возможным создавать кластер на нереплицируемых сетевых дисках.

  • Создавать и удалять кластер теперь можно и с помощью Terraform.

  • Для мониторинга состояния кластера и отдельных хостов доступны сервисные дашборды.

    Детализация конкретного запроса
  • Сервис интегрирован с Yandex DataLens: визуализируйте данные Greenplum на графиках и дашбордах.

Yandex Managed Service for SQL Server

  • Операционная система Windows Server Standard больше не доступна в Yandex Cloud Marketplace. С 1 сентября 2021 года существующие и новые кластеры Yandex Managed Service for SQL Server используют редакцию Windows Server Datacenter. Подробнее см. в статье Правила тарификации для Managed Service for SQL Server.

  • Транзакционная репликация. Теперь пользователь может настроить репликацию данных со своего локального SQL Server в облачный кластер. В отличие от развертывания из бекапа, этот подход позволяет получить реплику, синхронизированную с источником, и не требует помощи технической поддержки. Подробнее см. в статье Миграция базы данных в Managed Service for SQL Server.

  • Восстановление базы. Появилась возможность восстанавливать отдельную удаленную или существующую базу данных в существующем кластере. Восстановить можно в консоли в разделе баз данных, либо в разделе резервных копий.

    Детализация конкретного запроса
  • Возможность выбора SQL Collation при создании кластера.

  • Установка времени резервного копирования. Функциональность доступна в консоли управления в настройках кластера, а также в CLI и Terraform.

  • Нечитаемые реплики. Для клиентов Yandex Managed Service for SQL Server Enterprise Edition появилась возможность существенно снизить стоимость многохостового кластера за счет режима доступа к репликам. В режиме доступа на чтение за использование реплик взимается плата, так как требуется лицензия SQL Server на каждую из читаемых реплик. Для нечитаемых реплик плата за лицензию не производится. Управлять режимом доступа к репликам можно в настройках кластера. Подробнее о режимах доступа к репликам в документации.

  • Возможность выдавать пользователям server-level привилегии для мониторинга состояния сервера с точки зрения производительности. Мы предоставляем привилегии по запросу в техподдержку.

Yandex Managed Service for PostgreSQL

  • Полная поддержка работы с кластером в Terraform.
  • Переход на кворумную синхронную репликацию. Теперь данные мастер-хоста будут автоматически реплицироваться на две синхронные реплики внутри группы высокой доступности. В случае отказа основного мастера, одна из реплик возьмет на себя его роль.
  • Добавлено расширение oracle_fdw — возможность работы с таблицами Oracle из PostgreSQL.
  • Поддержка Timescale DB, plv8, rum как расширения в базе данных кластера.

Yandex Managed Service for MySQL®

  • Реализация основных возможностей для работы с кластером в Terraform.
  • Каскадные реплики: теперь можно ссылаться на другую реплику в качестве источника репликации. В случае падения, новым источником репликации становится другая реплика, либо вышестоящий хост. Каскадные реплики не могут становиться мастером.

Yandex Managed Service for MongoDB

  • Реализована возможность переключения первичной реплики. Подробнее.

  • Реализована возможность управления окном обслуживания через Terraform.

  • Диагностика производительности доступна в режиме Preview. Для активации диагностики необходимо разрешить сбор статистики в настройках кластера, а также задать порог долгих запросов в настройках СУБД. По умолчанию долгими считаются запросы от 300 миллисекунд, снижение порога может повлиять на производительность кластера.

    Детализация конкретного запроса
  • Добавлены новые метрики и графики в мониторинге. Например, число запросов, количество соединений и среднее время выполнения операции.

    Детализация конкретного запроса

Yandex Managed Service for Redis

  • В мониторинг добавлены: график числа ключей в разрезе по базам, график slowlog операций.

    Детализация конкретного запроса
  • Добавлена возможность управления окном обслуживания через Terraform.

  • Ускорено резервное копирование благодаря миграции на использование бекап-утилиты WAL-G.

  • Версия 6.2: реализовали поддержку новой версии в CLI и Terraform. Появилось много новых команд и улучшений, которые давно просили пользователи. Полный список изменений смотрите на официальном сайте.

  • Уменьшено время даунтайма во время рестартов и обновлений.

Yandex Managed Service for Elasticsearch

  • Добавлена поддержка Elasticsearch 7.13, 7.14. Версия Elasticsearch 7.6 больше не поддерживается.
  • Время создания кластеров уменьшилось в два раза.
  • Добавлена возможность изменить в консоли версию и редакцию кластера.
  • Добавлена возможность резервировать потребление на год или 3 года.

Yandex Managed Service for ClickHouse

  • Новая LTS версия ClickHouse 21.8. JSONPath, дедупликация для нереплицируемых таблиц, оптимизации производительности, улучшения надежности, дополнительные средства интроспекции. Подробнее.
  • Поддержка бэкапов для кластеров с гибридным хранилищем.
  • Добавлена возможность включить гибридное хранилище для уже созданных кластеров.
  • Улучшены дашборды с графиками.
  • Реализована возможность задавать собственные настройки.
  • Обновлена версия ZooKeeper c 3.5 до 3.6.

Yandex Managed Service for Apache Kafka®

  • Добавлена возможность задавать replication factor и num partitions на кластер.
  • Доступна версия Kafka 2.8.

Yandex Data Proc

  • Dataproc 2.0: доступны версии Hadoop 3.2, Spark 3.0, Hive 3.1, Apache Zeppelin 0.9.0. Подробнее состав версий см. в статье Среда исполнения.
  • Добавлена возможность редактировать настройки кластера.
  • Улучшена работа проксирования интерфейсов на DataProc 2.0, снижено потребление ресурсов на мастер-ноде и добавлены интерфейсы (например, YARN NodeManagers и Tez-UI).

Yandex Data Transfer

В режиме открытого превью доступны новые трансферы:

  • Трансферы PostgreSQL → ClickHouse и MySQL → ClickHouse с типом «снепшот + репликация». Это позволит вынести аналитические данные в нужное хранилище и разделить нагрузку.
  • Трансфер MongoDB → MongoDB с типом «снепшот + репликация». Это позволит мигрировать свои кластеры MongoDB или перенести данные в облачную платформу. Например, чтобы разово скопировать данные в сервис Yandex Managed Service for MongoDB и протестировать его работу.

Подробнее о новых функциональностях сервиса смотрите в докладе на Yandex Scale.

Трансфер с помощью Yandex Data Streams

Yandex Data Streams может непрерывно выполнять сбор данных из источников, а за сохранение одного потока в несколько приемников с различными политиками хранения отвечает сервис Yandex Data Transfer. Данные из источников поступают в Data Streams, затем Data Transfer считывает эти данные, разбивает их на колонки и строки и сохраняет в одну или сразу в несколько принимающих систем. Например, в Yandex Managed Service for ClickHouse, Yandex Object Storage или Yandex Database. Передаваемую информацию можно обрабатывать в Yandex Cloud Functions для обфускации чувствительных данных, смены их формата или любой другой обработки.

Трансфер с помощью Yandex Data Streams предоставляется в режиме закрытого превью.

Yandex DataLens

Полилинии

В DataLens появилась возможность рисовать полилинии на карте. Полилинии — тип возможного геослоя на чарте «Карта». Для работы с ним в датасете каждая точка каждой полилинии должна храниться отдельной строкой. Для описания чарта нужно добавить в соответствующие секции:

  • поле с типом «геоточка» — координаты точек линий;
  • поле или набор полей для группировки линий (нужен идентификатор каждой линии);
  • поле для сортировки порядка точек в каждой линии (например, timestamp);
  • отрезки полилинии можно красить градиентом по показателю (например, средняя скорость в точке) или же дискретными цветами по измерению (например, по названию поездки).

Пример чарта с комментариями:

Детализация конкретного запроса

Оригинал:

Детализация конкретного запроса

Кольцевые диаграммы

Появился новый тип чарта, с помощью которого удобно показывать доли и общую сумму. Отображение итогов можно включить в настройках чарта.

Детализация конкретного запроса

Итоги в плоских таблицах

Теперь в чартах типа «Таблица» можно включать отображение итогов.

Детализация конкретного запроса

Значение в строке «Итого» для показателя рассчитывается по тем же формулам, что и агрегация в показателе: для суммы будет отображена сумма, для среднего — среднее значение по столбцу, для количества уникальных — число уникальных элементов.

Детализация конкретного запроса

Ограничения текущей реализации:

  • итоги рассчитываются только для показателей, для измерений строка «Итого» остается пустой;
  • оконные функции не поддерживаются;
  • актуально только для числовых полей.

Поддержка Greenplum

Появился новый коннектор для Greenplum. Вы можете в несколько кликов выбрать базы данных, созданные в облаке, или вручную указать реквизиты любого внешнего кластера. Запись прошедшего митапа с примером работы.

Палитры

Появились расширенные палитры цветов:

  • все палитры адаптированы под светлую и темную темы;

  • палитра DataLens NEO 20 включает нейтральные светло- и темно-серые цвета;

  • цвета для чарта можно выбирать только в рамках одной палитры.

    Детализация конкретного запроса

Фильтр по умолчанию для новых чартов

В датасете появились фильтры по умолчанию для новых чартов. При создании чарта фильтры из датасета автоматически добавляются в секцию «Фильтры». Фильтры по умолчанию полезны, например, при создании множества чартов над одним и тем же датасетом с неизменным набором фильтров.

Детализация конкретного запроса

Особенности фильтров по умолчанию:

  • Появляется в чарте только в двух случаях:
    • в момент создания чарта;
    • в момент добавления датасета в чарт.
  • Можно удалить и отредактировать в чарте.
  • Не применяется к превью датасета.

Статья в документации про агрегации

Мы подготовили инструкцию о принципах работы Yandex DataLens (и любого современного BI) с измерениями и показателями. Ознакомьтесь, чтобы разобраться как устроены агрегации в DataLens и избежать ошибок.

  • Новости