Что нового в сфере дата‑технологий: обзор докладов с конференции UNION ALL

Советуем, какие выступления с UNION ALL посмотреть ML‑разработчикам, аналитикам, дата‑инженерам, архитекторам баз данных, DevOps‑инженерам и специалистам по информационной безопасности.

В конце марта мы провели UNION ALL — большую конференцию о технологиях для эффективной работы с данными. В треке докладов «Технологии» эксперты рассказали о защите облачных баз данных, решении задач машинного обучения в облаке, новых возможностях BI-инструмента DataLens и многом другом. А в «Кейсах» представители крупных компаний поделились своим опытом и проверенными решениями.

Также на конференции представили сервис для управления метаданными Yandex MetaData Hub.

В этом обзоре собрали основные тезисы выступлений и отметили, кому они могут быть интересны: дата-инженерам, архитекторам баз данных, ML-разработчикам, аналитикам, DevOps-инженерам и специалистам по информационной безопасности (ИБ).

Главный доклад

Новые решения для интеграции данных в облаке

Кому будет интересно

  • Руководителям разработки и руководителям дата-офисов

  • Специалистам по ИБ.

  • Архитекторам.

  • Аналитикам данных.

О чём доклад

Конференцию открывают Григорий Атрепьев, СРО Yandex Cloud, Всеволод Грабельников, руководитель продукта Data Platform & ML, Павел Голубин, директор по работе с крупным корпоративным сектором, и Павел Дубинин, менеджер продукта DataLens.

Первое выступление посвящено направлениям развития платформы данных Yandex Cloud, анонсам новых сервисов и планам развития — всему, что появляется в ответ на меняющиеся потребности пользователей и рыночные тренды.

Также эксперты рассказывают о способах решения актуальных задач с помощью сервисов платформы данных:

  • Разработка бэкенд-приложения — от небольших кластеров для офисных приложений до десятков узлов под большие базы данных (БД), например, CRM или ERP.

  • Подготовка данных для аналитики — Data Warehouse (DWH), потоковая аналитика, витрины данных, работа с очередями.

  • Анализ логов.

  • Интеграция и визуализация данных.

Большинство типовых сценариев уже реализованы в современных облаках, так что фокус развития облачных платформ смещается на повышение безопасности и удобства работы, а также на эффективность использования ресурсов. Решить все эти задачи помогает, например, анонсированный на конференции MetaData Hub — набор сервисов для управления метаданными, который станет ядром системы управления данными (Data Governance) в облаке.

Несколько фактов и цифр из доклада:

1.На 23% вырос российский рынок данных за 2023 год.

2.Более 2,5 миллиона чартов создано с начала 2023 года в сервисе DataLens.

3.Самым популярным репозиторием Яндекса, по данным Open Source Contributor Index, стал этот репозиторий YDB.

Трек «Технологии»

Безопасность: защита облачных баз данных от внешних и внутренних угроз

Кому будет интересно

  • Специалистам по ИБ.

  • Архитекторам баз данных и разработчикам.

О чём доклад

В докладе о защите облачных баз данных Алексей Миртов, руководитель группы продуктовой архитектуры Security & Compliance Yandex Cloud, рассказывает о существующем на рынке разрыве в навыках (talent gap): найти хорошего специалиста по информационной безопасности довольно сложно. С этой проблемой помогут справиться библиотеки лучших практик и готовых решений для тех, кто занимается информационной безопасностью.

А ещё во время выступления Алексей рассматривает несколько типовых проблем защиты базы данных и формулирует чек-лист для решения этой задачи:

  • Обеспечение сетевой безопасности за счёт security-групп и приватных подключений.

  • Безопасность паролей, которая обеспечивается менеджером подключений Connection Manager в связке с секретницей, а также инструментами для работы с Terraform State.

  • Контроль доступа: когда важно следить за созданием пользователей внутри БД, контролировать подключение из других сервисов, настраивать SSO и учитывать гранулярность доступа.

  • Сбор событий информационной безопасности во всех базах данных.

  • Трансформация и маскирование данных.

ML-задачи в Yandex Cloud: возможности и сценарии

Кому будет интересно

  • Специалистам по машинному обучению (ML).

  • Архитекторам баз данных и аналитикам.

О чём доклад

Доклад про задачи машинного обучения в Yandex Cloud от Дмитрия Рыбалко, продуктового архитектора ML-сервисов, — это обзор аналитических сценариев с использованием сервиса Yandex DataSphere.

Для запуска ML-моделей в эксплуатацию часто нужно проделать большой объём работы вручную, например, собрать окружение, создать временные кластеры для смежной команды. В первой части доклада Дмитрий классифицирует способы, которые помогут оптимизировать построение сложных пайплайнов.

Подходы к запуску моделей: из Docker-образа, через ресурс обученной модели и batch-деплой

Во второй части он рассказывает о кейсах LLM: разных сценариях использования дообучения языковых моделей под конкретные задачи.

RAG: учим GPT работать по собственной базе знаний

Кому будет интересно

  • Специалистам по ML.

О чём доклад

Иван Веткасов, архитектор решений Yandex Cloud, сравнивает Fine-tuning модели для автоматического определения контекста и RAG (Retrieval-Augmented Generation, генерация с дополненной выборкой) для точных ответов по конкретным документам. А потом подробно рассматривает особенности RAG на примере поиска по собственной базе знаний.

Как показывает практика, Finetuning и RAG для подобных задач лучше совмещать

RAG как более быстрый и менее трудозатратный метод позволяет поддерживать актуальность поиска по постоянно растущей базе знаний. Это выступление поможет разобраться, как применять эту технику к большим языковым моделям.

Объединяем локальные и облачные платформы с YDB

Кому будет интересно

  • Архитекторам.

  • DevOps.

  • Администраторам баз данных.

О чём доклад

Олег Бондарь, CPO YDB, рассказывает о том, как можно интегрировать катастрофоустойчивую и масштабируемую базу данных YDB и в облачную платформу, и в локальную. Он приводит примеры отказоустойчивых и катастрофоустойчивых конфигураций, а также схем шардирования, которые помогают обойти частые трудности.

Разделение данных в БД и их слияние не требует участия разработчика — в YDB всё происходит автоматически

MDB: отличие базы данных в облаке

Кому будет интересно

  • Аналитикам данных.

  • Администраторам баз данных.

  • Архитекторам.

О чём доклад

Выступление Анны Крханбаровой, менеджера продукта Data Platform, посвящено работе управляемых баз данных в облаке. Доклад предлагает обзор основных возможностей управляемых сервисов Yandex Cloud и помогает разобраться в инструментах логирования, мониторинга, диагностики баз данных в облаке и особенностях управления облачной инфраструктурой.

DataLens: расширяем возможности визуализации данных для бизнеса

Кому будет интересно

  • Аналитикам данных.

О чём доклад

Доклад Павла Дубинина, менеджера продукта DataLens, стоит посмотреть тем, кто использует или планирует использовать BI-инструмент от Yandex Cloud. Обсуждаем новые тарифы и возможности DataLens и показываем, как встроить его в свои веб-ресурсы и организовать доступ к инструменту через SSO.

Трек «Кейсы»

Доклады этого трека посвящены решениям для работы с данными в ритейле, финтехе, логистике и других отраслях. Представители крупных компаний делятся опытом, который может пригодиться руководителям дата-проектов и дата-офисов, аналитикам данных и бизнес-аналитикам.

Как устроен дата-офис крупного ритейлера и как компания оценивает data value. Данила Наумов, CDO группы «М.Видео‑Эльдорадо», делится опытом построения дата-офиса в компании и рассказывает о том, как оценивать эффективность дата-проектов для бизнеса.

На какие грабли может наступить финтех-компания при переезде в облако и как с этим справиться в заданные сроки. Дмитрий Крамар и Елена Баяндина, руководители управлений разработки в банке «Синара», делятся опытом разделения ответственности с провайдером облачных услуг. При миграции в облако коллегам предстояло учесть требования инвестиционного бизнеса.

Эксперты рассказывают, как им удалось решить технические проблемы, популярные в финтех-сфере

Как маркетплейсу перейти от операционной отчётности к развитой модели предсказания спроса. Даниил Маяцкий, руководитель отдела продуктовой аналитики B2C KazanExpress, рассказывает, как компания создала базу для сбора и визуализации данных и как выстроенная система помогает прогнозировать спрос с учётом сезонности.

Критерии выбора BI-системы для маркетплейсов

Как внедрить инструменты real-time аналитики и монетизировать данные в логистике. Дмитрий Поликовский и Дмитрий Власкин рассказывают о том, как развернуть Data Lake для платформы цифровой логистики Monopoly.Online.

Какие сложности возникают при миграции корпоративного хранилища данных и что может помочь оптимизировать ресурсы в такой ситуации. Дмитрий Шляпин и Алексей Попов из ITMS (ex. British American Tobacco) показывают, как перевезти DWH в Yandex Cloud — с минимальным даунтаймом и учётом растущих требований к хранилищу.

Чем полезны CDC и DBT при построении облачного хранилища данных в сети ресторанов быстрого питания. Никита Целищев, инженер по данным в «Юнирест», делится опытом использования нескольких инструментов Open Source в облаке при построении ETL-платформы.

Эксперт рассказывает о преимуществах, которые получила «Юнирест» при переходе с DBT на самописный ETL-фреймворк

Чтобы первыми узнавать новости сервисов платформы данных и обсуждать технические вопросы с экспертами, присоединяйтесь к нашему сообществу Yandex Cloud: Data Platform.

Напишите нам

Начать пользоваться Yandex Cloud

Тарифы

Узнать цены и рассчитать стоимость

Мероприятия

Календарь событий Yandex Cloud
Что нового в сфере дата‑технологий: обзор докладов с конференции UNION ALL
Войдите, чтобы сохранить пост