Подходы к запуску моделей: из Docker-образа, через ресурс обученной модели и batch-деплой
Что нового в сфере дата‑технологий: обзор докладов с конференции UNION ALL
Советуем, какие выступления с UNION ALL посмотреть ML‑разработчикам, аналитикам, дата‑инженерам, архитекторам баз данных, DevOps‑инженерам и специалистам по информационной безопасности.
В конце марта мы провели UNION ALL
Также на конференции представили сервис для управления метаданными Yandex MetaData Hub.
В этом обзоре собрали основные тезисы выступлений и отметили, кому они могут быть интересны: дата-инженерам, архитекторам баз данных, ML-разработчикам, аналитикам, DevOps-инженерам и специалистам по информационной безопасности (ИБ).
Главный доклад
Новые решения для интеграции данных в облаке
Кому будет интересно
-
Руководителям разработки и руководителям дата-офисов
-
Специалистам по ИБ.
-
Архитекторам.
-
Аналитикам данных.
О чём доклад
Конференцию открывают Григорий Атрепьев, СРО Yandex Cloud, Всеволод Грабельников, руководитель продукта Data Platform & ML, Павел Голубин, директор по работе с крупным корпоративным сектором, и Павел Дубинин, менеджер продукта DataLens.
Первое выступление посвящено направлениям развития платформы данных Yandex Cloud, анонсам новых сервисов и планам развития — всему, что появляется в ответ на меняющиеся потребности пользователей и рыночные тренды.
Также эксперты рассказывают о способах решения актуальных задач с помощью сервисов платформы данных:
-
Разработка бэкенд-приложения — от небольших кластеров для офисных приложений до десятков узлов под большие базы данных (БД), например, CRM или ERP.
-
Подготовка данных для аналитики — Data Warehouse (DWH), потоковая аналитика, витрины данных, работа с очередями.
-
Анализ логов.
-
Интеграция и визуализация данных.
Большинство типовых сценариев уже реализованы в современных облаках, так что фокус развития облачных платформ смещается на повышение безопасности и удобства работы, а также на эффективность использования ресурсов. Решить все эти задачи помогает, например, анонсированный на конференции MetaData Hub — набор сервисов для управления метаданными, который станет ядром системы управления данными (Data Governance) в облаке.
Несколько фактов и цифр из доклада:
1.На 23% вырос российский рынок данных за 2023 год.
2.Более 2,5 миллиона чартов создано с начала 2023 года в сервисе DataLens.
3.Самым популярным репозиторием Яндекса, по данным
Трек «Технологии»
Безопасность: защита облачных баз данных от внешних и внутренних угроз
Кому будет интересно
-
Специалистам по ИБ.
-
Архитекторам баз данных и разработчикам.
О чём доклад
В докладе о защите облачных баз данных Алексей Миртов, руководитель группы продуктовой архитектуры Security & Compliance Yandex Cloud, рассказывает о существующем на рынке разрыве в навыках (talent gap): найти хорошего специалиста по информационной безопасности довольно сложно. С этой проблемой помогут справиться библиотеки лучших практик и готовых решений для тех, кто занимается информационной безопасностью.
А ещё во время выступления Алексей рассматривает несколько типовых проблем защиты базы данных и формулирует чек-лист для решения этой задачи:
-
Обеспечение сетевой безопасности за счёт security-групп и приватных подключений.
-
Безопасность паролей, которая обеспечивается менеджером подключений Connection Manager в связке с секретницей, а также инструментами для работы с Terraform State.
-
Контроль доступа: когда важно следить за созданием пользователей внутри БД, контролировать подключение из других сервисов, настраивать SSO и учитывать гранулярность доступа.
-
Сбор событий информационной безопасности во всех базах данных.
-
Трансформация и маскирование данных.
ML-задачи в Yandex Cloud: возможности и сценарии
Кому будет интересно
-
Специалистам по машинному обучению (ML).
-
Архитекторам баз данных и аналитикам.
О чём доклад
Доклад про задачи машинного обучения в Yandex Cloud от Дмитрия Рыбалко, продуктового архитектора ML-сервисов, — это обзор аналитических сценариев с использованием сервиса Yandex DataSphere.
Для запуска ML-моделей в эксплуатацию часто нужно проделать большой объём работы вручную, например, собрать окружение, создать временные кластеры для смежной команды. В первой части доклада Дмитрий классифицирует способы, которые помогут оптимизировать построение сложных пайплайнов.
Во второй части он рассказывает о кейсах LLM: разных сценариях использования дообучения языковых моделей под конкретные задачи.
RAG: учим GPT работать по собственной базе знаний
Кому будет интересно
- Специалистам по ML.
О чём доклад
Иван Веткасов, архитектор решений Yandex Cloud, сравнивает Fine-tuning модели для автоматического определения контекста и RAG (Retrieval-Augmented Generation, генерация с дополненной выборкой) для точных ответов по конкретным документам. А потом подробно рассматривает особенности RAG на примере поиска по собственной базе знаний.
Как показывает практика, Finetuning и RAG для подобных задач лучше совмещать
RAG как более быстрый и менее трудозатратный метод позволяет поддерживать актуальность поиска по постоянно растущей базе знаний. Это выступление поможет разобраться, как применять эту технику к большим языковым моделям.
Объединяем локальные и облачные платформы с YDB
Кому будет интересно
-
Архитекторам.
-
DevOps.
-
Администраторам баз данных.
О чём доклад
Олег Бондарь, CPO YDB, рассказывает о том, как можно интегрировать катастрофоустойчивую и масштабируемую базу данных YDB и в облачную платформу, и в локальную. Он приводит примеры отказоустойчивых и катастрофоустойчивых конфигураций, а также схем шардирования, которые помогают обойти частые трудности.
Разделение данных в БД и их слияние не требует участия разработчика — в YDB всё происходит автоматически
MDB: отличие базы данных в облаке
Кому будет интересно
-
Аналитикам данных.
-
Администраторам баз данных.
-
Архитекторам.
О чём доклад
Выступление Анны Крханбаровой, менеджера продукта Data Platform, посвящено работе управляемых баз данных в облаке. Доклад предлагает обзор основных возможностей управляемых сервисов Yandex Cloud и помогает разобраться в инструментах логирования, мониторинга, диагностики баз данных в облаке и особенностях управления облачной инфраструктурой.
DataLens: расширяем возможности визуализации данных для бизнеса
Кому будет интересно
- Аналитикам данных.
О чём доклад
Доклад Павла Дубинина, менеджера продукта DataLens, стоит посмотреть тем, кто использует или планирует использовать BI-инструмент от Yandex Cloud. Обсуждаем новые тарифы и возможности DataLens и показываем, как встроить его в свои веб-ресурсы и организовать доступ к инструменту через SSO.
Трек «Кейсы»
Доклады этого трека посвящены решениям для работы с данными в ритейле, финтехе, логистике и других отраслях. Представители крупных компаний делятся опытом, который может пригодиться руководителям дата-проектов и дата-офисов, аналитикам данных и бизнес-аналитикам.
Как устроен дата-офис крупного ритейлера и как компания оценивает data value. Данила Наумов, CDO группы «М.Видео‑Эльдорадо», делится опытом построения дата-офиса в компании и рассказывает о том, как оценивать эффективность дата-проектов для бизнеса.
На какие грабли может наступить финтех-компания при переезде в облако и как с этим справиться в заданные сроки. Дмитрий Крамар и Елена Баяндина, руководители управлений разработки в банке «Синара», делятся опытом разделения ответственности с провайдером облачных услуг. При миграции в облако коллегам предстояло учесть требования инвестиционного бизнеса.
Эксперты рассказывают, как им удалось решить технические проблемы, популярные в финтех-сфере
Как маркетплейсу перейти от операционной отчётности к развитой модели предсказания спроса. Даниил Маяцкий, руководитель отдела продуктовой аналитики B2C KazanExpress, рассказывает, как компания создала базу для сбора и визуализации данных и как выстроенная система помогает прогнозировать спрос с учётом сезонности.
Критерии выбора BI-системы для маркетплейсов
Как внедрить инструменты real-time аналитики и монетизировать данные в логистике. Дмитрий Поликовский и Дмитрий Власкин рассказывают о том, как развернуть Data Lake для платформы цифровой логистики Monopoly.Online.
Какие сложности возникают при миграции корпоративного хранилища данных и что может помочь оптимизировать ресурсы в такой ситуации. Дмитрий Шляпин и Алексей Попов из ITMS (ex. British American Tobacco) показывают, как перевезти DWH в Yandex Cloud — с минимальным даунтаймом и учётом растущих требований к хранилищу.
Чем полезны CDC и DBT при построении облачного хранилища данных в сети ресторанов быстрого питания. Никита Целищев, инженер по данным в «Юнирест», делится опытом использования нескольких инструментов Open Source в облаке при построении ETL-платформы.
Эксперт рассказывает о преимуществах, которые получила «Юнирест» при переходе с DBT на самописный ETL-фреймворк
Чтобы первыми узнавать новости сервисов платформы данных и обсуждать технические вопросы с экспертами, присоединяйтесь к нашему сообществу Yandex Cloud: Data Platform.
В этой статье мы расскажем: