Запись
О мероприятии
Систематизировать и извлекать из данных ценность помогает DataOps — одна из самых молодых и обсуждаемых концепций в ИТ. Как и в случае DevOps, DataOps — не только принципы организации работы с данными, но и инструменты, облегчающие задачу, и архитектурные паттерны работы с этими инструментами.
Узнать о реальных возможностях использования новых инструментов по обработке данных помогает обмен опытом с коллегами.
Послушайте опыт экспертов из Yandex.Cloud, Glowbyte Consulting, Beeline, Lamoda и Anabar и примите решение об актуальности использования таких инструментов в ваших проектах.
Докладчики
Программа
Открытие мероприятия

Готовим данные по-облачному: как собрать витрины в S3 на временных кластерах Data Proc
Разберёмся, почему держать постоянные кластеры для периодических расчётов не всегда оптимально, как автоматизировать задачи развёртывания и расчётов в Yandex.Cloud c помощью Airflow, и что
...читать ещё
Как организовать работу с объектным хранилищем для Apache Spark
Посмотрим на плюсы и минусы использования объектного хранилища при работе со Apache Spark. Разберём виды оптимизаций: какие уже включены, а какие в планах.
Узнаем, как увеличить скорость

Airflow in production: как обустроить использование Airflow для оркестрации Spark-задач в мультитенантной среде
Airflow — один из наиболее бурно обсуждаемых инструментов экосистемы Big Data, но как он будет себя вести на действительно больших объёмах задач в продуктивной среде? Посмотрим, с чем
...читать ещё
Trino - единый sql или как поджойнить все со всем
Покажем, как работать с ним в production и для ad-hoc, с примерами использования и лайфхаками настройки.

Apache Hudi: Update и Delete в data lake без СМС и регистрации
Классические подходы по работе с табличными данными в озёрах данных, например, через Hive и Spark не позволяют выполнять операции Update и Delete в привычном нам виде. Поэтому обычно
...читать ещё