Мероприятия
Регистрация открыта

DataOps Community Meetup

2 ноября 2021 г., 18:00Москва, Экстрополис
  • Data Proc

О мероприятии

Чем дальше компании переходят от разговоров о том, что «данные — новая нефть» к реальным попыткам построить у себя data-driven процессы, тем очевиднее, что Data Science — лишь верхушка айсберга.

Появляются вопросы: как получать сырые данные, как их очищать и обрабатывать, как проверять их качество, где и как хранить, как организовать быструю и надёжную поставку данных для решения бизнес-задач.

Систематизировать ответы и извлекать из данных ценность помогает DataOps — одна из самых молодых и обсуждаемых концепций в ИТ. Как и в случае DevOps, DataOps — не только принципы организации работы с данными, но и инструменты, облегчающие задачу, и архитектурные паттерны работы с этими инструментами.

DataOps — молодое и популярное направление, внутри которого постоянно появляются новые инструменты. Догнать тренды и быть в курсе новинок поможет обмен опытом с коллегами.

Для этого предлагаем собраться вместе 2 ноября и послушать рассказы экспертов Yandex.Cloud, Glowbyte Consulting, Beeline, Lamoda и Anabar о своём опыте использования актуальных инструментов работы с данными. А после выступлений обсудить их в неформальной атмосфере.

Количество мест в зале ограничено. Будет онлайн трансляция!

Докладчики

Иван Кровяков
Yandex.Cloud
Дмитрий Морозов
Glowbyte Consulting
Михаил Епихин
Yandex.Cloud
Донат Фетисов
Билайн
Павел Тарасов
anabar.ai
Никита Василюк
Lamoda

Программа

17:00
Начало регистрации
18:00
Открытие мероприятия
Иван Кровяков
18:05
Готовим данные по-облачному: как собрать витрины в S3 на временных кластерах Data Proc

Разберёмся, почему держать постоянные кластеры для периодических расчётов не всегда оптимально, как автоматизировать задачи развёртывания и расчётов в Yandex.Cloud c помощью Airflow, и что

...читать ещё
Дмитрий Морозов
18:30
Как организовать работу с объектным хранилищем для Apache Spark

Посмотрим на плюсы и минусы использования объектного хранилища при работе со Apache Spark. Разберём виды оптимизаций: какие уже включены, а какие в планах.
Узнаем, как увеличить скорость

...читать ещё
Михаил Епихин
18:55
Airflow in production: как обустроить использование Airflow для оркестрации Spark-задач в мультитенантной среде

Airflow — один из наиболее бурно обсуждаемых инструментов экосистемы Big Data, но как он будет себя вести на действительно больших объёмах задач в продуктивной среде? Посмотрим, с чем

...читать ещё
Донат Фетисов
19:20
Trino - единый sql или как поджойнить все со всем

Покажем, как работать с ним в production и для ad-hoc, с примерами использования и лайфхаками настройки.

Павел Тарасов
19:45
Apache Hudi: Update и Delete в data lake без СМС и регистрации

Классические подходы по работе с табличными данными в озёрах данных, например, через Hive и Spark не позволяют выполнять операции Update и Delete в привычном нам виде. Поэтому обычно

...читать ещё
Никита Василюк
20:10
Общение

Как добраться

Россия, Москва, улица Льва Толстого, 16, подъезд Экстрополис

Принять участие

Для регистрации на мероприятие нужно авторизоваться на Яндексе

Авторизация