Мероприятия
Запись

Единый источник данных в data-driven компаниях

13 апреля 2021 г. в 19:00Online
  • Managed Service for ClickHouse®

Запись

О мероприятии

На митапе поговорим о методах и инструментах скоринга входных данных, их агрегации и создании единой системы в офлайн- и онлайн-ритейле, банкинге и облачных сервисах. На примерах покажем, как с помощью данных оптимизируются устоявшиеся бизнес-процессы в компаниях.

Поделимся опытом того, как:

  • Yandex.Cloud производит поддержку хранения и обработки данных в СУБД ClickHouse в S3;
  • Авито упростил и консолидировал работу дата-специалистов с витринами данных;
  • Райффайзенбанк решил задачу расположения банкоматов с помощью JupyterHub и создал модель оптимизации ценообразования в тендерах при помощи Jupyter на Mac;
  • Леруа Мерлен обучил модель контролировать качество товара от поставщиков на складах на основе lightGBM.

Докладчики

Дмитрий Ибрагимов
Дмитрий Ибрагимов
Леруа Мерлен
Всеволод Грабельников
Всеволод Грабельников
Yandex Cloud
Илья  Салманов
Илья Салманов
Авито
Михаил Сеткин
Михаил Сеткин
Райффайзенбанк
Ксения Блажевич
Ксения Блажевич
Леруа Мерлен

Программа

19:00

Начало регистрации

19:00

Создание Data Platform в Леруа Мерлен

Расскажу об архитектуре Data Platform Леруа Мерлен, а также сделаю обзор новинок и инструментов для работы с данными и их обработки, покажу, как мы пользуемся ими. Детально обсудим: способы и инструменты интеграции нереляционных источников данных (Kafka/Nifi/Object Storage/Spark); потоковую обработку CDC на платформе Apache Flink; снижение порога вхождения для работы с данными с помощью Apache Superset.

Дмитрий Ибрагимов
19:20

Данные в S3: поддержка S3 storage в ClickHouse, а также как выполнить select-запрос к файлу, не имея никакой СУБД

Расскажу о поддержке хранения и обработки данных в СУБД ClickHouse в S3. Впервые представлю новый функционал по поддержке select-запросов для parquet/csv файлов в S3 (Yandex Object Storage). Объясню, чем одно отличается от другого.

Всеволод Грабельников
19:40

Витрины данных в Авито и их применение в бизнес-задачах

Расскажу о витринах данных в Авито и о том, как упростить жизнь аналитиков и дата-инженеров. Детально обсудим, какие бывают витрины; как создать/поправить витрину (отличия от вью, код витрины, проверки витрин); как произвести пересчет витрины за нужную дату, мониторинг, качество данных (чекеры), выгрузки; как произвести регламентный расчет (дерево зависимостей, парсинг кода, потоки, SLA витрины); как пересчитать части дерева, удалить, архивировать; как решить задачи распределения времени 14 дата-инженеров на потребности более 100 аналитиков и сайентистов, задачи постановки витрины на регламент за 1 день, задачи корректировки день в день.

Илья Салманов
20:00

От анализа данных до внедрения в прод: как инфраструктура помогает обучать и внедрять ML-модели

Расскажу о платформе данных Райффайзенбанка Data Lake. Обсудим, как с ее помощью произвести моделирование тендеров для закупок — моделирование разных параметров и подходов к ценообразованию у заказчика для нахождения оптимального предложения. Как обработать гипотезу по оптимизации расстановки мест для банкоматов с помощью JupyterHub на основе данных транзакционной активности клиентов, исторических данных с банкоматов, а также данных Open Street Map. Как создать чатбот, научиться распознавать паспорта, 2-НДФЛ и отчеты об оценке залогов для ускоренного ввода данных в систему с помощью виртуальной машины в виртуальном частном облаке VMWare, по cenb такой IAAS, есть шаблоны с CPU/GPU.

А также про два паттерна вывода в prod: модель как бэк в веб-сервисе (автоматическая классификация текста жалоб клиентов); модель как UDF-функция в режиме пакетной обработки на Spark (предсказание спроса на наличные в банкоматах).

Михаил Сеткин
20:20

Cветофор 2.0: страх и ненависть на пути от экселя к градиентному бустингу

Расскажу о «Светофоре» — сервисе по точечному выявлению проблемных поставок от поставщиков, работающему для оптимизации приемки в магазинах и распределительных центрах Леруа Мерлен Россия.
Поделюсь, с какими трудностями столкнулась наша команда во время разработки. Расскажу про ключевые факторы для успешного внедрения ML-продукта в компании с большим количеством офлайн-процессов и о том, как применить модель lightGBM (сервинг Kubernetes), переобучить на Airflow, DVC, custom model registry.

Ксения Блажевич

Как добраться

Online