Переход к онлайн-бизнесу

Группа «М.Видео-Эльдорадо» — крупнейший в России продавец бытовой и цифровой техники, аксессуаров, игр, связанных устройств и сервисов.

По итогам 2019 года, «М.Видео-Эльдорадо» стала не просто крупнейшим ритейлером в своем сегменте, но и одним из ведущих игроков на рынке E-commerce. Розничные бренды «М.Видео» и «Эльдорадо» формируют новый клиентский опыт, основанный на технологиях, удобных форматах покупок, а также едином сервисном пространстве в торговых залах и онлайн.

Сегодня компания нацелена на сохранение и укрепление позиции #1 на базе стратегии ONE RETAIL. В неё заложена полная цифровизация бизнеса и объединение всех точек контакта (магазинов, сайта, приложения) в единое пространство с простым доступом со смартфона.

Проектная «матрешка»

В 2017 году сеть «М.Видео» начала внедрять мобильное решение для продавцов в магазинах. Это стало первым шагом от классической омниканальности — единых цен, ассортимента и сервиса, к следующему этапу цифровой трансформации — ONE RETAIL. Сегодня компания рассматривает магазины как органичное продолжение сайта и приложения. Мобильные технологии позволяют лучше понимать покупателей, делать индивидуальные предложения, точнее планировать бизнес-процессы, а развитая розница даёт уникальный опыт и возможность выдать покупку уже через 15 минут после оформления заказа.

Анализ данных и построение на их основе моделей глубокого понимания клиентов, рынка и внутренних процессов потребовали развития собственной data science экспертизы. Для этого в 2018 году компания запустила дата-офис — центр компетенций в области аналитики данных. Он сосредоточился на разработке сервисов по улучшению покупательского пути и повышению эффективности бизнеса в широком спектре областей: в интернет-торговле, маркетинге, логистике, управлении финансами и кадрами.

Стремительное развитие этого направления привело в 2019 году к необходимости в кратчайшее время выстроить инфраструктуру, позволяющую параллельно вести разработку трёх и более масштабных проектов с использованием машинного обучения, которые требуют серьёзных вычислительных мощностей и оперируют большими объёмами данных.

Расчёт закупки оборудования для собственного ЦОД и оценка сроков реализации проекта дали прогноз на старт работы через год-полтора. Тогда и появилась идея протестировать процессы на облачной инфраструктуре. Эксперимент с малым бюджетом оказался успешен и был масштабирован на всю разработку за 4 месяца.

Рекомендательная система

Основные проекты, которые реализует дата-офис, связаны с работой рекомендательной системы:

  • для сайта (клиенту рекомендуют товары и акции, исходя из его предпочтений, доступности схожих по характеристикам моделей),
  • для внутренних нужд магазина (контакт-центр и мобильное приложение консультантов),
  • для логистики (оптимизация ассортиментной матрицы, которая на неделю вперёд прогнозирует какие группы товаров стоит переместить со складов в регионы),
  • для коммерции (прогноз наиболее востребованного ассортимента, цены с учётом привлекательности скидок и необходимых бизнес-результатов).

Специфика рекомендательной системы состоит в том, что она не работает в реал-тайме, а запускается периодически. С технической точки зрения важно, что пайплайн ML-вычислений имеет свою специфику. Одни шаги требуют больших мощностей, например, influence-модели. Другие — незначительных ресурсов, но при этом тоже выполняются в течение некоторого времени. Например, доставка данных из хранилища (чтение по сети) не требует мощностей ЦПУ и оперативной памяти, но может занимать до получаса. Облачная инфраструктура позволяет под каждую конкретную задачу поднимать машину нужной мощности.

Помимо рекомендательной системы в дата-офисе были разработаны три важных задачи по видеоаналитике: антифрод-система, анализ загруженности торгового зала, анализ покупательского поведения. Экспериментальные проекты предполагали построение видеосцен более чем с 15 камер видеонаблюдения близко к режиму реального времени, выстраивание образов, определение траектории взгляда. Для этого требовались исключительные вычислительные мощности и команда «М.Видео-Эльдорадо» стала одним из первых клиентов Yandex Cloud, кто начал активно использовать GPU.

Как считали потребности и результаты

Дата-офис оценивает свои ресурсы в количестве проектов, которые может пилотировать, и экспериментов, которые требуют ещё больше мощностей для обучения и тестирования моделей. После миграции в Yandex Cloud число одновременно пилотируемых проектов выросло на порядок.

Как была получена эта цифра — все определяется количеством ресурсов, которые может задействовать подразделение. Изначально в работе было два сервера по 24 ядра и 256 ГБ. К приобретению планировалось еще четыре машины. Прогноз по одновременным вычислениям строился исходя из 6 машин и 4 разработчиков. Эксперименты проводятся 10 часов (8-часовой рабочий день плюс запуск и ночная доработка). На одной машине получалось вести от двух до трех экспериментов.

С началом разработки в Yandex Cloud, количество ресурсов сходу выросло в два раза: до 6 машин по 48 ядер и 512 ГБ оперативной памяти. Помимо них под конкретные эксперименты поднимались другие виртуальные машины. Также поддерживался собственный кластер Kubernetes, от которого впоследствии отказались в связи с переходом на Yandex Managed Service for Kubernetes.

К этому нужно добавить три машины с GPU (30 ядер, 386 ГБ) и сервера под продуктивное окружение (120 ядер, 1,5 ТБ).

Оценка ресурсов в начале 2020 года показала, что вычислительные мощности выросли в 30 раз.

Использование GPU

Для решения задач по видеоаналитике в начале было задействовано 12 GPU (по четыре на каждое из трех параллельных направлений разработки). В первую неделю столкнулись с тем, что оперативно увеличить число GPU не получается, поскольку спрос на эти ресурсы Yandex Cloud оказался высоким. Вопрос был решен с привлечением службы поддержки.

Использование GPU в облаке позволило за две недели решить задачи, которые на собственной инфраструктуре разворачивались бы несколько месяцев, даже при условии согласования бюджета на 12 ускорителей NVIDIA Tesla.

Помимо видеоаналитики запущен пилотный проект, в рамках которого собираются метрики и оценивается использование GPU для онлайн-задач.

Автоматизация шагов

Инфраструктура строится в рамках подхода, согласно которому выделенных под проект машин нет. В нужный момент поднимается новая машина с заданными ресурсами. Как только шаг завершается, данные, которые должны быть переданы на следующий шаг, сохраняются в Object Storage. Машина автоматически останавливается и запускается новая под следующий шаг.

Для автоматизации разворачивания используется Kubernetes®. В одном из подразделений компании уже был самописный кластер, но его настройка и поддержка оказались достаточно трудоемкими процессами. Поэтому была принято решение перейти на Yandex Managed Service for Kubernetes.

Новости на быстром канале

Хранилище данных в собственном ЦОД занимало около 50 Тб. Объем невелик, но эти данные нужно считывать для обработки, поэтому одним из требований к инфраструктуре сразу стал быстрый канал связи с хранилищем данных. Для этого приняли решения использовать возможности сервиса Yandex Cloud Interconnect (10-гигабитный линк от ЦОД «М.Видео-Эльдорадо» до ЦОД Yandex Cloud через узел на трассе М-9). Специалисты Yandex Cloud консультировали при подключении, что значительно ускорило процесс. В случае самостоятельного подключения на это пришлось бы потратить более месяца.

Канал сдали в эксплуатацию в конце декабря. После этого проведена настройка и тестирование. Последнее оказалось нетривиальной задачей, поскольку потребовалось разгрузить канал и остановить часть проектов.

Сейчас канал используется ежеминутно. За прошедшее время было всего два сбоя: один на несколько часов, второй — на 15 минут. Сбои не привели к потере данных или другим негативным последствиям: часть цепочек была перезапущена и всё сразу заработало. В остальное время канал был стабилен. По мере увеличения количества экспериментов объем данных увеличился до 80 Тб и продолжил расти. Началось обсуждение о расширении канала до 100 гигабит.

Другие технологии

Параллельно с конца ноября 2019 года разрабатываются сопутствующие сервисы — почтовый шлюз, VPN-шлюз, GitLab. В двух небольших проектах используется Yandex Managed Service for PostgreSQL: когда не нужен прямой доступ к аналитическому хранилищу, можно заморозить данные, положить их в Yandex Cloud и работать еще быстрее, не нагружая канал.

К выходу готов

Переезд в Yandex Cloud помог решить актуальные задачи и получить следующие результаты:

  • выстроена мощная масштабируемая инфраструктура;
  • проведен быстрый канал связи;
  • снижены затраты на инфраструктуру (в сравнении с аналогичными мощностями в собственном ЦОД);
  • количество одновременно пилотируемых проектов выросло в 30 раз.

Готовность к новым экспериментам — это как раз то, что нужно «М.Видео-Эльдорадо» на этапе выхода из карантина в новую реальность розничной торговли.

Мнение

Евгений Воробей,
руководитель направления разработки
Евгений Воробей,
руководитель направления разработки

Для меня основным бенефитом стало получение инфраструктуры, которую можно масштабировать буквально в течение часа и быстро свернуть. И все это не выливается в колоссальные бюджеты, согласования покупки железа и его поддержку. Огромную экономию дает возможность не платить за большее количество запущенных машин, чем нужно в данный момент. Я также не ожидал, что линк из одного ЦОД в другой окажется настолько стабильным. Хотя, казалось бы, ничего сложного нет, но все равно приятно удивило и расширило наши возможности. Мы могли бы и дальше масштабироваться, но людей пока не хватает.