О чём эта история

По мере роста бизнеса «Леруа Мерлен» расширяется и IT‑инфраструктура компании. Это приводит к увеличению числа обращений сотрудников в Service Desk. Обрабатывать большой поток запросов в ручном режиме оказалось долго, дорого и в итоге нерентабельно.

В 2021 году компания решила внедрить систему предиктивной аналитики, которая делает авторазметку обращений с использованием сервиса для ML‑разработки Yandex DataSphere от Yandex Cloud. По итогам проекта расходы на классификацию обращений в ITSM‑системе снизились более чем на 50%, время классификации сократилось в 20 раз, а её точность составила 96% без использования услуг колл‑центра.

Задача и проблемы компании

«Леруа Мерлен» — компания‑ритейлер по продаже товаров для строительства, ремонта и обустройства дома, дачи и сада. В России в «Леруа Мерлен» работает более 40 тысяч сотрудников, более сотни одноимённых гипермаркетов открыто в 65 городах по всей стране.

Расширение инфраструктуры требует создания новых продуктов и сервисов для поддержания и развития бизнеса. Соответственно, выросло число обращений сотрудников в Service Desk. Их обработкой в ручном режиме занимался колл‑центр. В какой‑то момент поток запросов вырос настолько, что работа через колл‑центр стала экономически нецелесообразной. Чтобы упростить работу Service Desk, требовалась система предиктивной аналитики, которая бы классифицировала запросы. Она должна быть связующим звеном между пользователем и тикет‑системой, чтобы с помощью технологии Machine Learning обрабатывать обращения, поступившие по разным каналам: по e‑mail, в чат‑боте, на мобильный или десктопный портал. По мере увеличения данных использование локальных вычислительных мощностей компании для регулярного переобучения ML‑алгоритмов и проведения экспериментов стало не эффективно. В таких случаях выходом становится привлечение облачных ресурсов: переход в облако открывает доступ к динамически масштабируемым мощностям и в то же время позволяет экономить ресурсы.

После изучения предложений на рынке облачных провайдеров «Леруа Мерлен» выбрала Yandex Cloud.

«Леруа Мерлен» решила использовать сервис Yandex DataSphere, который предоставляет необходимые инструменты и динамически масштабируемые ресурсы для полного цикла разработки машинного обучения. В отличие от виртуальных машин с GPU сервис Yandex DataSphere не предполагает еженедельного переобучения модели. К тому же выполнение ячеек блокнота требует разных ресурсов: где‑то нужно использовать GPU, где‑то достаточно лёгких конфигураций. В случае с Yandex DataSphere переключение ресурсов происходит легко и практически без ошибок. Такой подход позволяет использовать необходимое количество ресурсов в нужное время.

Посекундная тарификация за облачные вычислительные мощности от Yandex Cloud позволяет снизить стоимость владения ресурсами: отпадает необходимость поддерживать и масштабировать устаревающую со временем собственную инфраструктуру. При этом компания быстро получает нужный объём мощностей, что ускоряет время проведения экспериментов и решения любых бизнес‑задач. Для удобства и скорости работы Yandex Cloud предоставляет онлайн‑поддержку и прямой доступ к команде дата‑инженеров и продакт‑менеджеру.

История развития предсказательной системы

В мае 2021 года выбранное для ML‑разработки решение Yandex DataSphere было интегрировано с новым порталом самообслуживания «Леруа Мерлен».

Новая система автоматической разметки обращений «Леруа Мерлен» должна была быстро классифицировать обращения пользователей, определять название информационной системы, с которой связан запрос, тему обращения (предоставление доступа к системе, ошибки в работе системы и т. д.) и задавать порог точности классификации. Если уверенность ниже порогового значения, система автоматически передаёт обращение на ручную классификацию.

При обучении первых версий предсказательной модели «Леруа Мерлен» анализировали исключительно текст обращения, который пользователи писали в свободной форме, и тему письма в случае запроса по e‑mail.

После этапа доработки первой модели с начала 2021 года у «Леруа Мерлен» появились дополнительные возможности по разметке обращений:

  1. Заполнение обязательных полей. В некоторых операциях в конкретных системах есть обязательные поля, которые нужно извлекать и подставлять соответствующие значения в нужные поля системы Service Desk.
  2. Использование административной панели для быстрого и простого изменения параметров в задачах по распознаванию. Раньше все изменения для наилучшего распределения обращений вносили разработчики компании прямо в код системы. С созданием административной панели процесс упростился и ускорился, что привело к сокращению time‑to‑market.
  3. Распознавание текста из скриншотов ошибок, которые пользователи прикладывают к обращениям (это дало прибавку в точности классификации порядка 2%).
  4. Механизмы динамической обработки данных для обучения модели: старые данные не так полезны для системы, как более свежие.
    Динамическое перераспределение классов: например, вчера классифицировали текст с обращением X как класс A, а сегодня владельцы системы присвоили ему класс Б.
  5. Дополнительная предсказательная модель определяет, может ли обращение быть решено без участия сотрудника техподдержки, если выдать пользователю инструкцию из базы знаний.
  6. Для работы с несбалансированным датасетом применяется каскад из генеративных нейросетей для генерации текста обращений и насыщения данных, что даёт увеличение точности классификации.

Изначально компания использовала GPU Tesla V100, но позже перешла на самую мощную, последнюю версию GPU — Tesla A100. Это позволило сократить время переобучения модели в 1,7 раза. За счёт использования более дорогостоящей GPU расходы компании за короткий срок уменьшились на 20%.

В сентябре 2021 года команда проекта добавила функциональность, которая после первичной классификации обращения может запрашивать у пользователя дополнительную информацию, если её не хватает для заполнения обязательных полей.

Специфика решения

Как выяснилось в ходе проекта, прошлый датасет, который размечали люди, содержал до 40% некачественных данных. В связи с этим компании пришлось отдать большую часть данных на переразметку экспертам. Также в обращениях было много операций с обязательными полями, что усложняло работу системы и повышало риск ошибок.

До тех пор пока система не научилась корректно заполнять обязательные поля, инженеры «Леруа Мерлен» не могли обрабатывать объём трафика, который выделялся на эти операции. Вопрос решился после удаления избыточных полей и перевода части их в необязательные к заполнению.

В одной из бизнес‑систем компании команда проекта нашла большое количество операций, похожих по названию. Это мешало точности классификации обращений и было устранено путём удаления лишних операций или их объединения в более крупные.

Множество интегрированных бэк‑ и фронт‑офисных систем усложняло для модели понимание текста обращения пользователя. Алгоритм не давал очевидного ответа, на что обратить внимание: на конечную систему или на данные, которые приходят из смежной системы. Здесь работа проводилась с холдерами отдельных продуктов, вместе с которыми составлялся перечень слов, указывающих, какую систему нужно проверить.

Также периодически происходит быстрое изменение фактуры данных или их аугментация, что тоже влияет на качество данных и точность классификации обращений. В таких случаях команда временно отключает систему от авторазметки, пока не накопится нужное количество новых данных, на котором можно качественно переобучить модель.

Повышение эффективности Service Desk в «Леруа Мерлен»

По результатам проекта по разработке системы предиктивной аналитики для авторазметки обращений Service Desk с применением технологии Machine Learning окупаемость инвестиций (ROI) «Леруа Мерлен» составила 126%. В 20 раз сократилось время на классификацию обращений. Точность классификации достигла 96%. За счёт применения современной и самой мощной на рынке машины — GPU Tesla A100 — компания уменьшила расходы на переобучение нейросети на 20%, а общая экономия на авторазметке обращений с переходом в Yandex Cloud составила более 50%. В планах «Леруа Мерлен» продолжать совершенствовать алгоритмы предсказательных моделей. В фокусе — повышение качества данных и переиспользование технологий Machine Learning для задач Problem&Quality Management.

Мнение

Дмитрий Терентьев,
специалист по науке о данных «Леруа Мерлен»
Дмитрий Терентьев,
специалист по науке о данных «Леруа Мерлен»

Переход в Yandex Cloud был оптимальным решением: мы получили преимущества с точки зрения как экономики, так и скорости обучения модели и качества авторазметки обращений в Service Desk. Сейчас запрос пользователя приходит в систему, которая сразу его классифицирует, не дожидаясь оператора колл‑центра. Заметные результаты первых этапов проекта вдохновляют нас на дальнейшее повышение охвата и точности алгоритмов при поддержке команды Yandex Cloud.

Партнёры, которые могут помочь