On-premise или облако? Сравниваем инфраструктуру для ML-проектов

Рассказываем об особенностях и стоимости развёртывания ML-проектов на физической инфраструктуре, на виртуальных машинах в облаке и с использованием сервиса для ML-разработки полного цикла.

Для специалистов Data Science сейчас важны возможности удалённой и командной работы, отказоустойчивость инфраструктуры и возможности масштабирования. Но у облаков есть и специфичные для машинного обучения преимущества. Облачные платформы предоставляют широкий выбор железа, в том числе наиболее мощных конфигураций. Покупка такой физической инфраструктуры потребовала бы очень больших вложений, при этом физические серверы утилизируются не всегда оптимально, простаивая часть времени. Кроме того, оборудование нужно разместить в подготовленном месте и постоянно обслуживать, а облачная платформа берёт работу с оборудованием на себя и гарантирует высокий уровень SLA. Также облачная инфраструктура позволяет отказываться от ресурсов, когда они не нужны.

Сколько стоит облачное и on‑premise‑развёртывание?

В Yandex Cloud ML-проект можно развернуть как самостоятельно, на виртуальных машинах Compute Cloud, так и в облачном сервисе для ML-разработки полного цикла DataSphere. DataSphere предоставляет понятный веб-интерфейс, привычные IDE, технологию бессерверных вычислений и позволяет использовать различные конфигурации вычислительных ресурсов Yandex Cloud.

Мы решили сравнить стоимость размещения on-premise и двух облачных вариантов развёртывания.

Оn-premise Compute Cloud DataSphere
Покупка оборудования ≈ 8 000 000 ₽
Электроэнергия, ежемесячно ≈ 40 000 ₽
Обслуживание, ежемесячно ≈ 30 000 ₽
Администрирование, ежемесячно ≈ 200 000 ₽
Использование оборудования, ежемесячно 2 478 240 ₽
Настройка среды для ML, ежемесячно ≈ 50 000 ₽ ≈ 50 000 ₽
Вычисления по 8 часов 5 дней в неделю, ежемесячно 641 433 ₽

Для расчётов возьмём сервер с 8 высокопроизводительными видеокартами Nvidia Tesla A100 80 GB. Покупка этого оборудования для решения on-premise обойдётся компании более чем в 8 000 000 рублей, причём единовременно.

Ежемесячные траты на физическую инфраструктуру включат в себя:

  • затраты на электричество (приблизительно 40 000 рублей);

  • обслуживание (приблизительно 30 000 рублей);

  • администрирование серверов (приблизительно 200 000 рублей);

  • настройка среды для машинного обучения (приблизительно 50 000 рублей).

Итоговая стоимость одного месяца работы решения on-premise составит 320 000 рублей.

При размещении на виртуальных машинах Compute Cloud не нужно тратиться на электричество, закупку, обслуживание и администрирование серверов. Достаточно только настроить среду для машинного обучения, перенести данные и оплатить использование оборудования облачной платформы. Месяц использования конфигурации с 8 видеокартами Nvidia Tesla A100 80 GB обойдётся в 2 478 240 рублей, а итоговая стоимость размещения составит 2 528 240 рублей.

При использовании виртуальных машин удаётся избежать первоначальных трат на покупку железа и последующих расходов на его амортизацию, а также временных затрат на доставку, администрирование и обслуживание. Кроме того, закупка новых физических серверов и видеокарт, их доставка и ввод в эксплуатацию каждый раз требуют много времени, а масштабировать конфигурацию в Compute Cloud можно всего за пару кликов. Также проще решить вопрос отказоустойчивости: при облачном развёртывании можно сразу же выбрать хосты в различных зонах доступности.

При размещении ML-проекта в DataSphere не нужно настраивать среду машинного обучения, что позволяет оперативно начать работу над проектом. Выбранная нами конфигурация при расчётах 8 часов 5 дней в неделю обойдётся в 641 433 рубля в месяц. При этом не нужно администрировать серверы и платить за простой оборудования. Также клиент получает полностью готовую среду с широким набором нативных инструментов разработки и возможностями оптимального хранения и быстрого доступа к данным с помощью сервисов Yandex Cloud.

Командный подход и нативные инструменты ML‑разработки

Потребности специалистов Data Science глубже и шире, чем просто доступные и современные вычислительные мощности. Важно, чтобы среда предоставляла нативные инструменты разработки, широкие возможности работы с данными, инструменты командной работы и гибкую аналитику. Желательно, чтобы сервис имел набор инструментов для всего пайплайна разработки, от сбора и хранения данных до обучения и инференса моделей.

Преимущества облачного сервиса перед развёртыванием on-premise:

  • Отсутствие конкуренции за ресурсы. Специалистам Data Science не приходится ждать своей очереди для того, чтобы приступить к вычислениям. Облачное решение позволяет обращаться к ресурсам по необходимости и автоматически освобождать их, когда вычисления завершены.

  • Облегчение коммуникации и онбординга сотрудников. Не нужно настраивать окружение на каждой новой машине, интегрированная среда разработки и ресурсы всегда под рукой. Кроме того, DataSphere содержит такие инструменты, как проекты и сообщества, что позволяет создавать отдельные рабочие места для каждого из сотрудников и обмениваться ресурсами.

  • Усовершенствование управления разработкой. С помощью сообществ можно централизованно управлять проектами, а гибкая система ролей поможет отслеживать состояние сервиса в продакшене, оценивать расходы и управлять ими напрямую внутри DataSphere.

  • Упрощение интеграции с хранилищами и базами данных. В DataSphere нативная интеграция с сервисами Data Platform позволяет подключаться к базам данных, хранилищам Object Storage, кластерам сервиса Data Proc и управлять ими напрямую в интерфейсе.

Облачное развёртывание ML-проекта может сэкономить время разработчиков и менеджеров, оптимизировать финансовые затраты, гарантирует высокий уровень отказоустойчивости и даёт команде специалистов Data Science полезные инструменты для совместной работы над проектами.

Проекты, реализованные с помощью DataSphere

Истории о том, как компании решают бизнес-задачи с помощью DataSphere.

author
Сергей Золотов
Старший менеджер проектов платформы DataSphere.
author
Анна Бырдина
Ведущий редактор блога Yandex Cloud.

Напишите нам

Начать пользоваться Yandex Cloud

DataSphere

Узнайте больше о сервисе и попробуйте его бесплатно

Мероприятия

Календарь событий Yandex Cloud
On-premise или облако? Сравниваем инфраструктуру для ML-проектов
Войдите, чтобы сохранить пост