Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
Проект Яндекса
© 2023 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
  • Пошаговые инструкции
    • Все инструкции
    • Управление сообществом
      • Создать сообщество
      • Добавить пользователя в сообщество
      • Добавить канал связи
      • Привязать платежный аккаунт
      • Посмотреть детализацию расходов
      • Удалить сообщество
    • Управление проектом
      • Создать проект
      • Добавить пользователя в проект
      • Выбрать версию Python
      • Изменить размер хранилища проекта
      • Изменить настройки проекта
      • Задать ограничения для проекта
      • Удалить ноутбук или проект
    • Работа в ноутбуке
      • Выбрать вычислительные ресурсы
      • Установить пакеты
      • Очистить состояние интерпретатора
      • Примеры кода в ноутбуке
      • Работа с Git
      • Запустить Docker-контейнер в отдельной ячейке
    • Работа с ресурсами
      • Работа с секретами
      • Работа с контрольными точками
      • Работа с шаблонами Data Proc
      • Работа с Docker-образами
      • Работа с датасетами
    • Подключение к источникам данных
      • Подключение к хранилищу S3
      • Подключение к базе данных ClickHouse
      • Подключение к базе данных PostgreSQL
      • Подключение к Яндекс Диску
      • Подключение к Google Drive
    • Развертывание эксплуатации моделей
      • Создать ноду с кодом на Python
      • Изменить ноду
      • Удалить ноду
      • Настроить окружение ноды
      • Отправить запрос в ноду
      • Создать алиас
      • Изменить алиас
      • Удалить алиас
    • Совместный доступ
      • Публикация ноутбука
      • Экспорт проекта
    • Запуск распределенного обучения
    • Как перенести работу в новый интерфейс
  • Концепции
    • О сервисе DataSphere
    • Взаимосвязь ресурсов в DataSphere
    • Сообщества
    • Управление расходами
    • Проект и его окружение
      • Проект
      • Конфигурации вычислительных ресурсов
      • Состояние интерпретатора
      • Список предустановленного ПО
      • Режим раннего доступа
    • Вычисления и обучение моделей
      • Доступные команды
      • Служебные команды #pragma
      • Фоновые операции
      • EA — Специальные фоновые ячейки
      • Распределенное обучение
      • Вычисления на кластерах Apache Spark™
    • Ресурсы
      • Обзор
      • Секреты
      • Docker-образы
      • Контрольные точки
      • Датасеты
      • Шаблоны Data Proc
    • Эксплуатация моделей
    • Квоты и лимиты
  • Практические руководства
    • Все руководства
    • Интеграция с сервисом Yandex Data Proc
    • Развертывание сервиса на основе Docker-образа
    • Веб-аналитика с расчетом воронок и когорт на данных Яндекс Метрики
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • Релизы
  • Вопросы и ответы
  1. Концепции
  2. Вычисления и обучение моделей
  3. Распределенное обучение

Распределенное обучение в DataSphere

Статья создана
Yandex Cloud
  • Распределенная доставка данных для обучения

Примечание

Возможность распределенного обучения находится на стадии Preview. Доступ предоставляется по запросу в техническую поддержку.

Training as a Service дает возможность быстро обучить модель, используя распределенное обучение под ключ. Чтобы использовать TaaS в DataSphere, не нужны специальные навыки: платформа поможет оптимально масштабировать обучение, написанное для одного GPU, на несколько ускорителей одной или нескольких виртуальных машин.

Примечание

Распределение обучения на несколько ВМ может быть ограничено скоростью сети между отдельными ВМ.

Распределенная доставка данных для обучения

Часто при обучении модели на ВМ с GPU возникают простои графического ускорителя из-за того, что подготовка и чтение данных занимает больше времени, чем непосредственно вычисления. TaaS решает эту проблему, загружая и обрабатывая данные для обучения на отдельных, более дешевых ВМ с CPU. Процессы подготовки данных на ВМ с CPU и обучения на ВМ с GPU могут проходить как последовательно, так и параллельно: после подготовки части данных они будут доставлены на ВМ с GPU.

TaaS позволяет эффективно использовать GPU и экономить при обучении ресурсоемких моделей.

Чтобы реализовать распределенную доставку данных, загрузчик данных PyTorch должен удовлетворять условиям:

  • Должен быть создан в отдельной ячейке.
  • Должен быть зарегистрирован.
  • Должен поддерживать неограниченную итерацию по нему (быть бесконечным).

См. также

  • Запуск распределенного обучения

Была ли статья полезна?

Language / Region
Проект Яндекса
© 2023 ООО «Яндекс.Облако»