Yandex Cloud
  • Сервисы
  • Решения
  • Почему Yandex Cloud
  • Сообщество
  • Тарифы
  • Документация
  • Связаться с нами
Подключиться
Language / Region
© 2022 ООО «Яндекс.Облако»
Yandex DataSphere
  • Начало работы
  • Пошаговые инструкции
    • Все инструкции
    • Управление проектом
      • Создание проекта
      • Выбор версии Python
      • Установка зависимостей
      • Управление вычислительными ресурсами
      • Настроить ограничения вычислений для проекта
      • Настроить ограничения вычислений для каталога
      • Изменение размера хранилища проекта
      • Изменение имени или описания
      • Удаление ноутбука или проекта
    • Поделиться ноутбуком
      • Публикация ноутбука
      • Экспорт проекта
    • Работа с ноутбуком
      • Запуск примеров кода в ноутбуке
      • Версионирование. Работа с контрольными точками
      • Очистка состояния интерпретатора
      • Работа с Git
    • Управление Docker‑образами
      • Docker-образ для проекта
      • Docker-образ в ячейке
    • Подключение к источникам данных
      • Подключение к базе данных ClickHouse
      • Подключение к базе данных PostgreSQL
      • Подключение к хранилищу S3
    • Настройка интеграции с Data Proc
    • Работа с приватными данными
      • Создание секрета
      • Вызов секрета
      • Изменение секрета
      • Копирование секрета
      • Удаление секрета
    • Запуск распределенного обучения
    • Развертывание эксплуатации моделей
      • Создание ноды из ячейки с кодом на Python
      • Настройка окружения ноды
      • Запросы в ноды
  • Концепции
    • Обзор
    • Проект
    • Список предустановленного ПО
    • Доступные команды
    • Служебные команды #pragma
    • Конфигурации вычислительных ресурсов
    • Интеграция с системами контроля версий и данных
    • Сохранение состояния
    • Интеграция с Data Proc
    • Фоновые операции
    • Датасеты
    • Хранение приватных данных
    • Развертывание эксплуатации моделей
    • Использование TensorBoard в DataSphere
    • Распределенное обучение
    • Управление расходами
    • Квоты и лимиты
  • Ранний доступ
    • Обзор
    • Специальные фоновые операции
  • Практические руководства
    • Все руководства
    • Знакомство с DataSphere
    • Голосовая биометрия
    • Оценка качества STT моделей
    • Разметка аудио
    • Классификация изображений на видеокадрах
  • Справочник API
    • Аутентификация в API
    • gRPC (англ.)
      • Overview
      • AppTokenService
      • FolderBudgetService
      • NodeService
      • ProjectDataService
      • ProjectService
      • OperationService
    • REST (англ.)
      • Overview
      • AppToken
        • Overview
        • validate
      • FolderBudget
        • Overview
        • get
        • set
      • Node
        • Overview
        • execute
      • Project
        • Overview
        • create
        • delete
        • execute
        • get
        • getCellOutputs
        • getNotebookMetadata
        • getStateVariables
        • getUnitBalance
        • list
        • open
        • setUnitBalance
        • update
  • Управление доступом
  • Правила тарификации
  • Публичные материалы
  • Релизы
  • Вопросы и ответы
  1. Концепции
  2. Распределенное обучение

Распределенное обучение в DataSphere

Статья создана
Yandex.Cloud
  • Распределенная доставка данных для обучения

Примечание

Возможность распределенного обучения находится на стадии Preview. Доступ предоставляется по запросу в техническую поддержку.

Training as a Service дает возможность быстро обучить модель, используя распределенное обучение под ключ. Чтобы использовать TaaS в DataSphere, не нужны специальные навыки: платформа поможет оптимально масштабировать обучение, написанное для одного GPU, на несколько ускорителей одной или нескольких виртуальных машин.

Примечание

Распределение обучения на несколько ВМ может быть ограничено скоростью сети между отдельными ВМ.

Распределенная доставка данных для обучения

Часто при обучении модели на ВМ с GPU возникают простои графического ускорителя из-за того, что подготовка и чтение данных занимает больше времени, чем непосредственно вычисления. TaaS решает эту проблему, загружая и обрабатывая данные для обучения на отдельных, более дешевых ВМ с CPU. Процессы подготовки данных на ВМ с CPU и обучения на ВМ с GPU могут проходить как последовательно, так и параллельно: после подготовки части данных они будут доставлены на ВМ с GPU.

TaaS позволяет эффективно использовать GPU и экономить при обучении ресурсоемких моделей.

Чтобы реализовать распределенную доставку данных, загрузчик данных PyTorch должен удовлетворять условиям:

  • Должен быть создан в отдельной ячейке.
  • Должен быть зарегистрирован.
  • Должен поддерживать неограниченную итерацию по нему (быть бесконечным).

См. также

  • Запуск распределенного обучения

Была ли статья полезна?

Language / Region
© 2022 ООО «Яндекс.Облако»