Распределенное обучение в DataSphere
Примечание
Возможность распределенного обучения находится на стадии Preview. Доступ предоставляется по запросу в техническую поддержку.
Training as a Service дает возможность быстро обучить модель, используя распределенное обучение под ключ
. Чтобы использовать TaaS в DataSphere, не нужны специальные навыки: платформа поможет оптимально масштабировать обучение, написанное для одного GPU, на несколько ускорителей одной или нескольких виртуальных машин.
Примечание
Распределение обучения на несколько ВМ может быть ограничено скоростью сети между отдельными ВМ.
Распределенная доставка данных для обучения
Часто при обучении модели на ВМ с GPU возникают простои графического ускорителя из-за того, что подготовка и чтение данных занимает больше времени, чем непосредственно вычисления. TaaS решает эту проблему, загружая и обрабатывая данные для обучения на отдельных, более дешевых ВМ с CPU. Процессы подготовки данных на ВМ с CPU и обучения на ВМ с GPU могут проходить как последовательно, так и параллельно: после подготовки части данных они будут доставлены на ВМ с GPU.
TaaS позволяет эффективно использовать GPU и экономить при обучении ресурсоемких моделей.
Чтобы реализовать распределенную доставку данных, загрузчик данных PyTorch должен удовлетворять условиям:
- Должен быть создан в отдельной ячейке.
- Должен быть зарегистрирован.
- Должен поддерживать неограниченную итерацию по нему (быть
бесконечным
).