Информация об инциденте в Яндекс.Облаке 16 мая 2019 года

Ян Лещинский

    Хотим поделиться подробной информацией с нашими пользователями, которые столкнулись с потерей доступа к своим виртуальным машинам и данным.

    16 мая были запланированы регулярные технические работы по остановке и удалению виртуальных машин в облаках пользователей, заблокированных из-за неоплаты или нарушения правил использования сервисов Яндекс.Облака. Это стандартная процедура по высвобождению ресурсов Облака.

    В 16:35 (MSK) была запущена команда по удалению виртуальных машин согласно сформированному списку. В 16:51 была обнаружена ошибка, и в 16:56 выполнение команды было остановлено в срочном порядке. Выяснилось, что при формировании списка был применен неверный принцип фильтрации, и в список попали активные виртуальные машины. Сейчас мы в процессе расследования ситуации и выяснения деталей.

    В результате инцидента были удалены 0,77% от общего числа виртуальных машин и boot-дисков. При этом были затронуты виртуальные машины только в зоне ru-central1-c. Дополнительно созданные диски остались в сохранности. Пользователи, у которых были сделаны снимки дисков, смогли восстановить свои данные.

    Мы не считаем это рядовой ситуацией. Для нас важен каждый пользователь, и мы осознаем свою полную ответственность за надежность нашей платформы.

    Для предотвращения подобных инцидентов в будущем мы примем следующие меры:

    1. В рамках процедуры блокировок облаков мы строго разделим остановку и удаление виртуальной машины и её дисков — промежуток между этими операциями будет составлять минимум 7 дней.
    2. При удалении диска виртуальной машины будет автоматически создаваться его копия, которая позволит восстановить данные. Подробную информацию о дизайне решения мы сообщим позднее.

    Помимо действий с нашей стороны, мы рекомендуем всем нашим пользователям:

    1. Не забывать делать снимки дисков или резервные копии своих данных.
    2. Разделять загрузочные диски и дополнительные диски, предназначенные для хранения данных.
    3. Резервировать критичные для вас сервисы в нескольких зонах доступности.

    Мы хотим принести извинения каждому, кого затронул технический сбой в работе Облака. На данный момент наша техническая поддержка работает в формате горячей линии, и мы оперативно помогаем каждому пользователю. В качестве компенсации всем, кого затронул инцидент, будут начислены гранты. Размер гранта будет определен индивидуально для каждого пользователя. Гранты станут доступны в личном кабинете в консоли Облака в течение трёх рабочих дней. Кроме того, для пострадавших пользователей снимки дисков не будут тарифицироваться в течение 90 дней (нулевая тарификация вступит в силу также в течение трёх рабочих дней).

    Ян Лещинский,
    руководитель платформы Яндекс.Облако