Яндекс.Облако объяснило удаление данных с 0,77% виртуальных машин и падение

Яндекс объяснил происшествие на Яндекс.Облаке. Сервис Яндекс.облако был запущен в 2018 году. Это первый серьезный инцидент в его истории, но не первый в истории всей компании, напомнил Хабр.

16 мая были запланированы регулярные технические работы по остановке и удалению виртуальных машин в заблокированных облаках пользователей по причине неоплаты или нарушения правил использования сервисов Яндекс.Облака. Это стандартная процедура по высвобождению ресурсов Облака.

В 16:35 (MSK) была запущена команда по удалению виртуальных машин согласно сформированному списку. В 16:51 была обнаружена ошибка и в 16:56 выполнение команды было остановлено в срочном порядке. Выяснилось, что при формировании был применен неверный принцип фильтрации, вследствие чего в список попали активные виртуальные машины. Сейчас мы в процессе расследования ситуации и выяснения деталей.

В результате инцидента были удалены 0,77% от общего числа виртуальных машин и boot-дисков. При этом были затронуты виртуальные машины только в зоне ru-central1-c. Дополнительно созданные диски остались в сохранности. Пользователи, у кого были сделаны снимки дисков, смогли восстановить свои данные.

Мы не считаем это рядовой ситуацией, для нас каждый пользователь важен, и мы осознаем свою полную ответственность за надежность нашей платформы. Мы уже работаем над формированием мер для предотвращения повторения подобного инцидента в будущем и в ближайшее время проинформируем о дальнейших шагах всех пользователей.

Мы хотим принести извинения каждому, кого затронул технический сбой в работе Облака. На данный момент наша техническая поддержка работает в формате «горячей линии» и мы оперативно помогаем всем. В качестве компенсации всем будут начислены гранты, о размере и порядке получения которых мы сообщим дополнительно не позднее начала следующей недели.

| Подписаться на комментарии | Комментировать