Home » Microsoft заявляет, что недавнее восстановление облака из-за сбоя в работе облака было медленнее, чем ожидалось, из-за нехватки персонала

Microsoft заявляет, что недавнее восстановление облака из-за сбоя в работе облака было медленнее, чем ожидалось, из-за нехватки персонала

Технический гигант, Майкрософтподтвердил в новом аналитическом отчете, что недавний сбой в облаке в центре обработки данных в Сиднее, Австралия, стал результатом нехватки персонала, способного справиться с сбоем, а также неудачной автоматизации.

Платформа облачных вычислений Microsoft Azure, а также другие ее сервисы. Майкрософт 365 и Power Platform были затронуты более 24 часов, пользователи были отключены.

У Microsoft были проблемы с перебои в работе недавно, как и ранее этим летом, ее службы Azure, Outlook и OneDrive пострадали из-за DoS-атаки со стороны группы, связанной с Россией. Azure также оказалась в тревожной ситуации пару месяцев назад в Западной Европе, когда шторм в Нидерландах привел к повреждению оптоволоконного соединения между двумя центрами обработки данных Microsoft.

С той же проблемой, что и Microsoft в Сиднее, из-за возможного совместного использования центра обработки данных, столкнулась компания компьютерных технологий Oracle и ее дочерняя компания по облачному программному обеспечению NetSuite. Кроме того, у Банка Квинсленда и австралийской авиакомпании Jetstar возникли проблемы, поскольку клиенты не могли получить доступ к необходимым функциям.

Первоначально в центре обработки данных работало всего три сотрудника Microsoft, когда в ночь на 30 августа в Сиднее произошел сбой. Отключение облака было вызвано провалом напряжения в электросети, произошедшим из-за грозы в восточном регионе Австралии.

В ночь отключения электроэнергии Сидней стал жертвой более 20 000 ударов молний за три часа. Это также привело к тому, что около 30 000 человек в городе лишились доступа к электроэнергии.

Поскольку температура в центре обработки данных быстро растет, несмотря на усилия Microsoft по обеспечению охлаждения, технологический гигант решил отключить два зала обработки данных, чтобы предотвратить выход из строя оборудования. Охлаждающие устройства в двух дата-залах, которые должны были рассеять ситуацию, в конечном итоге вышли из строя, поскольку они отключились из-за перепада напряжения.

Холодопроизводительность состояла из пяти чиллеров и еще двух в режиме ожидания. Однако все пять чиллеров в конечном итоге не работали должным образом: только один из резервных чиллеров работал и функционировал должным образом, в то время как другой резервный вернулся в автономный режим вскоре после автоматического перезапуска.

Read more:  Чиновник заявляет, что Украина хорошо подготовлена ​​к освобождению оккупированной Россией территории > Министерство обороны США > Новости Министерства обороны

Причина, по которой пять основных охладителей не смогли запуститься, заключалась в том, что температура контура охлажденной воды превысила пороговое значение, а затем основные охладители невозможно было перезапустить вручную из-за нехватки персонала на объекте. У Microsoft не было другого выбора, кроме как отключить свои серверы, чтобы снизить тепловые нагрузки, поскольку в залах обработки данных должны работать пять чиллеров, а не только один.

В своем анализе этого вопроса Microsoft выделила некоторые причины задержки восстановления работы и восстановления после сбоя в облаке. В их число входили три дежурных сотрудника, которые не смогли достаточно быстро выполнить процесс перезапуска чиллеров, поскольку с этим было просто невозможно справиться всего трем людям.

Технический гигант добавил еще четырех сотрудников для работы в центре обработки данных, чтобы обеспечить лучшее понимание проблем, возникших в результате сбоя. Кроме того, необходимо будет найти способы устранения рисков, связанных с чиллерами, чтобы не повторилось повторение инцидента с отключением электроэнергии.

Другая причина задержки восстановления заключалась в том, что аварийные эксплуатационные процедуры, позволившие перезапустить чиллеры, не были выполнены так быстро, поскольку имелся значительный радиус взрыва. Microsoft планирует найти решения для улучшения текущей автоматизации, чтобы в случае провала напряжения возникало большее сопротивление.

Кроме того, в будущем Microsoft рассмотрит возможность определения приоритетов профилей нагрузки чиллеров. Это позволит в первую очередь выполнить процесс перезапуска чиллеров для профилей с более высокими нагрузками.

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.