Гремлины разгулялись: список самых крупных аварий в дата-центрах мира

Кажется, что только дата-центр, благодаря отказоустойчивой инфраструктуре и круглосуточной техподдержке сможет обеспечить бесперебойную работу вашего оборудования. Но порой даже в работе ЦОД происходят сбои. И если одни аварии проходят для клиентов совсем незамеченными, то последствия других становятся ощутимыми для целой отрасли.

Опубликовано 07 октября 2020 в 11:07

По данным компании Gartner, приблизительная сумма ущерба, полученная в связи с отключением инфраструктуры ЦОД во время аварий, составляет порядка 5,6 тыс. дол. в минуту.

В этой статье команда дата-центра GigaCenter рассмотрела топ крупных аварий ЦОД мира за последнее время, которые привели к значительным последствиям для клиентов и огромным ущербам для самих владельцев.

Ошибка системы пожаротушения остановила фондовую биржу

В начале 2018 года в дата-центре DigiPlex, который расположен в Стокгольме, ошибочно запустилась система газового пожаротушения. Подача газа сопровождалась сильной ударной волной с мощными вибрациями, которые привели к выходу из строя всей системы хранения данных фондовой биржи Nasdaq Nordic.

Из-за аварии приостановились торги в Копенгагене, Хельсинки, Рейкьявике, Риге, Стокгольме, Таллине и Вильнюсе.

Facebook 14 часов разбирался с проблемой

В прошлом году Facebook столкнулась с наиболее серьезной аварией за все время существования компании. Из-за допущенной ошибки в вопросе маршрутизации трафика миллионы пользователей по всему миру столкнулись со сбоями в работе сервисов, а также таких приложений как Messenger, WhatsApp, Instagram и Facebook. Это был самый крупный даунтайм в истории Facebook, ведь на его устранение понадобилось более 14 часов.

KLM из-за сбоя питания отменила 70 рейсов

В начале 2018 года ЦОД авиакомпании KLM столкнулся со сбоем в системе электропитания. Главный источник энергии вышел из строя на 10 минут, а дизельгенераторная установка дата-центра не справились с нагрузкой. По словам инженеров, имеющейся мощности оказалось недостаточно для обеспечения бесперебойной работы электропитания ЦОД. По итогу аварии пассажиры во всем мире почувствовали на себе последствия, ведь было отменено практически семьдесят рейсов авиакомпании.

Проблемы с дата-центрами могут остановить работу медицинских учреждений

25 января 2018 на территории Англии произошел выход из строя одновременно двух дата-центров оператора NHS Wales, в которых хранилась информация касательно всех пациентов Уэльса. Но главная проблема крылась в том, что дата-центры были "резервной подушкой" друг для друга. То есть в случае выхода из строя одного ЦОД, медицинская система продолжала свое функционирование за счет роботы другого. Даунтайм сразу двух IT-инфраструктур отрезал доступ к медицинским данным пациентов, "парализовав" работу врачей целого города.

Страдает даже Google

От аварий такого рода не застрахованы даже ключевые гиганты рынка ЦОД. В марте 2019 года в компании Google произошел глобальный сбой, который привел к остановке работы таких сервисов как Gmail и Google Drive. Простой длился практически 4,5 часа, затронув работу платформы облачных вычислений для разработки и размещения веб-приложений в дата-центрах, которые принадлежат Google.

Специалисты компании публично не заявляли о причинах инцидента, но некоторой информацией поделилась компания MainOne (интернет-провайдер Западной Африки). Сотрудники MainOne объявили, что произошедший инцидент был связан с ошибкой в конфигурации.

Microsoft из-за урагана пережила крупнейшую аварию в истории облачных сервисов

Достаточно частой причиной аварий в дата-центрах мира становятся природные явления. Так, в сентябре 2018 года одновременно несколько ЦОД компании Microsoft, которые расположены в Техасе, оказались в самом центре сильного урагана. Функционирование электропитания дата-центров было нарушено из-за ударов молнии. Сотрудники компании были вынуждены переключить оборудование одного из дата-центров на резервные генераторы, но это создало дополнительную проблему — температура в машинном зале вышла за пределы нормы. Инженерам Microsoft пришлось и вовсе отключить машинные залы от системы электропитания, в связи с чем клиенты со всего мира испытывали перебои в работе облачного сервиса Azure на протяжении нескольких дней. Считается, что данная авария — это наиболее масштабный даунтайм за всю историю использования облачных услуг.

От урагана пострадала и Amazon

Иной случай произошел с оператором облачных услуг Amazon Web Service. 2 марта 2018 года произошел инцидент сразу с 4 дата-центрами компании. По причине мощного циклона на восточном побережье США, система подключения Direct Connect, главная задача которой состоит в соединении дата-центра с хранилищами и вычислительными мощностями провайдеров, дала сбой (причиной стали снова неполадки в системе электроснабжения). Устранение неполадок затянулось на несколько часов, а в ходе поэтапных аварийных отключений ЦОД пострадали более 15 тыс. клиентов сервиса.

Наиболее частая причина аварий — проблемы с электропитанием

Как мы видим, причины возникновения аварий и неполадок в работе дата-центров разнятся. Одни из них вызваны человеческим фактором, другие связаны с природными явлениями. Специалисты Uptime Institute провели соц опрос специалистов сферы ЦОД и по итогу установили рейтинг главных причин, которые приводят к авариям в дата-центрах:

около 39% специалистов утверждают, что главной причиной аварий являются неполадки с электрическими подсистемами (речь идет об ИБП, ДГУ, аккумуляторных батареях);
на втором месте (24%) — человеческий фактор;
15% проголосовали за сбои в системе охлаждения;
и около 12% приходится на природные явления и катаклизмы.

причины аварий в дата-центрах

Действительно, порой аварии происходят даже в таких объектах с отказоустойчивой инфраструктурой как дата-центры. От этого не застрахован никто. Но значит ли это, что хранить свое оборудование в коммерческих ЦОД небезопасно? Конечно нет. На сегодня еще не придумали более безопасного сервиса для хранения данных бизнеса, чем коммерческие дата-центры. Да, аварии случаются, но бывает это крайне редко и устраняются они достаточно оперативно.

Стоит отметить, что и со стороны клиента важно выполнять дополнительные действия для обеспечения сохранности информации бизнеса: осуществлять резервирование инфраструктуры, использовать облачные "бекапы". Помните, только грамотная и сплочённая работа со стороны клиента и подрядчика IT-услуг обезопасит вас от простоев бизнеса и возможных потерей прибыли.