Сбой Amazon: цена чрезмерного доверия к техгигантам
В понедельник, 20 октября, миллионы интернет-пользователей получили болезненный ответ на вопрос, который мало кто задавал: что общего у Snapchat, Roblox, Fortnite, Signal, авиакомпаний United и Delta, а также множества других веб-сервисов?
Ответ: все они были затронуты каскадным сбоем в центре обработки данных в Северной Вирджинии, принадлежащем Amazon Web Services (AWS), подразделению гигантской электронной коммерческой компании.
AWS — одна из трех ведущих облачных платформ. Это означает, что она хранит данные своих клиентов на собственных серверах и управляет передачей этих данных внутри компаний-клиентов, а также между ними и конечными пользователями. Когда северновирджинский центр данных AWS вышел из строя незадолго до полуночи в воскресенье, по тихоокеанскому времени, 141 сервис AWS и зависимые от него компании оказались недоступны, что вызвало каскад сбоев, затронувших пользователей по всему миру. Также пострадали пользователи собственных устройств Amazon, таких как видеодомофоны Ring.
Amazon сообщила об устранении проблемы только в 15:53 по тихоокеанскому времени в понедельник, хотя некоторые клиенты сообщали о проблемах еще во вторник. Ущерб, нанесенный клиентам AWS и их миллионам пользователей, не поддается исчислению. Веб-пользователи не могли получить доступ к своим сервисам или учетным записям. Клиенты некоторых банков и онлайн-брокер Robinhood не могли совершать транзакции. Пассажиры Delta и United не могли отслеживать бронирования, регистрироваться онлайн или получать информацию о назначении мест; сотрудникам авиакомпаний пришлось прибегать к ручным методам, как в доинтернетную эпоху.
Владельцы матрасных чехлов Eight Sleep, стоимостью в тысячи долларов и требующих ежегодной платы в 300 или 400 долларов, используют веб-приложение для регулировки температуры и наклона. Они сообщали, что оказались в неудобных положениях и страдали от неконтролируемого жара. Главный исполнительный директор компании принес извинения онлайн и заявил, что Eight Sleep разработает функцию, позволяющую владельцам подключаться к своим кроватям через Bluetooth в случае отказа интернет-соединения.
Этот сбой, несомненно, поднимет вопросы о том, насколько тщательно Amazon и другие техгиганты контролируют свои системы, которые выполняют критически важные функции в глобальном масштабе. Как говорят юристы, "res ipsa loquitur" — "вещь говорит сама за себя". И ответ, который она дает, — "нет".
В старые времена, когда "обычная телефонная связь" (POTS) полностью контролировалась одной компанией, AT&T, стандартом было "пять девяток" надежности, что означало работу 99,999% времени, или допуск не более 5,26 минут простоя в год. Поскольку системы AWS на этой неделе были недоступны как минимум 15 часов (900 минут), этот стандарт был фактически отвергнут. Стандарт "пяти девяток" отражал убеждение, что телефонная связь слишком важна, чтобы не быть, по сути, всегда включенной. Сегодняшние поставщики высокотехнологичных услуг часто занимают позицию, что "достаточно хорошо" должно быть достаточно для всех.
Как я отмечал в прошлом году, некоторые из самых богатых компаний сегодня получают миллиарды долларов прибыли, но не тратят достаточно средств для защиты конфиденциальных персональных данных своих клиентов от хакеров. Например, AT&T, получившая доналоговую прибыль в размере 16,7 миллиардов долларов в прошлом году, была настолько небрежна в защите конфиденциальной информации своих клиентов, что данные почти всех этих клиентов — 110 миллионов пользователей — оказались в руках "финансово мотивированных" хакеров.
Amazon, пока убедительно, заявила, что ее сбой не был вызван хакерами или другими враждебными действиями. Он произошел, так сказать, "изнутри". Чтобы минимизировать технический жаргон, скажем так: что-то вышло из строя в системе доменных имен (DNS), которая позволяет системе преобразовывать веб-адрес, вводимый в ваш браузер, для связи с самим веб-сайтом. Технологическая путаница распространилась по всей структуре AWS, приведя к проблемам как на стороне веб-сайта, так и на стороне пользователя. Amazon обещает в будущем предоставить "краткий отчет о событии", в котором будет указана причина сбоя.
Amazon, безусловно, несет основную ответственность за этот провал. Некоторые наблюдатели Amazon предположили, что сбой мог быть связан с массовыми увольнениями, которые компания провела летом в своем подразделении облачных вычислений, причем якобы заменой рабочих мест стала искусственный интеллект. Компания подтвердила увольнения, но не сообщила, сколько рабочих мест было сокращено; Reuters сообщил, что речь шла о сотнях. Amazon отвергает предположения о связи сбоя с увольнениями. Представитель компании направил меня к интервью, в котором генеральный директор AWS Мэтт Гарман пренебрежительно отозвался об идее замены сотрудников начального уровня ботами с ИИ, назвав ее "одной из самых глупых вещей, которые я когда-либо слышал". Тем не менее, неясно, кто именно из подразделения облачных вычислений был уволен.
Некоторые технические эксперты годами предупреждали о том, что операторы веб-сайтов не имеют "плана Б" на случай именно таких сбоев, которые произошли на этой неделе. AWS — не единственная существующая облачная платформа. Microsoft и Google — два других члена "большой тройки".
Кроме того, пользователи AWS не обязаны полагаться на северновирджинский центр обработки данных компании. AWS имеет центры обработки данных по всей стране, и компания советовала пользователям переключиться на любой другой — но с неработающим вирджинским центром, пользователи остались ни с чем, если они не реализовали обходной путь до этого сбоя.
IT-отделам следует "проектировать с учетом сбоев (потому что они случатся)", — посоветовала на этой неделе Лидия Леон из технологической консалтинговой фирмы Gartner. "Современные облачные приложения должны распределять рабочие нагрузки по нескольким зонам доступности и быть готовыми к быстрому переходу в другой регион при необходимости", — написала Леон. Другими словами, они должны быть настроены на автоматический перенос данных из проблемных зон. "Речь идет не об устранении риска, а об уменьшении радиуса поражения и времени восстановления".
Эта проблема может быть артефактом истории интернета, как отметил Йорг Деккер из компании Arelion, занимающейся интернет-магистралями. Интернет был разработан как нейтральная система, которая доверяет всем данным, проходящим через ее соединенные сети, как, ну, заслуживающим доверия. "Это означает, что он предполагает, что все обновления действительны, сеть может объявлять что угодно, а доступные ресурсы не могут быть проверены", — отметил он. Исходные разработчики сети справились с этим несовершенством, предусмотрев, чтобы сеть обходила блокировки или другие проблемы. "Интернет обходит повреждения" — это мантрой, но это не всегда работает, особенно когда повреждение затрагивает основную функциональность. И иногда доверенные обновления не должны быть доверенными.
Таков был случай со сбоем CrowdStrike в прошлом году. Неудачно разработанное обновление программы, выпущенное компанией в области кибербезопасности и автоматически установленное на машины пользователей, мгновенно вызвало сбой миллионов компьютеров под управлением программ Microsoft, оставив их неработоспособными до ручного исправления. Ошибочное приложение CrowdStrike было внедрено настолько глубоко в операционную систему Microsoft — как и положено — что каждый раз при перезапуске машины оно сталкивалось с тем же сбоем и зависало в бесконечном цикле. Как я писал тогда: "Были отменены тысячи рейсов. Хирурги не могли проводить операции. Банковские операции были заморожены. Экстренные линии 911 молчали".
Безусловно, есть преимущества в том, что критические магистрали интернета находятся под контролем трех самых богатых технологических компаний в мире. В конце концов, у них есть финансовые ресурсы для поддержания качества и надежности. Обратная сторона заключается в том, что их системы работают абсолютно безупречно до того момента, как они перестанут работать; именно тогда глобальная зависимость от нескольких крупных операторов превращается в глобальный коллапс.
Неизбежной особенностью современной жизни является то, что все в большей степени, для любого, кто живет в современном мире, нет спасения от сбоев веб-сервисов. Дело не только в том, что наши голосовые и видеозвонки, электронная почта и видеоразвлечения поступают через веб, но и в том, что некоторые бытовые приборы требуют подключения к интернету для работы вообще.
Я не могу регулировать режим шумоподавления на своих наушниках Bose, кроме как через приложение для телефона; то же самое касается моей ультра-шикарной автоматической кофеварки и самонагревающейся кружки. На днях, когда я пытался добавить строку к своему семейному счету T-Mobile, T-Mobile настаивала на установке приложения T-Mobile на мой iPhone (не T-Mobile) для завершения сделки — и я сидел в магазине T-Mobile с представителем T-Mobile в это время.
Все больше и больше бытовой техники продается с ненужной интернет-функциональностью, отражая нирвану "интернета вещей", продвигаемую веб-промоутерами и производителями бытовой техники. Хорошим практическим правилом может быть то, что если вашему холодильнику или плите не требуется подключение к интернету для работы, не подключайте их. Таким образом, они не превратятся в бесполезный кирпич из-за человеческой ошибки где-то в Северной Вирджинии.
Веб-соединение принесло нам блага, невообразимые даже на рубеже последнего века. Но, как и во всем, с благами приходят и бремена. Несколько строк вредоносного кода могут отбросить нашу жизнь 21-го века в мир 1950-х или 60-х годов. Тогда, когда наши бытовые приборы были механическими или электрическими, а не электронными, поломку было легко диагностировать и устранить — заменить вакуумную трубку или подтянуть винт. Сегодня, если ваш телевизор гаснет, а вы не можете смотреть HBO Max, вы понятия не имеете, где кроется проблема — внутри телевизора, с вашей кабельной приставкой или у HBO Max.
Вам просто приходится ждать, пока кто-нибудь не исправит, надеясь при этом, что проблема не только у вас дома или в вашем районе, но и достаточно широко распространена, чтобы поставщики услуг заметили и прислали бригаду. Мы все живем в состоянии баланса: современные технологии велики, когда они работают. Когда нет — мы предоставлены сами себе. Где-то здесь есть урок.
Комментарии
Комментариев пока нет.