Крупный сбой AWS: Как пострадал интернет
Ранним октябрьским утром интернет словно пережил похмелье. Масштабный сбой Amazon Web Services (AWS) вывел из строя множество веб-сайтов, приложений, игр и других сервисов, зависящих от облачной инфраструктуры Amazon. Среди пострадавших оказались такие популярные платформы, как Venmo, Snapchat, Canva и Fortnite. Даже голосовой помощник Amazon Alexa работал с перебоями. Если вам казалось, что интернет сегодня настроен против вас — вы не ошибались.
Согласно странице состояния сервисов AWS, Amazon столкнулась с «увеличением частоты ошибок и задержек во многих сервисах AWS» в регионе US-EAST-1 (центры обработки данных в Северной Вирджинии) с 3:11 по восточному времени в понедельник. К 5:01 утра AWS установила причину сбоя: проблему с разрешением DNS в API DynamoDB. DynamoDB — это база данных, хранящая информацию клиентов AWS.
«Amazon хранила данные в безопасности, но никто не мог их найти в течение нескольких часов, что привело к временной потере связи приложений с их данными», — пояснил Майк Чэппл, преподаватель IT, аналитики и операций в Университете Нотр-Дам, в комментарии CNN. «Это похоже на то, как будто большая часть интернета временно потеряла память».
К 6:35 утра AWS заявила, что полностью устранила проблему с DNS, и «большинство операций сервисов AWS теперь проходят успешно». Однако вторичные эффекты продолжали вызывать проблемы с другими сервисами AWS, включая EC2 — службу виртуальных машин, на которой многие компании строят свои онлайн-приложения.
В 8:48 утра AWS сообщила о «прогрессе в решении проблемы с запуском новых экземпляров EC2 в регионе US-EAST-1». Компания рекомендовала клиентам не привязывать новые развертывания к конкретным зонам доступности (группа центров обработки данных в регионе), «чтобы EC2 имела гибкость» в выборе более подходящей зоны.
В 9:42 утра Amazon отметила на странице состояния, что, несмотря на применение «множественных мер по смягчению последствий» в нескольких зонах доступности в US-EAST-1, «продолжаются повышенные ошибки при запуске новых экземпляров EC2». В связи с этим AWS «ограничивала скорость запуска новых экземпляров для ускорения восстановления». Компания добавила в 10:14 утра, что наблюдает «значительные ошибки API и проблемы с подключением в нескольких сервисах в регионе US-EAST-1». Даже после полного устранения проблем, AWS придется обработать значительный объем накопившихся запросов и других факторов, поэтому восстановление всего функционала займет некоторое время.
Многие компании используют регион US-EAST-1 для своих развертываний AWS, что объясняет, почему в понедельник утром казалось, будто половина интернета отключена. К середине утра множество веб-сайтов и других сервисов работали медленно или выдавали сообщения об ошибках. Количество отчетов о сбоях для широкого спектра сервисов резко возросло на Down Detector. Помимо собственных сервисов Amazon, пользователи сообщали о проблемах с банками, авиакомпаниями, Disney+, Snapchat, Reddit, Lyft, Apple Music, Pinterest, Fortnite, Roblox и The New York Times — сочувствуем всем, чьи серии Wordle могли оказаться под угрозой.
Сайты, такие как Reddit, публиковали собственные обновления состояния. Хотя они прямо не упоминали AWS, возможно, пути этих сервисов пересекались где-то в сетевых магистралях.
AWS предлагает клиентам множество полезных функций, таких как возможность для веб-сайтов и приложений автоматически масштабировать вычислительные мощности и серверные ресурсы вверх и вниз в зависимости от нагрузки, чтобы справляться с колебаниями трафика. Компания также располагает центрами обработки данных по всему миру. Такая инфраструктура привлекательна для компаний, обслуживающих глобальную аудиторию и нуждающихся в круглосуточной доступности. По оценкам середины 2025 года, доля AWS на мировом рынке облачной инфраструктуры составляла 30 процентов. Однако подобные инциденты подчеркивают, что зависимость от нескольких провайдеров, составляющих основу значительной части интернета, представляет собой определенную проблему.
Комментарии
Комментариев пока нет.