Компания Amazon опубликовала развёрнутый отчёт о причинах масштабного сбоя в работе облака Amazon Web Services (AWS). Проблемы, затронувшие многочисленные сервисы, возникли из-за ошибки в программном обеспечении для автоматизации.

Сбой произошел в регионе us-east-1 в Северной Вирджинии. Утверждалось, что первопричиной проблем стала ошибка DNS. В общей сложности были затронуты более 110 собственных служб AWS. По данным сайта Downdetector, который отслеживает сбои в работе интернета, от пользователей по всему миру поступили более 8,1 млн сообщений о проблемах. Пострадали такие платформы, как Signal, Snapchat, Roblox, Duolingo, Apple Music, Apple TV, Lyft, Fortnite, Disney+, Venmo, Doordash, Hulu и многие другие.

Как сообщает Amazon, сбой возник из-за неполадок в работе DynamoDB, с которой связаны сотни тысяч записей DNS, необходимых для работы огромного гетерогенного парка балансировщиков нагрузки в каждом регионе. При этом применяются средства автоматизации для обновления записей DNS и устранения любых проблем.

Однако 20 октября система управления DNS для DynamoDB в ЦОД Amazon в Северной Вирджинии оказалась в состоянии гонки (race condition), в результате чего DNS-запись для региональной точки подключения к DynamoDB (dynamodb.us-east-1.amazonaws.com) оказалась пустой, хотя резервирование систем DNS как раз должно было предотвратить подобную ситуацию. Устранить неполадку самостоятельно система автоматизации не смогла, поэтому пришлось привлечь к решению проблемы специалистов. При этом DynamoDB оказалась недоступна для десятков собственных сервисов AWS и бесчисленного множества клиентских служб и приложений, которые используют её в своей работе, что привело к каскадным сбоям онлайн-сервисов.

Amazon временно отключила систему автоматизации DNS для DynamoDB по всему миру, пообещав исправить в ней баги и добавив новые проверки. Также дополнительные механизмы контроля и новые системы проверки получат балансировщики NLB и службы EC2. Впрочем, эксперты отмечают, что данный инцидент наглядно показал, насколько мир может быть зависимым от единых точек отказа. Это касается не только AWS, но и других крупных облачных провайдеров, на инфраструктуру которых полагается огромное количество интернет-сервисов.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам

Источник: