7 крупнейших сбоев в 2023 году
Согласно ежегодному обзору ThousandEyes, семь значительных отключений в прошлом году позволяют понять, как всё, от небольших изменений в сети до источников питания, может вызвать глобальные сбои.
По данным ThousandEyes, наиболее заметные сбои в 2023 году привели к ухудшению качества обслуживания и сбоям в работе сети у ведущих поставщиков технологий, таких как Microsoft и AWS, доказав, что даже самые сложные среды не застрахованы от простоев.
Согласно анализу ThousandEyes, принадлежащей Cisco - компании по сетевому анализу, которая отслеживает интернет- и облачный трафик, в 2023 году семь серьезных сбоев вызвали хаос в сетях, отразившись на конечных пользователях и клиентах из-за низкой производительности и замедления трафика. Компания, специализирующаяся на цифровом опыте, отметила, что небольшие изменения в этом году могут привести к большим сбоям в работе глобальных сетей, заставляя компании изо всех сил пытаться восстановить полноценный сервис.
«В 2023 году произошло множество сбоев в работе SaaS-приложений, интернет-провайдеров и других вспомогательных инфраструктур. Эти сбои дают важные уроки, которые могут помочь минимизировать влияние будущих сбоев, а также активно оптимизировать свои сервисы и приложения для более предсказуемой производительности», — заявляет ThousandEyes в блоге , поделившись подробностями о сбоях в 2023 году. Хотя наиболее распространенные сбои произошли с интернет-провайдерами, ThousandEyes отметила, что сбои у поставщиков облачных услуг (CSP) были вторым наиболее распространенным типом сбоев в 2023 году, каждый год доказывая, что предприятия все больше полагаются на облачную инфраструктуру.
Вот семь крупнейших отключений электроэнергии за год, в хронологическом порядке.
Сбои в работе сервисов Microsoft: 25 января
25 января 2023 года пользователи Microsoft столкнулись с глобальными проблемами подключения к службам Microsoft, включая Azure, Teams, Outlook и SharePoint, в течение примерно 90 минут. Высокий уровень потери пакетов в сети привел к тому, что Microsoft и другие службы стали недоступными из-за проблем с подключением у пользователей, испытывающих тайм-ауты HTTP и DNS. Согласно анализу сбоев ThousandEyes, значительное количество изменений маршрутов протокола пограничного шлюза (BGP) немедленно привело к потере пакетов. BGP сообщает, по какому маршруту будет идти сетевой трафик, и если информация неточна, трафик может пойти по неправильному маршруту. Попытки изменить маршруты, чтобы найти наилучший путь для трафика, повторялись несколько раз, «что приводило к значительному оттоку трафика (нестабильности таблицы маршрутов)». В этом случае может быть задействован автоматизированный процесс «из-за быстрого характера изменений».
«Быстрые изменения маршрутов трафика в сочетании с масштабным перемещением трафика через сети транзитных провайдеров могут привести к такому уровню потерь, который наблюдался во время этого инцидента», - говорится в отчете ThousandEyes. Несмотря на то, что перебои были значительными с точки зрения глобального воздействия и пострадавших пользователей, ThousandEyes поблагодарила Microsoft за быстрые усилия по устранению последствий. «Было очевидно, что Microsoft действительно быстро начала применять методы устранения последствий, сигнализируя о том, что у нее есть достаточная видимость проблемы, а также планы по откату и устранению последствий. Длительность этого сбоя, скорее всего, является результатом того, что операционная команда убедилась в том, что делает все правильно, учитывая масштабы сбоя, с которым она столкнулась».
Глобальный сбой Microsoft Outlook: 7 февраля
Вскоре после январского инцидента, 7 февраля 2023 года пользователи Microsoft Outlook снова столкнулись с перебоями в работе. Клиенты Microsoft по всей Северной Америке, Европе и Азии испытывали проблемы с доступом к Outlook в течение нескольких часов, причем наибольший ущерб был нанесен в США.
Хотя перебои носили глобальный характер, в отличие от предыдущего инцидента, ThousandEyes определила, что сеть не может быть первопричиной проблемы, поскольку во время инцидента не наблюдалось значительной потери пакетов, задержки или необычного поведения маршрутизации, сообщает ThousandEyes. «Во время перебоя в точках обзора ThousandEyes наблюдались симптомы, указывающие на проблемы, связанные с приложениями, включая повышенное время отклика сервиса и увеличенное время загрузки страниц», - говорится в сообщении ThousandEyes.
Два сбоя повлияли на обслуживание Virgin Media UK: 4 апреля
Маршрутизация BGP оказалася основной причиной двух сбоев, которые повлияли на работу Virgin Media UK 4 апреля 2023 года. Перебои повлияли на доступность сети Virgin Media UK и ее услуг в глобальном интернете. Оба инцидента произошли в один и тот же день, длились большую часть дня и каждый раз по несколько часов. По мнению ThousandEyes, "отсутствие жизнеспособных BGP-маршрутов стало причиной большинства наблюдаемых потерь трафика".
ThousandEyes определила, что оба сбоя имели схожие характеристики, которые включали в себя отказ от маршрутов в сети, потерю трафика и периодические периоды восстановления сервиса. «Учитывая, что первый инцидент начался в период времени, характерный для работ по техническому обслуживанию (половина второго ночи по местному времени), он мог быть результатом изменения состояния сети поставщиком услуг», - заявили в ThousandEyes. «Повторение практически идентичного инцидента позднее в течение дня может указывать на то, что механизм, вызвавший первый инцидент, был либо не до конца понят, либо не до конца устранен».
Трёхчасовой сбой AWS: 13 июня
13 июня 2023 года в Amazon Web Services (AWS) произошел более чем двухчасовой инцидент, повлиявший на работу ряда сервисов на восточном побережье США. Перебои начались вечером и были устранены через несколько часов, но компания ThousandEyes не заметила никаких существенных проблем, таких как высокая задержка или потеря пакетов на сетевых маршрутах к серверам AWS. Однако провайдер сетевых услуг заметил увеличение задержек, таймаутов серверов и ошибок HTTP-серверов, влияющих на доступность приложений, размещенных в AWS.
«Судя по всему, инцидент проявился в увеличении времени отклика, таймаутах и серверных ошибках HTTP 5XX у пользователей, пытавшихся получить доступ к затронутым приложениям», - заявили в ThousandEyes. Вскоре после начала инцидента AWS определила источник проблемы как подсистему управления мощностями, которая влияла на доступность многих ее сервисов, включая Lambda, AWS Management Console и другие. По данным ThousandEyes, AWS подтвердила, что эти затронутые сервисы испытывали "повышенную частоту ошибок и задержек", что вызывало проблемы с доступностью сервисов для приложений, использующих эти сервисы AWS, "независимо от того, где они были размещены или где они обслуживали пользователей".
«Этот инцидент иллюстрирует сложную сеть взаимозависимостей, на которые сегодня опираются приложения и сервисы. Многие из этих зависимостей могут быть косвенными или «скрытыми» от организаций, поскольку они могут быть зависимы от сервисов, которые они непосредственно потребляют», - говорится в анализе инцидента, проведенном ThousandEyes.
Проблемы с использованием Slack: 2 авг.
Для Slack значительный инцидент привел к проблемам с производительностью, но не к полному отключению. Тем не менее перебои затруднили выполнение пользователями Slack необходимых задач. 2 августа 2023 года в течение примерно 2 часов пользователи Slack испытывали проблемы с загрузкой файлов, изображения выглядели размытыми, и эта же проблема привела к тому, что некоторые пользователи наблюдали задержки в других функциях сервиса, такие как длительное время загрузки страниц, невозможность войти в систему и общая нестабильность. Этот сбой, по мнению ThousandEyes, является примером того, как сервис может быть доступен, но не всегда пригоден для использования.
Первоначальные наблюдения ThousandEyes выявили увеличение числа ошибок HTTP 500 (server unavailable) и более высокое, чем обычно, время загрузки страниц для глобальных пользователей, пытающихся связаться со Slack, но при дальнейшем исследовании выяснилось, что веб-клиент Slack загружал всего 15 объектов, тогда как обычно он загружает около 28 для функционирования. «Учитывая это, уже на ранних этапах появились признаки того, что проблемы Slack, скорее всего, связаны с проблемами в бэкенде приложения», - сообщает ThousandEyes.
ThousandEyes обратила внимание на два интересных момента, связанных со сбоем в работе сервиса Slack: первый заключается в том, что он произошел в конце часа, что обычно указывает на запланированную работу; второй - в собственном отчете Slack после инцидента, в котором подробно говорится, что первопричиной стали работы над одной частью сервиса, «обычная миграция кластера базы данных», которая случайно сократила емкость базы данных.
«Запланированная работа в сочетании с обычными операционными потребностями пользователей привела к тому, что запросы к базе данных постепенно стали расти и достигли такой степени, что переполнили очередь», - заявили в ThousandEyes. Поступающие запросы непреднамеренно снижали мощность кластера баз данных, что приводило к ошибкам в некоторых действиях в Slack.
Сбой в работе Square препятствует обработке транзакций: 8 сентября
Поставщик терминалов и услуг для бесконтактных платежей Square 8 сентября 2023 года пережил более чем 18-часовой сбой, в результате которого клиенты не могли обрабатывать транзакции. Сбои в работе нескольких сервисов Square были вызваны проблемами с внутренней связью. Предполагается, что последствия сбоя могли быть более значительными, поскольку указанные сроки «не учитывают влияние на перевод средств и обработку других платежей», сообщает ThousandEyes.
Пользователи Square сообщали о таких проблемах, как платежи вроде бы завершаются, но затем не отображаются в бизнес-аккаунтах, а также об обрыве связи с терминалами. ThousandEyes сообщила, что наблюдала «периодические обрывы связи и ошибки 503 (сервис недоступен). Судя по характеру ошибки, первопричиной могла быть внутренняя маршрутизация или аналогичная внутренняя система». В своем отчете после инцидента Square подтвердила, что причиной проблемы была внутренняя система, в частности DNS.
«При внесении нескольких стандартных изменений в программное обеспечение нашей внутренней сети, комбинация обновлений не позволила нашим системам правильно взаимодействовать друг с другом, что в конечном итоге и привело к сбою», - говорится в сообщении Square.
Потеря электроэнергии привела к сбоям в работе Workday и Cloudflare: 2 ноября
2 ноября 2023 года у компаний Workday и Cloudflare произошли сбои в работе сервисов, которые, по мнению ThousandEyes, были связаны между собой. По словам ThousandEyes, общей связью между перебоями «похоже, является частичное отключение электропитания в дата-центре Flexential в Портленде, штат Орегон». Cloudflare указала на эту причину сбоев в своем отчете после вскрытия, а Workday также указала на центр обработки данных в Портленде как на источник проблемы.
Сочетание вскрытий, OSINT (инструментыпоиска по открытым источникам) и наблюдений ThousandEyes указывает на то, что эти два инцидента связаны между собой. В то время как Cloudflare опубликовала подробный отчет о вскрытии, Workday предоставила меньше деталей, но заявила: «Из-за проблем с резервным питанием, а также нестабильной обстановки, вызвавшей дополнительные трудности, восстановление сервиса заняло больше времени, чем обычно».
ThousandEyes заметила ошибку [page content did not match], которая возникает при нарушении взаимодействия между клиентом и сервером, а также немедленное перенаправление при запросе на вход в систему на статическую страницу обслуживания. «Еще один элемент, который следует отметить: тесты ThousandEyes показали, что статический контент обслуживается из AWS; до сбоя контент Workday обслуживался через Cloudflare", - говорится в сообщении ThousandEyes.