Провайдер CDN Fastly пояснил причину масштабного сбоя +13


AliExpress RU&CIS



Вечером 8 июня провайдер сети доставки контента (CDN) Fastly пояснил причину масштабного сбоя. Оказалось, что достаточно большая часть ресурсов в интернете в течение часа оказалась недоступна из-за не обнаруженной ранее ошибки в программном обеспечении сервиса.

Клиенты провайдера, которые пользуются Fastly для ускорения загрузки своих страниц, включая Reddit, Stackoverflow, Spotify, Twitch, CNN, New York Times, Amazon, GitHub, gov.uk, Hulu, HBO Max, Quora, PayPal, Vimeo, Shopify, Stripe, The Guardian BBC, Financial Times и многие другие, выдавали на своих ресурсах пользователям ошибку 503: сервис недоступен.

Старший вице-президент Fastly по проектированию и IT-инфраструктуре Ник Роквелл (Nick Rockwell) рассказал, что инцидент начался из-за бага в программном обеспечении, которое инженеры Fastly развертывали на системах сервиса еще 12 мая. Однако, проблема была тихой и незаметной о тех пор, пока один из клиентов компании не поменял настройки и спровоцировал активацию бага, которая привела к глобальному падению работы всех серверов Fastly. Примерно 85% от затронутых проблемой систем стали выдавать ошибку в ответ на запросы пользователей.

Система мониторинга Fastly заметила проблему в течение одной минуты. Инцидент начался в 12:47 мск, а в 12:48 он был зафиксирован и компания начала расследование происшествия. Около 13:27 мск специалисты Fastly обнаружили изменения в настройках, которые вызывали проблему. Они были изолированы и отключены. Спустя девять минут большая часть клиентов начали поднимать свои сервисы и восстановили свою работу. Вечером Fastly распространила обновление, чтобы изолировать баг в своем ПО.

Fastly пояснила, что на определение и изолирование причины и отключении проблемной конфигурации компании ее специалисты поттратили несколько минут, а спустя 49 минут после сбоя около 95% клиентов уже работали в обычном режиме.

Fastly проведет дополнительное расследование, почему проблема не была выявлена ранее. Роквелл пояснил, что определенные специфические условия возникли слишком поздно, они спровоцировали отключение, но инженерам компании следовало их ожидать, даже при условии, что они не были выявлены в ходе нескольких этапов проверки качества и тестирования программного обеспечения.

Проблемы у пользователей с доступом ко множеству популярных сайтов начались 8 июня днем, причем практически сразу оказалось ясно, что это произошло из-за провайдера CDN Fastly. В настоящее время сервисы провайдера работают штатно. Примечательно, что финансовые проблемы у Fastly начались еще в мае, когда ее акции упали на 26% по причине отказаза от услуг этого провайдера CDN одного из крупных клиентов — TikTok. Этот сервис не упал вчера.




Комментарии (16):

  1. halfcupgreentea
    /#23133036 / +7

    Fastly пояснил причину масштабного сбоя

    из-за не обнаруженной ранее ошибки в программном обеспечении сервиса.

    изменения в настройках, которые вызывали проблему

    пояснил?

  2. enekeysik
    /#23133040

    Посчитал на их сайте цену — получилось 1200$ за 10тб трафика по Европе. Это ошибка такая?

    • tmin10
      /#23133364

      У амазона $950 будет стоить такой исходящий трафик, одного порядка выходят цены.

    • Oll123
      /#23133388 / -1

      Скажите пожалуйста, а что не так с 1200$ за 10тб? Я не в курсе ценников cdn — это считается дорого? у конкурентов дешевле? сервисы? вас не затруднит привести сравнение по ключевым показателям таких сервисов, я так понимаю вы в курсе?

      p.s. Вам мысль о том, что кто-то может платить 1200$ за 10тб или 50к$\мес за aws прям покоя не дает… зачем вы считаете чужие деньги и меряете чужие потребности по своему разумению во второй новости подряд? Хотя… это риторический вопрос )
      p.s.s. Я исключительно положительно отношусь к упорным людям рвущимся к своим целям несмотря ни на что, но лично мне кажется, это не всегда работает. Я слышал «грабли» имеют устойчивую невзламываемую защиту от такого рода действий.

      • enekeysik
        /#23133470

        Как минимум cloudflare бесплатно столько трафика дает. Как максимум с хетзнера 360 тб раздавать можно за 30 евро.

        • vics001
          /#23134258 / +1

          cdn — стоит дороже обычного трафика, потому что cdn расчитан на быструю доставку.
          Бесплатно — это не цена, так что с этим даже нельзя сравнивать.

      • braum
        /#23133928 / +2

        10 долл. терабайту цена, примеры сервисов здесь

      • foxin
        /#23134746 / +1

        Почему сразу считать чужие деньги? Человек справедливо интересуется - что такого даёт компания при таком тарифе, когда к конкурентов - дешевле.

  3. bfuvx
    /#23133396

    Забавное в этой ситуации, что один cdn провайдер использует другого cdn провайдера для своего сайта. Так себе реклама cloudfront'у.


    dig images-na.ssl-images-amazon.com +short
    m.media-amazon.com.
    media.amazon.map.fastly.net.
    151.101.1.16

    Хотя после инцидента с fastly пока обратно вернулись на свой cdn.

    • foxin
      /#23134752 / +1

      Получается более надёжная схема, разве нет? Упал один провайдер - переключаешь на другого, и все работает

      • bfuvx
        /#23137450

        Да, но если бы дело было только в этом, то тогда бы как праймари использовался cloudfront. А так на свой cdn переключились только после того, как сторонний перестал работать.

  4. legolegs
    /#23133406

    Это нормально, что у современного CDN надёжность в плане "один пользователь что-то нажал и у остальных всё пропало" хуже, чем у шаред-хостинга за 50$/год?

    • /#23133654

      Не один пользователь что-то нажал, а в обновлении был редко возникающий баг, и он вылез.

      • legolegs
        /#23133838 / +1

        Однако, проблема была тихой и незаметной о тех пор, пока один из клиентов компании не поменял настройки и спровоцировал активацию бага, которая привела к глобальному падению работы все серверов Fastly

        Тут написано, что пользователь нажал.

        • /#23134118 / +1

          Причина - баг, нажатие пользователя просто запустило его. Образно говоря, была ошибка в редко используемой функции, которая загрузила например ввод/вывод (что на дедике приведёт к тому же результату, например если на все машины натянут Seph). В любом случае, для тех, кто пользуется подобными сервисами - это приемлемо, сложный наколненочный велосипед будет ну вот вообще не стабильнее, зато с иллюзией контроля.

    • foxin
      /#23134762 / +1

      Если считать, что cdn это просто хороший nginx- то ненормально. А если считать что это ещё и админка, и с отдельным локальным кэш сервером на X миллионов пользователей, с гарантией доставки контента не больше Y миллисекунд, и кучей других вещей, которые гарантируют что без кэша сайт загрузится за 200мс - то вроде бы и нормально