Ассоциация участников отрасли ЦОД предупреждает о проблемах и сбоях при переводе на удаленную работу 30% инженеров +15





15 октября 2020 года по данным издания «Коммерсантъ», некоммерческая организация Ассоциация участников отрасли центров обработки данных (ЦОД) предупредила власти и пользователей о проблемах и сбоях в IT-инфраструктуре многих компаний из-за необходимости переводе на удаленную работу 30% столичных инженеров. В Москве расположено более 70% всех российских ЦОДов. Их своевременное обслуживание и техническое сопровождение требует присутствия дежурного персонала, сетевых специалистов и инженеров по эксплуатации, чьи смены расписаны на месяцы вперед.

В начале октября этого года Правительство Москвы выпустило указ, согласно которому с 5 октября столичные компании обязаны перевести на удаленную работу не менее 30% работников, а также всех сотрудников старше 65 лет и страдающих хроническими заболеваниями. Исключение сделано для работников медицинских организаций, предприятий оборонной, энергетической и других стратегических отраслей, включая сотрудников «Росатома» и «Роскосмоса». Специалисты ЦОД не попали в число этого персонала.

Ассоциация участников отрасли ЦОДов обратилась к мэру Москвы Сергею Собянину с просьбой включить ЦОДы в список организаций, сотрудникам которых можно работать без ограничений. Многие ЦОДы сейчас являются ключевыми инфраструктурными объектами, и к ним предъявляются требования к круглосуточной и бесперебойной работе.

Представитель компании IKS-Consulting пояснил, что если перевести всех инженеров ЦОД на удаленную работу и физически закрыть им доступ к серверным стойкам, то часть оборудования ЦОД может выйти из строя, а заменить или починить его будет некому. Тогда все остальные пользователи также не смогут работать удаленно из-за сбоев связи и отказов в ЦОД. Особенно это относится к тем ситуациям, когда в ЦОД реализуются масштабные проекты на несколько сотен стоек серверного оборудования и систем хранения данных.

Руководитель сети дата-центров Oxygen Павел Кулаков рассказал, что сейчас многие владельцы ЦОД перевели на удаленку весь свой нерабочий персонал — бухгалтеров, HR, маркетологов. Но получилось около 10%. Остальные сотрудники — инженеры и технический персонал, которые не могут работать из дома и им нужен прямой доступ к оборудованию.

Представитель сети супермаркетов уточнил, что весной этого года во время карантина спрос на доставку продуктов и товаров резко возрос. Лавинообразно увеличилась нагрузка на серверы компании. Ее специалистам пришлось резервировать в стороннем ЦОД дополнительные мощности. Теперь, если такая ситуация повторится, у многих компаний не будет возможности оперативно отработать введение резервов или подключение новых сервисов из-за отсутствия необходимого количества сотрудников ЦОД на месте.

В настоящее время московским компаниям, включая ЦОДы, которые не будут исполнять требования указа о переводе на удаленную работу не менее 30% работников, будут оштрафованы по ст. 20.6.1 КоАП (невыполнение правил поведения при чрезвычайной ситуации или угрозе ее возникновения) должностным лицам в случае нарушения грозит штраф от 10 тыс. до 50 тыс. рублей, предпринимателям — от 30 тыс. до 50 тыс. рублей, а для юридических лиц — от 100 тыс. до 300 тыс. рублей.

В случае выявления факта повторного неисполнения указа наказание для компаний будут еще ужесточены. Для должностных лиц это будет штраф до 500 тыс. руб. или дисквалификация на срок до трех лет. Предприниматели и юридические лица будут обязаны заплатить до 1 млн рублей. Причем деятельность повторно оштрафованных компаний может быть приостановлена на срок до трех месяцев.




Комментарии (26):

  1. Desavian
    /#22192280 / +5

    «Руководитель сети дата-центров Oxygen Павел Кулаков рассказал, что сейчас многие владельцы ЦОД перевели на удаленку весь свой нерабочий персонал — бухгалтеров, HR, маркетологов. Но получилось около 10%. Остальные сотрудники — инженеры и технический персонал, которые не могут работать из дома и им нужен прямой доступ к оборудованию.»

    У них все настолько плохо, что 30% технических сотрудников ЦОД не могут решить проблемы удаленно имея 60% работников на местах? Что за бред? Они там бетонные блоки разгружают что-ли?

    • Crazyvlad
      /#22192302 / -2

      Хм, не знал, что удаленно можно менять блоки питания, диски, планки памяти. А также устанавливать новые стойки, укладывать кабель…

      • userbk
        /#22192778 / +2

        а что, работа инженера цод более чем на 70% состоит в заменах комплектующих? что тогда за сервера в этом цод?

        • Megakazbek
          /#22192970 / -1

          Если даже на 1% или на 0.00001% она состоит из замены комплектующих, то это значит, что инженер не может работать удалённо, ведь нельзя оставить на площадке только 1% инженера.

        • glowingsword
          /#22193742 / +10

          Так как мне регулярно приходится взаимодействовать с инженерами нескольких разных ЦОД, могу рассказать про то, чем они заняты(с их слов, лично не проверял):


          • мониторинг(температура, напряжение, состояние PDU, сеть и возможно что-то ещё)
          • установка и демонтаж оборудования в стойки(тяжелые коробки с блейдами, к примеру, демонтируют из стойки только два инженера, если на смене остался один — это проблема)
          • установка и демонтаж комплектующих
          • протягивание патчей(на некоторых участках оптика, на других уже медь, где-то 1G линки, где-то 10, 40 и т.п.) между маршрутизаторами, коммутаторами и серверами.
          • дежурный обход
          • подключение KVM к серверам с недоступным или не настроенным IPMI/iLO и т.п.
          • поиск нужных комплектующих в ЗИП и отправка туда снятых комплектующих.

          А ещё дежурный инженер постоянно ходит со смартфоном(вдруг тикет придёт когда он уже выполняет какой-то, он его в смарте push-уведомлением получит), и чем-то вроде рации для локальной связи.


          В общем, из этих работ только мониторинг, и то частично, можно навесить на работающего удалённо сотрудника. Ни помочь демонтировать тяжёлый девайс из стойки, ни совершить обход ЦОД, ни заменить оборудование чисто физически не представляется возможным. В итоге работа инженеров ЦОД:


          1. плохо автоматизируется и оптимизируется
          2. требует личного присутствия инженера в ЦОД в гораздо более, чем в 70% случаев.

          В частности, все случаи моего взаимодействия с ребятами из ЦОД всегда требовал из личного присутствия.


          Это всё были обязанности инженера ЦОД. Есть ещё дежурные NOC-и, они отвечают за траблшуттинг с сетями, проектирование сетевой части инфраструктуры ЦОД и взаимодействие с аплинками. У них своё дежурство, свои обязанности. Есть специалисты, которых дежурный инженер вызывает при необходимости, в частности спецы по траблшуттингу проблем с питанием(энергетики) и температурой(не все инженеры хорошо разбираются в охладе, если случай не тривиальный, зовут тех, кто крут в этом деле). Насколько хорошо их работа переводится на удалёнку — не в курсе, но могу предположить, что тех же NOC перевести на удалёнку легче, чем дежурных инженеров ЦОД.


          Вы можете пытаться перевести их на удалёнку, втирать им глупости по поводу гибких методологий, и вещать про то, что их скоро заменят роботы – они только снисходительно посмеются над вами. Правда в том, что если этих ребят на смене будет меньше, и они будут дольше выполнять заявки, количество сбоев и проблем связанных с IT-инфраструктурой расположенных в ЦОД проектов будет только расти. И никакие роботы, agile и прочая дрянь не решит эту проблему. Есть случаи, когда инженер, присутствующий на объекте незаменим в принципе. И это как раз такой случай. Это как если бы хирургов отправили из операционной домой, на "удалёнку", оставив из всей команды что делает операции одного специалиста, к примеру, анестезиолога, и стали бы уверять что операции можно в клинике делать вот в таком вот, куцем, составе.

    • drWhy
      /#22192532 / +1

      60% не на удалёнке, но они же не круглосуточно на рабочих местах, а 8 из 24 часов, т.е. 20% на местах.
      Если без удалёнки было достаточно трёх человек, чтобы один был всегда на месте, то с удалёнкой третья смена — без персонала на месте. А ещё есть инженерные системы — кондиционирование, отопление, водопровод, ДГУ — их теперь будет обслуживать половина землекопа.

      • /#22192784 / +1

        А как было раньше, когда инженер третьей смены уходил в отпуск?

        • saege5b
          /#22193468

          Я не инженер обеспечения, но и у нас 24/5 с возможностью 24/6.
          Когда кто-то уходит в отпуск, или помогает человек с соседней линии (но это возможно не всегда), или смены по 12 часов (что никому не нравится и увеличивает количество ошибок).
          И тут надо отметить, что зарплату надо платить всем и в полном объёме, что добавляет головняка.

          • /#22193572

            Весело, конечно.

            Но выбывание на удаленку не выводит человека полностью из игры.

            что никому не нравится и увеличивает количество ошибок

            Ну и отдельно умиляет резервирование сотрудников под 0%, учитывая российские зарплаты относительно стоимости оборудования — одна лишняя ошибка может привести к потерям, равным годовой зарплате резервного сотрудника. Если в этих ЦОДах также, то там явно проблема не в «карантинных мерах» и «удаленке».

    • Zernycha
      /#22193138

      Ясно могут, но что теперь 20% пойдут в отпуск когда работы стало больше.

    • ComodoHacker
      /#22193188 / +1

      Я бы читал это иначе. У них все настолько хорошо, что они не держат лишний персонал, и все, кто работает в ДЦ, нужны именно там, а не дома на диване.

  2. sergey_shambir
    /#22192286 / +2

    Ходили слухи о проблемах в октябре сразу у многих облачных провайдеров — netrack, croc, selectel и других.
    Но при этом у Amazon всё стабильно в порядке, с начала пандемии.
    Всё-таки дело не только и не столько в переводе инженеров на удалёнку.


    P.S. Нагрузка на сеть везде есть, весной были проблемы с каналом из России в Европу, сейчас есть проблемы со скоростью серверов в США из арабских стран. Но справляются все по-разному.

    • 0lom5zhdovdv
      /#22193808 / +1

      Амазон сделал их essential и все инженеры как ходили так и ходят на работу.

  3. /#22192376 / +6

    По идее, у них должно быть двойное резервирование по инженерам.
    Ну и в то, что 70% инженеров занимается заменой запчастей верится с трудом. Особенно учитывая, что новые проекты в нынешних условиях находятся практически в заморозке. А значит, рабочее время инженеров наоборот высвободилось. Да и вообще, вы хоть раз заходили в какой-нибудь ЦОД, а там одновременно работает 70%+ всех инженеров? Только при пуско-наладке самого ЦОДа, наверное, такое можно наблюдать, и при глобальном сбое. Хотя, во втором случае, это будет вряд ли возможно, потому что пока подтянутся все резервные инженера, первые ликвидаторы пойдут спать.

    Скорее всего, как обычно, если директор не видит кто сегодня опоздал и кто постоянно делает перекуры, то, выходит никто и не работает, только зарплату получают.
    Ну и всякие офисные слизни, типа аджайл-коучей, подозревают, что при таком раскладе их ненужность может стать более очевидна, а потому нашептывают руководству подобные статьи для Коммерсанта.

    • Megakazbek
      /#22192980 / +2

      Грубо говоря, чтобы на площадке круглосуточно находилось 2 человека, нужно около 10 людей, работающих посменно. Кроме того, если человек не занят заменой запчастей, то это не значит, что он может сидеть дома, т.к. что делать, если всё-таки произойдёт авария, требующая замены? Вот и получается, что есть десятки людей, которых на удалёнку нельзя перевести, хотя в ЦОДе одновременно находится лишь малая часть.

      • /#22193124

        А как происходит замена запчастей?

        По мне, так 80% времени уходит на пред- и постустановочные процедуры. Просто тот, кто находится в ЦОДе перестанет их выполнять.
        Грубо говоря, заменить сгоревшую PCI карту можно менее чем за полчаса, но сколько уйдет времени на то, чтобы мигрировать сервисы и вернуть их обратно?
        Тот же сгоревший БП поменять можно за минуту. А на обновление статуса уходит до пяти (если у вас не какая-то дичайшая система мониторинга).

        Понятно, что в каких-то ЦОДах практиковалось «это оборудование числится за вашей командой, сами меняйте», но это ж не прямо такая трагедия, что приведет к «проблемам и сбоям в IT-инфраструктуре многих компаний». Ну поменяет СХДшник сетевой модуль в Циске, ну не катастрофа же.

        • Megakazbek
          /#22193208

          Я не понимаю этих рассуждений по времени. Если хоть какая-то работа должна выполняться на месте, то человека, её выполняющего нельзя оформить как удалённо работающего, даже если его присутствие требуется 1 секунду в год.

          И к слову, производители некоторого оборудования требуют, чтобы любые работы производил сертифицированный специалист, иначе вендор прекращает поддержку. Поэтому не всегда возможно, чтобы цискарь поменял модуль в СХД. Ну и естественно, есть какое-нибудь оборудование электропитания, к которому неспециалисты даже близко подходить не будут, и т.п.

          • /#22193232

            Ну ясно, если вы забыли телефон дома, то вы не сможете позвонить дяде Васе, даже если дома кто-то есть, ведь если контакт-лист не в онлайне, то, очевидно, требуется ваше физическое присутствие дома, чтобы посмотреть номер контакта.

            Ну ок, зайдем по-другому. Если я приду в каждый из этих ЦОДов и скажу, что хочу арендовать оборудование на 10 стоек, но хочу выбрать самый надежный ЦОД. И, после того как директор мне распишет как у них все супер отказо- и даже катастрофоустойчиво, я спрошу: «А как увеличатся риски, если половина команды, которая будет отвечать за мои стойки, просто уволится?».

            Как думаете, в скольких случаях я не получу ответ «никак»?

            • Firz
              /#22193386

              Ну ок, зайдем по-другому. Если я приду в каждый из этих ЦОДов и скажу, что хочу арендовать оборудование на 10 стоек, но хочу выбрать самый надежный ЦОД. И, после того как директор мне распишет как у них все супер отказо- и даже катастрофоустойчиво, я спрошу: «А как увеличатся риски, если половина команды, которая будет отвечать за мои стойки, просто уволится?».
              Как думаете, в скольких случаях я не получу ответ «никак»?

              А риски чего именно? К примеру, если риски случайного вывода из строя оборудования из-за человеческого фактора, то они даже возможно уменьшатся.

              • /#22193632

                Вы и правда думаете у меня есть шанс на такой ответ? Ок. Тогда, я смело сделаю вывод, что проблема этого ЦОДа не в переводе 30% от всех сотрудников на удаленку. А в манере директора управлять путем отказа от ответственности.

                Don't ask, don't tell
                Это же классика — если я не спросил, то сам и виноват. «Вы же не уточнили, что имеете в виду повышение рисков того, что ваше оборудование…
                — выкинут на помойку
                — украдут
                — зальют мыльным раствором (не водой заметьте, про воду вы спрашивали).»

                Ну это детский сад.

                Я не должен «угадывать» возможные риски из-за беременности бухгалтера, просто мне показалось, что отказоустойчивость ЦОДа к потере части сотрудников не была достаточно освещена в пламенной речи директора.

                • Firz
                  /#22193674

                  Ну это детский сад.

                  Вы задали довольно абстрактный вопрос о сферическом ДЦ в вакууме, как на него можно что-то ответить не имея вообще никакой информации об этом ДЦ. Может, вообще, из N человек в команде нужен только 1 чтобы обслуживать нормальную работу всего существующего оборудования этого цода вместе с этими 10 стойками, а остальные N-1 нужны для ввода в работу нового оборудования и плановой замены старого оборудования на более новое. То есть в случае ухода N/2 команды, для этих стоек в плане рисков ничего не изменится, измениться только прибыль ДЦ, потому что не меняя те же сервера на более современное железо, они могут потерять клиентов или просто будут платить больше за электроэнергию и охлаждение из-за менее эффективного железа.

                  • /#22193752

                    Для клиента ЦОД и должен быть сферическим и в вакууме (лучший пример — AWS). Но не важно.

                    Про N/2 в заявлениях ЦОДов речи не идет. N/2 для команды инженеров это весьма ощутимый удар. Речь о 30% от всех сотрудников. Если взять ваш пример,

                    остальные N-1 нужны для ввода в работу нового оборудования и плановой замены старого оборудования на более новое

                    то можно довольно смело предположить, что в этом ЦОДе в такой момент снижаются продажи, а значит этот конкретный ЦОД может отправить на удаленку больше (относительно других ЦОДов) сотрудников отдела продаж. (Вопрос, покроет ли это разницу, но с продажами же связан не только этот отдел.)

                    А если серьезно, то покажите мне хоть один ЦОД, где инженеры с допуском в серверные помещения составляют хотя бы 50% сотрудников. Не уборщицы, охранники, топ менеджмент («потому что, у топов должен быть доступ!»), а именно инженеры. Я уверен, что любой российский ЦОД может отправить на удаленку 30% сотрудников, не оправив туда ни одного инженера.

                    Но не все так просто
                    Многие ЦОДы уже давно отправили большое количество инженеров на удаленку. И если вот эти, плакальщики газеты Коммерсант, не поступят также, то их инженера просто разбегутся в нормальные ЦОДы. Но поскольку, по причинам, указанным мной в первом комменте, эти так не могут, то они пытаются продавить свою идею всем сидеть очно.

            • Roman2dot0
              /#22193614 / +1

              Риски выхода оборудования из строя не увеличатся. А вот время выполнения срочных задач, банально, что-то перезагрузить, увеличится. Так же может возрасти время устранения неполадок в самом ЦОД.

              • /#22193698 / -1

                Я получу такой ответ от директора ЦОДа?

                Что ж, ведь время выполнения перечисленных вами задач не увеличится настолько, что выйдет за рамки SLA, указанного в контракте? Значит все в порядке. Или вы пытаетесь намекнуть, что столь безрассудны, что подпишете что угодно?

      • vp7
        /#22193476

        Вопрос в том, что ЦОД — это не склад, на котором 100% грузчиков выполняют свою работу на месте, а остальные сотрудники поголовно оформлены в других юрлицах.
        В большом ЦОД'е может быть 3 инженера дежурной смены (итого 12 человек с учётом сменности и отпусков), которые заняты чисто заменой оборудования и монтажом, 3-6 сетевиков (им тоже нужно работать посменно), 3-6 людей, отвечающих за виртуализацию, 3-10 менеджеров по продажам, юристы, бухгалтерия, ещё куча сотрудников.
        И из всей этой толпы "кровь из носу" в ЦОД'е обязана присутствовать только дежурная смена. Всё остальное делается без проблем удалённо.

  4. /#22193664 / +2

    Тут сошлись два разных подхода подсчёта количества сотрудников, работающих удалённо:
    — математический, если в офисе в каждый момент времени работают не более 70% сотрудников, то всё в порядке,
    — бюрократический, если человек приехал в офис на одну минуту в месяц, то он уже не считается работающим удалённо.

    Такое мы уже наблюдали весной, когда рассчитывалась надбавка врачам за работу с covid инфицированными. Врачи считали, что если они сталкиваются по работе с инфицированными, то им положена надбавка в полном объёме, а начисляющие органы говорили так: если вы контактировали с больными 20 минут в день из восьми рабочих часов, то и денег вы получите соответственно 1/24 часть.

    У кадого своя правда.