Home » Cloudflare демонстрирует автоматическую эмпатию, позволяющую избежать слишком частого ремонта ненадежного оборудования • –

Cloudflare демонстрирует автоматическую эмпатию, позволяющую избежать слишком частого ремонта ненадежного оборудования • –

Cloudflare немного рассказала о том, как она обслуживает миллионы компьютеров по всему миру, включая концепцию «бюджета ошибок», который реализует «эмпатию, встроенную в автоматизацию».

В сообщении во вторник, озаглавленном «Автономная диагностика оборудования и восстановление в больших масштабах», компания, занимающаяся укрощением Интернета, объясняет, что создала отказоустойчивую инфраструктуру, которая может продолжать работать, «практически не влияя» на свои услуги. Но, как объяснили руководитель технического отдела по инфраструктурному проектированию Джет Марсикал и системные инженеры Аакаш Шах и Илинь Сюн, когда серверы все-таки ломались, команда эксплуатации центра обработки данных полагалась на ручные процессы для выявления мертвых зон. И эти процессы могут занять «часы только для одного сервера, и [could] легко занять весь день инженера».

Что не работает в гипермасштабе.

Хуже того, мертвые серверы иногда оставались включенными, что стоило Cloudflare денег, но не приносило ничего ценного.

Встречайте Phoenix — инструмент Cloudflare, созданный для обнаружения сломанных серверов и автоматического запуска рабочих процессов для их исправления.

Phoenix совершает «обнаружительный запуск» каждые тридцать минут, в течение которого он исследует до двух центров обработки данных, в которых, как известно, хранятся сломанные коробки. Такой темп обнаружения означает, что Phoenix может найти неисправные машины в сети Cloudflare не более чем за три дня. Если он обнаруживает машины, уже внесенные в список нуждающихся в ремонте, он «заботится о том, чтобы этап восстановления был выполнен немедленно».

Обнаружив сломанную коробку, Phoenix использует интерфейс управления интеллектуальной платформой, чтобы выяснить, в чем дело. Если машина проходит этот тест, она подвергается «приемочному тесту узла», который работает следующим образом:

По результатам этого тестирования автоматически создается список дел, причем система достаточно умна, чтобы делать такие вещи, как, например, не добавлять устройство повторно в список, если часть, необходимая для возобновления работы, еще не прибыла.

Phoenix также работает с «бюджетом ошибок», который оценивает, стоит ли спасать коробку, вышедшую из строя более одного раза.

Read more:  Передача активов бизнесмена киевскому режиму — «откровенное воровство» — посольство России в России

«Бюджет ошибок — это количество ошибок, которое автоматизация может накопить за определенный период времени, прежде чем наши инженеры по надежности сайта начнут недовольны чрезмерными сбоями серверов или ненадежностью системы», — объяснили Марсикаль, Шах и Сюн. «Это эмпатия, встроенная в автоматизацию».

А это означает, что Phoenix прекращает попытки восстановить машину – без вмешательства человека – если она выходит из строя определенное количество раз в течение определенного периода времени.

«Бюджет ошибок помог нам определить и управлять нашей терпимостью к сбоям оборудования, не причиняя при этом значительного вреда системе или слишком большого шума для SRE, а также дал нам возможность улучшить нашу систему диагностики», — написали трио Cloudflare. «Это обеспечивает общий стимул, который позволяет командам по проектированию инфраструктуры и SRE сосредоточиться на поиске правильного баланса между инновациями и надежностью».

Пост завершается восхвалением силы автоматизации – позволить техническим специалистам тратить свое время на более ценную деятельность. ®

2024-03-26 07:26:00


1711444408
#Cloudflare #демонстрирует #автоматическую #эмпатию #позволяющую #избежать #слишком #частого #ремонта #ненадежного #оборудования #Register

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.