Простые метрики и способ сэкономить время при поиске проблем в инфраструктуре

Не так давно в датацентре, в котором мы арендуем серверы случился очередной мини-инцидент. Никаких серьезных последствий для нашего сервиса в итоге не было, по имеющимся метрикам нам удалось понять что происходит буквально за минуту. А потом я представил, как пришлось бы ломать голову, если бы не хватало всего 2х простеньких метрики. Под катом коротенькая история в картинках.
Читать дальше →
Простые метрики и способ сэкономить время при поиске проблем в инфраструктуре
Source: habrahabr