Сбои в сети могут привести к простоям или снижению производительности. Вот почему очень важно автоматически обнаруживать их и, если возможно, исправлять или уведомлять администратора по электронной почте, SMS или push-сообщением в приложении. Система управления может обнаруживать сбои посредством событий, которые она получает от устройств (например, прерывания SNMP). Еще одна возможность обнаружения или прогнозирования неисправностей — анализ данных телеметрии. Это также называется анализом тенденций.
1) Сократите время простоя за счет мониторинга инфраструктуры
Основополагающим способом минимизировать время простоя и снизить риск инцидентов безопасности является правильное управление конфигурацией. Сюда входит резервное копирование конфигураций и отслеживание изменений. В идеале оно также предоставляет функциональные возможности подготовки, связанные с процессом утверждения или проверки.
Чтобы производительность соответствовала целевому уровню, ее необходимо контролировать. Обычно сетевые устройства можно периодически опрашивать для получения метрик и статистики. Современные сетевые устройства также могут передавать данные телеметрии (например, с помощью gRPC), что более эффективно и позволяет системе управления получать данные без привязки к обычным 5-минутным интервалам. На основе этих данных могут быть приняты информированные решения, например, о добавлении к каналу большей пропускной способности.
2) Некоторые инструменты для управления и мониторинга вашей инфраструктуры
Эти функции могут быть реализованы с помощью различных инструментов. К ним относятся, среди прочего, Cacti (сбор данных о производительности через SNMP), Icinga (мониторинг доступности), Influx (база данных временных рядов) и NetShot (резервное копирование конфигурации). Другой вариант — StableNet от Infosim, который может охватить все эти темы в одном инструменте.