Имеет максимальную ценность в современном мире. Точная, полученная вовремя, без искажений, несомненно позволит принять правильное, своевременное решение. Проблема в том, что нужно уметь работать с огромными информационным потоками, исключать сомнительные данные, не реагировать или скорее не отвлекаться на то, что не имеет пользу для бизнеса или непосредственно для вас. Отсюда другая, не всегда очевидная, но очень опасная особенность информации. Избыточные, пусть и корректные данные могут притупить бдительность, лишить возможности получить информацию, которая нужна сейчас. Легко отвлечься от чего-то действительно важного и упустить момент. Искаженная же информация и вовсе токсична для бизнеса. Для каждого потока информации важен инструмент, который будет ее обрабатывать, консолидировать и предоставлять только то, что заслуживает внимания.
В ИТ, как и в финансах и производстве есть мониторинг. Невозможно качественно управлять инфраструктурой и ее элементами без целостного представления о её состоянии.
Система мониторинга ИТ инфраструктуры
Для ИТ способом доставки правильных данных является система мониторинга инфраструктуры. Правильно выбранный и приготовленный инструмент автоматизирует весь процесс и, если в списке событий “чисто”, будьте уверены, инфраструктура функционирует штатно. Чувство уверенности, когда вы не надеетесь, а точно знаете, что все в порядке - бесценно. Больше не нужно думать о состоянии серверов в оперативном режиме. Если возникнет угроза остановки бизнес-процесса, система оповестит о том, что, вероятно, станет причиной, а если риск сработает, то вы получите максимум времени, чтобы устранить проблему, так как узнаете о ней первым.
Для себя мы выбрали систему мониторинга Zabbix. Чрезвычайно мощный инструмент, но требующий тонкой настройки под задачи. Иначе завалит вас оповещениями о всех происходящих событиях на серверах и не только. А их, поверьте, происходит не один десяток в минуту.
Система настолько гибкая, что может без проблем наблюдать как за свободным местом на диске, аномальным поведением пользователя или доступности CRM портала, так и отправлять СМС в топливную компанию, когда ваша северная инфраструктура перейдет на резервные дизель-генераторы, о том что вам нужно подвезти больше топлива. Вообще, можно сделать так, чтобы кофеварка сама начала делать кофе, как только вы появились в зоне действия корпоративного Wi-Fi (конечно, если цифровизация добралась до кофеварки, которая дружит с IoT). Даже систему контроля доступа (СКУД) можно построить на ней.
Но давайте подробнее про штатное применение на примере корпоративного портала Битрикс24. Вы задумывались, сколько может быть причин остановки работы портала?
Их сотни! Вот ТОП из тех, которые случаются прямо сейчас, по всему миру:
— Истекший SSL-сертификат
— Кончилось место на диске
— Отказ в обслуживании сервера базы данных
— 500-ая ошибка из-за упавшего Apache, которому не хватило оперативной памяти
— Сбой дисков
— Возросшая IO нагрузка из-за новых пользователей
— Загрузка больших данных на Битрикс диск
Большинство этих событий можно сгруппировать и определить элементы данных, изменения которых могут привести к срабатыванию риска. Но один лишь сбор данных недостаточен для оповещении о истекающем сертификате, упавшем сайте, ошибке задания резервного копирования или о том, что коммерческий директор появился в офисе только к обеду. Для оповещении о приближающейся проблеме существуют триггеры. Триггеры имеют условия срабатывания, на основании собранных данных. Именно условия в триггерах и определяют есть ли проблема, степень ее важности, условия ее устранения, периоды проверок и прочее. Вот в этих деталях и кроется дьявол. В конфигурации по-умолчанию вы получите уведомление практически о каждом изменении состояния операционной системы или оборудования. Мне, например, не нужно знать, что количество активных процессов на гипервизоре больше 300, так как для него это абсолютно нормально, а вот для рядового сервера разработки - это повод для анализа. Или, скажем, что с того что на дисковом массиве в 6 ТБ менее 20% свободного места? А вот для SSD на 128 ГБ - это плохо, так как помимо риска полного заполнения и прекращения работы сервера, это крайне негативно сказывается на производительности и сроке жизни диска.
Из коробки система уже имеет впечатляющий набор элементов данных, триггеров, правил обнаружения, графиков. Кстати, о правилах обнаружения. Фантастическая вещь. Запустив агента на наблюдаемой машине, вам вообще ничего не нужно делать, новые данные и триггеры сами создадутся и заполнятся в системе мониторинга. Zabbix сделает всю черную работу за вас. Ну почти. Вам же останется только тонкая настройка под задачи вашей инфраструктуры и бизнеса.
С настроенным мониторингом вы не попадете в ситуацию: “Я думал, что есть бэкап! Что теперь делать?!”
Хотите понаблюдать?
Хоть на первый взгляд это не кажется очевидным, но система мониторинга очень важна, особенно там, где недопустим простой работы инфраструктуры. А правильно настроенная система мониторинга сможет обеспечить вам крепкий сон и уверенность в своих сервисах.Если у вас или ваших специалистов возникли вопросы по настройке системы - будем рады помочь!