Как в реальном времени отслеживать состояние
ИТ-окружения с 1.1+ млн объектов?

Кейс внедрения зонтичного мониторинга Monq в X5 Group

клиент

партнёр

география

67 регионов

О клиенте

Торговые сети и распределительные центры X5 Group расположены в 67 субъектах РФ на территории 7 федеральных округов

21 323 магазина

масштаб

Пятёрочка, Перекрёсток, Чижик, Красный Яр и Слата

масштаб

53

распределительных центра

сокращение средней продолжительности аварий

сокращение среднемесячного числа аварий ИТ-сервисов

повышение доступности критичных ИТ-сервисов

снижение среднегодовых
потерь валового дохода

Цели внедрения зонтичного мониторинга

Александр Лукиных,
начальник управления
централизованного мониторинга Х5 Tech

В 2021 году мы провели аудит всего контура мониторинга в компании, который показал результат, наверное, свойственный любому крупному энтерпрайзу: качество данных, процессов и автоматизации было не самым высоким. Чтобы устранить эти проблемы, мы решили внедрять ЕСЗМ – единую систему зонтичного мониторинга. С её помощью мы хотим повысить надежность функционирования компонентов и сервисов, снизить трудозатраты на мониторинг ИТ-сервисов.

"

Проблемы
  • Низкая зрелость текущей архитектуры систем мониторинга
  • Упор на реактивный мониторинг вместо проактивного
  • Нет единых процессов и техтребований мониторинга
  • Недостаточная автоматизация типовых аварий
  • Недостаточная степень покрытия критических сервисом мониторингом
Решение
  • Подключили к Monq 1.1 млн+ объектов инфраструктуры и бизнес-сервисов
  • Настроили сценарии low-code автоматизации обработки данных из мониторингов, что позволяет получить общую актуальную картину статусов всех объектов в одной ресурсно-сервисной модели для поиска причин аварий
Предварительный результат
  • Создали единую карту цифрового здоровья бизнеса, на которой в режиме реального времени отражено состояние ИТ-окружения и первоисточники проблем.
  • 1.1+ млн конфигурационных единиц создано на модели цифрового здоровья и ресурсно-сервисной модели
  • Создано 100+ сценариев автоматизации для автоматического поступления и обработки данных о конфигурационных единицах и метриках и для построения РСМ и модели здоровья
  • 14 внешних систем подключено к зонтику
  • Настроена метамодель для 10 типов КЕ

Александр Петренко,
ведущий аналитик Monq Digital Lab

Зонтичный мониторинг (или observability-система, как такой класс решений известен на Западе) – это один инструмент для всего комплекса приложений и инфраструктуры. Он показывает состояние ИТ-окружения в связке с бизнес-сервисами и обеспечивает одно окно наблюдения и быстрое выявление и устранение аварий.

"

Илья Кузьминых,
архитектор решений направления
мониторинга ЛАНИТ-Интеграция

Наша главная задача – создание полностью автоматической ресурсно-сервисной модели и модели здоровья. Они должны выстраиваться самостоятельно, без ручных вмешательств. Для этого нам нужно обрабатывать первичные датасеты с миллионами объектов и создавать из них конфигурационные единицы, обеспечив необходимую скорость обновления информации.

"

В какие сущности собираем данные?

ресурсно-сервисная модель (РСМ)

взаимосвязь бесконечного количества единиц и связей между любыми объектами ИТ-окружения, которые взаимно влияют друг на друга

модель здоровья (МЗ)

математическая модель изменения состояния объектов в зависимости от влияющих факторов

1

2

Александр Лукиных,
начальник управления
централизованного мониторинга Х5 Tech

В системе всё начинается с конфигурационной единицы (КЕ) – по сути, любого объекта ИТ-окружения. Это может быть касса, коммутатор, маршрутизатор, канал связи, ЦОД и сервис – все эти элементы связаны между собой и взаимно влияют друг на друга. Именно эту взаимосвязь мы называем ресурсно-сервисной моделью, в которой можно учитывать бесконечное количество единиц и связей. При этом сама по себе РСМ, если находится в некотором вакууме, никакого значения не имеет. Каждая конфигурационная единица может иметь свой набор метрик, порогов и сигналов, и, когда между КЕ построены связи влияния, через них состояние одних КЕ может оказывать влияние на состояние других – это и есть модель здоровья.

"

Илья Кузьминых,
архитектор решений направления
мониторинга ЛАНИТ-Интеграция

РСМ и МЗ (модель здоровья) в совокупности позволяют
в режиме реального времени визуализировать ИТ-ландшафт на всех уровнях: от работы кассовых аппаратов в магазине до системы планирования поставок и взаимодействия с контрагентами. Например, на карте РСМ возможны:
  • демонстрация состояния магазинов Х5;
  • детализация оборудования на каждом объекте – от сетевого и серверного оборудования до кассы;
  • отображение каналов связи провайдеров и общий статус по ним;
  • объединение 5000+ сервисов и систем, таких, как продажа товаров на кассе, финансовых отчетов и программ лояльности.
Наша главная задача – создание полностью автоматической ресурсно-сервисной модели и модели здоровья. Они должны выстраиваться самостоятельно, без ручных вмешательств.

"

Этапы внедрения
зонтичного мониторинга

Определили принципы и архитектуру подключения источников данных.

Спроектировали ресурсно-сервисную модель и модель здоровья на основании принципа «смотрим на состояние реальных объектов».

Подключили источники данных.

Настроили автоматическое поступление данных и автопостроение РСМ и модели здоровья.

Кратно ускорили обработку данных для высоконагруженных сценариев.

Александр Лукиных,
начальник управления
централизованного мониторинга Х5 Tech

Нельзя просто так взять и объединить в одну модель несколько десятков систем, поэтому мы используем специальную последовательность, или пирамиду – внедрения. Чем ниже слой пирамиды, тем важнее система для построения единой модели здоровья.

"

Последовательность, или пирамида внедрения

«обвес»

подключение
не критичных элементов окружения

ЦОД

подключение объектов телефонии, баз данных, интеграция с облачной платформой X5 Salt

инфраструктура

подключение магазинов, распределительных центров, офисов, торговых объектов

база взаимосвязей

построение структуры взаимосвязей между сервисами и элементами ИТ-окружения

фундамент

разработка архитектурных принципов

Олег Ширнин,
ведущий разработчик
инфраструктурных решений X5 Tech

Monq – это действительно платформа автоматизации. Она может быть настроена фактически любым образом, который требуется заказчику.

"

Особенности внедрения
зонтичного мониторинга в Х5 Group

Внедряем именно зонтичную систему мониторинга – нет попыток заменить или отказываться от систем, которые уже эксплуатируются в контуре.

РСМ формируется из объектов реального мира, влияющих на стабильность бизнеса.

Такой подход ускоряет расследование первоисточников проблем и работу над их решением.

Генерируем единую метрику работоспособности объекта в компании.

Олег Ширнин,
ведущий разработчик
инфраструктурных решений X5 Tech

Ключевая польза заключается в том, мы генерируем ценность единой метрики работоспособности конфигурационной единицы.

Проблема при классическом ИТ-мониторинге заключается в том, что каждый объект может быть подключен к нескольким системам мониторинга со своими параметрами здоровья, порогами, метриками и т.д. Поэтому с точки зрения разных систем и разных групп эксплуатации из-за различного набора метрик здоровье одной и той же конфигурационной единицы, например, той же кассы, может отличаться. Мы же формируем модель здоровья конкретной конфигурационный единицы, представляющей собой реальный объект, формируя на уровне компании метрику единого здоровья – единого понимания, работает или не работает этот объект, в каком состоянии он находится и почему.

Мы строим модель реально, отображая реальные объекты и отображая необходимый набор атрибутов. С точки зрения обеспечения процессов поддержки этот набор является минимальным необходимым атрибутивным составом, который может потребоваться инженеру для решения проблем. Например, по кассовому узлу мы собираем следующее минимальное количество атрибутов: название, где этот кассовый узел находится, модель и т.д. – всё это нужно, чтобы, например, если нужен выезд на объект, инженер, который выезжает для решения, мог сразу взять с собой необходимое оборудование.

"

Возможности визуализации
РСМ

возможность визуализации в виде графа

на нем видны, например, проблемные объекты и как они влияют на магазины

возможность визуализации в виде диаграммы влияния

на ней видны зависимости между объектами

Диаграмма влияния состава оборудования
торгового объекта на магазин «Пятерочка»

пример

Принципы формирования
Здоровья

На каждый объект настроено определенное количество метрик.

Метрики забираются исходными системами с конкретных объектов.

Метрики обрабатываются в Monq – оценивается их значение в применении к настроенным значениям.

Генерируется сигнал – событие, которое является входным элементом любого процесса по устранению сбойного события.

Сигналы
кассового узла

пример

Олег Ширнин,
ведущий разработчик
инфраструктурных решений X5 Tech

По сути, сигнал – это сущность, которая генерирует некий сценарий поддержки – мы видим, какие сигналы и когда срабатывали, когда они появились, когда их устранили. Ценность заключается в том, что сигнал не может появляться из воздуха. Важно именно то, что любой сигнал связан с какой-то конфигурационной единицей, и отчёты по сигналам в разрезе КЕ позволяют управлять процессом устранения проблем.

Так, мы можем находить наиболее проблемные конфигурационные единицы, на которых чаще других появляются сигналы, структурировать сами сигналы, структурировать объекты по различным категориям и т.д.

"

Как увидеть,
где физически есть проблемы?

В Monq создана сущность торгового объекта.

В нем отражен атрибутивный состав магазинов, принятый в компании.

Например, отражены статусы магазина – он может быть открыт-закрыт, авария может происходить в рабочие или нерабочие часы, в различных торговых сетях, регионах и т.д.

От этих параметров может зависеть сценарий устранения проблемы.

Вся нужная информация для инженера поддержки, когда горит авария, находится под рукой, – не нужно искать её в каких-то специальных справочниках

Статус работы компонентов
в разрезе времени

видно состояние некоторой кассы, которая сейчас находится в полностью работоспособном состоянии

сейчас с кассой всё хорошо, но ранее здесь были сбои – видно, когда они были, можно перейти посмотреть, какие сигналы на ней были, увидеть, когда они появились, когда они устранились

пример

настроен интересующий интервал времени

Олег Ширнин,
ведущий разработчик
инфраструктурных решений X5 Tech

Очень удобно, что в Monq есть возможность посмотреть на состояние компонентов в разрезе времени. В результате мы видим в системе реальное состояние ИТ в виде графа и в виде диаграмм состояний.

"