Введение в метрики, мониторинг и оповещение

Вступление

Понимание состояния вашей инфраструктуры и систем имеет важное значение для обеспечения надежности и стабильности ваших услуг. Информация о работоспособности и производительности ваших развертываний не только помогает вашей команде реагировать на проблемы, но и дает им возможность уверенно вносить изменения. Один из лучших способов получить это представление - надежная система мониторинга, которая собирает метрики, визуализирует данные и предупреждает операторов, когда что-то кажется неисправным.

В этом руководстве мы обсудим, что такое метрики, мониторинг и оповещения. Мы поговорим о том, почему они важны, какие возможности они предоставляют и какой тип данных вы можете отслеживать. По пути мы будем вводить некоторые ключевые термины и закончим кратким глоссарием некоторых других терминов, с которыми вы можете столкнуться при изучении этого пространства.

Что такое метрики, мониторинг и оповещение?

Метрики, мониторинг и оповещение - все это взаимосвязанные концепции, которые вместе составляют основу системы мониторинга. У них есть возможность обеспечить представление о состоянии ваших систем, помочь вам понять тенденции использования или поведения, а также понять влияние изменений, которые вы вносите. Если показатели выходят за пределы ожидаемых диапазонов, эти системы могут отправлять уведомления, чтобы побудить оператора взглянуть, а затем могут помочь в поиске информации, чтобы помочь определить возможные причины.

В этом разделе мы рассмотрим эти отдельные концепции и их соответствие друг другу.

Что такое метрики и почему мы их собираем?

Метрики представляют собой необработанные измерения использования ресурсов или поведения, которые можно наблюдать и собирать во всех ваших системах. Это могут быть сводки по низкоуровневому использованию, предоставляемые операционной системой, или это могут быть типы данных более высокого уровня, привязанные к определенной функциональности или работе компонента, например запросы, обслуживаемые в секунду, или членство в пуле веб-серверов. Некоторые показатели представлены в отношении общей емкости, в то время как другие представлены в виде скорости, которая указывает на «занятость» компонента.

Часто для начала проще всего использовать метрики, уже представленные вашей операционной системой, которые отражают использование базовых физических ресурсов. Данные о дисковом пространстве, загрузке процессора, использовании подкачки и т. Д. уже доступны, предоставляют ценность немедленно и могут быть переданы в систему мониторинга без особой дополнительной работы. Многие веб-серверы, серверы баз данных и другое программное обеспечение также предоставляют свои собственные метрики, которые также можно передавать вперед.

Для других компонентов, особенно для ваших собственных приложений, вам, возможно, придется добавить код или интерфейсы, чтобы предоставить нужные вам показатели. Сбор и раскрытие метрик иногда называют добавлением * инструментовки * к вашим услугам.

Метрики полезны, потому что они дают представление о поведении и работоспособности ваших систем, особенно в совокупности. Они представляют собой сырье, используемое вашей системой мониторинга для создания целостного представления о вашей среде, автоматизации реагирования на изменения и оповещения людей при необходимости. Метрики - это базовые значения, используемые для понимания исторических тенденций, сопоставления различных факторов и измерения изменений в вашей производительности, потреблении или показателях ошибок.

Что такое мониторинг?

В то время как метрики представляют данные в вашей системе, мониторинг - это процесс сбора, агрегирования и анализа этих значений для повышения осведомленности о характеристиках и поведении ваших компонентов. Данные из различных частей вашей среды собираются в * систему мониторинга *, которая отвечает за хранение, агрегирование, визуализацию и инициирование автоматических ответов, когда значения соответствуют определенным требованиям.

В целом, разница между показателями и мониторингом отражает разницу между данными и информацией. Данные состоят из необработанных, необработанных фактов, в то время как информация создается путем анализа и организации данных для создания контекста, который обеспечивает ценность. Мониторинг берет данные метрик, агрегирует их и представляет их различными способами, которые позволяют людям извлекать информацию из коллекции отдельных частей.

Системы мониторинга выполняют множество связанных функций. Их первая обязанность - принимать и хранить входящие и исторические данные. Хотя значения, представляющие текущий момент времени, полезны, почти всегда более полезно просматривать эти числа по отношению к прошлым значениям, чтобы обеспечить контекст вокруг изменений и тенденций. Это означает, что система мониторинга должна быть способна управлять данными в течение периодов времени, что может включать выборку или агрегирование более старых данных.

Во-вторых, системы мониторинга обычно обеспечивают визуализацию данных. Хотя показатели могут отображаться и пониматься как отдельные значения или таблицы, люди гораздо лучше распознают тенденции и понимают, как компоненты сочетаются друг с другом, когда информация организована визуально значимым образом. Системы мониторинга обычно представляют компоненты, которые они измеряют, с помощью настраиваемых графиков и панелей мониторинга. Это позволяет понять взаимодействие сложных переменных или изменений в системе, взглянув на дисплей.

Дополнительной функцией, которую обеспечивают системы мониторинга, является организация и сопоставление данных из различных входных данных. Чтобы метрики были полезны, администраторы должны иметь возможность распознавать шаблоны между различными ресурсами и между группами серверов. Например, если приложение испытывает всплеск частоты ошибок, администратор должен иметь возможность использовать систему мониторинга, чтобы определить, совпадает ли это событие с исчерпанием емкости соответствующего ресурса.

Наконец, системы мониторинга обычно используются в качестве платформы для определения и активации оповещений, о которых мы поговорим позже.

Что такое оповещение?

Оповещение - это отзывчивый компонент системы мониторинга, который выполняет действия, основанные на изменениях значений метрик. Определения оповещений состоят из двух компонентов: условия или порогового значения на основе метрик и действия, выполняемого, когда значения выходят за пределы допустимых условий.

Хотя системы мониторинга невероятно полезны для активной интерпретации и расследования, одно из основных преимуществ полной системы мониторинга - это разрешение администраторам отключаться от системы. Оповещения позволяют вам определять ситуации, которыми имеет смысл активно управлять, полагаясь на пассивный мониторинг программного обеспечения для наблюдения за изменяющимися условиями.

В то время как уведомление ответственных сторон является наиболее распространенным действием для оповещения, некоторые программные ответы могут быть инициированы также на основе пороговых нарушений. Например, на предупреждение, указывающее, что вам требуется больше ЦП для обработки текущей нагрузки, можно ответить сценарием, который автоматически масштабирует этот уровень вашего приложения. Хотя это не является строго предупреждением, поскольку оно не приводит к уведомлению, один и тот же механизм системы мониторинга часто можно использовать и для запуска этих процессов.

Однако основная цель оповещения по-прежнему заключается в том, чтобы привлечь внимание людей к текущему состоянию ваших систем. Автоматизация ответов является важным механизмом обеспечения того, чтобы уведомления запускались только в ситуациях, которые требуют рассмотрения со стороны знающего человека. Само оповещение должно содержать информацию о том, что не так и куда идти, чтобы найти дополнительную информацию. Человек, отвечающий на предупреждение, может затем использовать систему мониторинга и связанные с ней инструменты, такие как файлы журналов, для расследования причины проблемы и реализации стратегии смягчения.

Инфраструктура даже средней сложности требует различий в серьезности оповещения, чтобы ответственные команды или отдельные лица могли быть уведомлены с использованием методов, соответствующих масштабу проблемы. Например, растущее использование хранилища может потребовать рабочего билета или электронной почты, в то время как увеличение числа ошибок или безответственности, с которыми сталкиваются клиенты, может потребовать отправки страницы сотрудникам по вызову.

Какой тип информации важно отслеживать?

Типы отслеживаемых значений и отслеживаемая информация, вероятно, будут меняться по мере развития вашей инфраструктуры. Поскольку системы обычно функционируют иерархически, а более сложные уровни строятся поверх более примитивной инфраструктуры, при планировании стратегии мониторинга может быть полезно подумать о показателях, доступных на этих разных уровнях.

Метрики на основе хоста

Внизу иерархии примитивных метрик находятся индикаторы на основе хоста. Это может быть все, что связано с оценкой работоспособности или производительности отдельного компьютера, без учета его стеков и служб. Они в основном состоят из использования или производительности операционной системы или оборудования, например:

  • CPU

  • объем памяти

  • Дисковое пространство

  • Процессы

Они могут дать вам представление о факторах, которые могут повлиять на способность одного компьютера оставаться стабильным или выполнять работу.

Метрики приложений

Следующая категория метрик, которые вы можете посмотреть, это метрики приложений. Это показатели, относящиеся к единицам обработки или работы, которые зависят от ресурсов уровня хоста, таких как сервисы или приложения. Конкретные типы метрик, на которые нужно смотреть, зависят от того, что предоставляет сервис, какие у него зависимости и с какими другими компонентами он взаимодействует. Метрики на этом уровне являются показателями работоспособности, производительности или нагрузки приложения:

  • Ошибки и показатели успеха

  • Сбои и перезапуски сервиса

  • Производительность и задержка ответов

  • Использование ресурсов

Эти показатели помогают определить, работает ли приложение правильно и эффективно.

Метрики сети и подключения

Для большинства типов инфраструктуры показатели сети и подключения будут еще одним набором данных, который стоит изучить. Это важные показатели внешней доступности, но они также важны для обеспечения доступности служб для других компьютеров для любых систем, охватывающих более одного компьютера. Как и другие метрики, которые мы обсуждали до сих пор, сети должны быть проверены на их общую функциональную корректность и способность обеспечивать необходимую производительность, рассматривая:

  • связь

  • Частота ошибок и потеря пакетов

  • Задержка

  • Использование полосы пропускания

Мониторинг сетевого уровня может помочь вам улучшить доступность и скорость реагирования как ваших внутренних, так и внешних сервисов.

Метрики пула серверов

При работе с горизонтально масштабируемой инфраструктурой еще одним уровнем инфраструктуры, для которого вам необходимо добавить метрики, являются пулы серверов. В то время как метрики об отдельных серверах полезны, в масштабе сервис лучше представлен как способность совокупности машин выполнять работу и адекватно реагировать на запросы. Этот тип метрики во многих отношениях является просто экстраполяцией метрик приложения и сервера более высокого уровня, но ресурсы в этом случае представляют собой однородные серверы, а не компоненты машинного уровня. Некоторые данные, которые вы можете отслеживать:

  • Использование объединенных ресурсов

  • Индикаторы регулировки масштаба

  • Ухудшенные случаи

Сбор данных, которые суммируют работоспособность наборов серверов, важен для понимания реальных возможностей вашей системы по обработке нагрузки и реагированию на изменения.

Метрики внешней зависимости

Другие метрики, которые вы можете добавить в свою систему, связаны с внешними зависимостями. Часто службы предоставляют страницы состояния или API для обнаружения перебоев в обслуживании, но отслеживание их в ваших собственных системах, а также фактическое взаимодействие с службой могут помочь вам выявить проблемы с вашими поставщиками, которые могут повлиять на ваши операции. Некоторые элементы, которые могут быть применимы для отслеживания на этом уровне:

  • Статус сервиса и доступность

  • Успешность и частота ошибок

  • Скорость выполнения и эксплуатационные расходы

  • Истощение ресурсов

Есть много других типов метрик, которые могут быть полезны для сбора. Концептуализация наиболее важной информации на разных уровнях фокусировки может помочь вам определить показатели, которые наиболее полезны для прогнозирования или выявления проблем. Имейте в виду, что наиболее ценными показателями на более высоких уровнях, вероятно, будут ресурсы, предоставляемые более низкими уровнями.

Факторы, которые влияют на то, что вы выбираете для мониторинга

Для душевного спокойствия в идеальном мире вы должны отслеживать все, что связано с вашими системами, с самого начала на случай, если какой-то предмет может когда-нибудь иметь отношение к вам. Однако есть много причин, почему это может быть невозможно или даже нежелательно.

Несколько факторов, которые могут повлиять на то, что вы выбираете для сбора и действия:

  • * Ресурсы, доступные для отслеживания *: В зависимости от ваших человеческих ресурсов, инфраструктуры и бюджета, вам придется ограничить объем отслеживаемых действий тем, что вы можете позволить себе реализовать и разумно управлять.

  • * Сложность и цель вашего приложения *: Сложность вашего приложения или систем может оказать большое влияние на то, что вы решите отслеживать. Элементы, которые могут быть критически важными для одного программного обеспечения, могут вообще не иметь значения в других.

  • * Среда развертывания *. Несмотря на то, что надежный мониторинг является наиболее важным для производственных систем, системы промежуточного хранения и тестирования также выигрывают от мониторинга, хотя могут быть различия в степени серьезности, степени детализации и общих измеренных показателях.

  • * Вероятность полезности метрики *: один из наиболее важных факторов, влияющих на то, измеряется ли что-либо, - это его способность помочь в будущем. Каждая дополнительная отслеживаемая метрика увеличивает сложность системы и требует ресурсов. Потребность в данных также может со временем меняться, что требует регулярной переоценки.

  • * Как важна стабильность *: Проще говоря, стабильность и время безотказной работы не могут быть приоритетами для определенных типов личных проектов или проектов на ранней стадии.

Факторы, которые влияют на ваши решения, будут зависеть от ваших доступных ресурсов, зрелости вашего проекта и уровня обслуживания, которое вам требуется.

Важные качества системы показателей, мониторинга и оповещения

Хотя каждое приложение или служба мониторинга будет иметь свои сильные и слабые стороны, лучшие варианты часто имеют некоторые важные качества. Ниже приведены некоторые из наиболее важных характеристик, которые необходимо учитывать при оценке систем мониторинга.

Независимо от большинства других инфраструктур

Одним из самых основных требований адекватной системы мониторинга является внешняя связь с другими службами. Хотя иногда полезно группировать службы, основные обязанности системы мониторинга, ее полезность в диагностике проблем и ее связь с наблюдаемыми системами означает, что важно, чтобы ваша система мониторинга была доступна независимо. Ваша система мониторинга неизбежно окажет некоторое влияние на системы, которые она контролирует, но вы должны стремиться к тому, чтобы этот минимум был минимальным, чтобы уменьшить влияние отслеживания на производительность и повысить надежность вашего мониторинга в случае других системных проблем.

Надежный и заслуживающий доверия

Другое основное требование - надежность. Поскольку система мониторинга отвечает за сбор, хранение и предоставление доступа к ценной информации, важно, чтобы вы могли доверять ее правильной работе на ежедневной основе. Отказ от метрик, перебои в обслуживании и ненадежные оповещения могут оказать непосредственное вредное влияние на вашу способность эффективно управлять инфраструктурой. Это относится не только к надежности основного программного обеспечения, но и к конфигурации, которую вы включаете, поскольку такие ошибки, как неточное оповещение, могут привести к потере доверия к системе.

Простой в использовании сводный и подробный виды

Возможность отображать сводные данные высокого уровня и запрашивать более подробную информацию по требованию является важной функцией, гарантирующей, что данные метрик будут полезными и пригодными для использования оператором. Разработка информационных панелей, которые представляют наиболее часто просматриваемые данные в понятной форме, может помочь пользователям понять состояние системы с первого взгляда. Множество различных видов панели инструментов могут быть созданы для различных рабочих функций или областей интересов.

Не менее важна способность развернуть сводные дисплеи для отображения информации, наиболее подходящей для текущей задачи. Динамическая настройка масштаба графиков, переключение ненужных метрик и наложение информации из нескольких систем очень важны для интерактивного использования инструмента для исследований или анализа первопричин.

Эффективная стратегия ведения исторических данных

Система мониторинга наиболее полезна, когда она имеет богатую историю данных, которая может помочь установить тенденции, закономерности и согласованность в течение длительных периодов времени. Хотя в идеале вся информация будет сохраняться в течение неопределенного времени в исходной степени детализации, иногда из-за ограничений по стоимости и ресурсам может потребоваться хранение более старых данных с уменьшенным разрешением. Системы мониторинга, обладающие гибкостью для работы с данными как с полной детализацией, так и в формате выборки, предоставляют более широкий диапазон вариантов обработки постоянно растущего объема данных.

Еще одна полезная функция - возможность легко импортировать существующие наборы данных. Если снижение информационной плотности ваших исторических показателей не является привлекательным вариантом, то лучшим вариантом может быть выгрузка старых данных в решение для долгосрочного хранения. В этом случае вам не нужно хранить старые данные в системе, но вы должны иметь возможность перезагрузить их в большом количестве, когда вы хотите проанализировать или использовать их.

Возможность соотносить факторы из разных источников

Система мониторинга отвечает за обеспечение целостного представления всей вашей инфраструктуры, поэтому она должна иметь возможность отображать связанную информацию, даже если она поступает из разных систем или имеет разные характеристики. Администраторы должны иметь возможность склеивать информацию из разрозненных частей своих систем по своему желанию, чтобы понять потенциальные взаимодействия и общее состояние всей инфраструктуры. Обеспечение того, чтобы синхронизация времени настраивалась в ваших системах, является обязательным условием для возможности надежной корреляции данных из разных систем.

Легко начать отслеживать новые метрики или инфраструктуру

Чтобы ваша система мониторинга была точным представлением ваших систем, вы должны иметь возможность вносить изменения по мере изменения машин и инфраструктуры. Минимальное трение при добавлении дополнительных машин поможет вам сделать это. Не менее важна способность легко удалять списанные машины, не уничтожая собранные данные, связанные с ними. Система должна сделать эти операции как можно более простыми, чтобы поощрять настройку мониторинга как часть процесса подготовки экземпляра или вывода из эксплуатации.

Важная связанная с этим способность - это простота настройки системы мониторинга для отслеживания совершенно новых показателей. Это зависит от того, как метрики определяются в конфигурации мониторинга ядра, а также от разнообразия и качества механизмов, доступных для отправки метрических данных в систему. Определение новых метрик обычно сложнее, чем добавление дополнительных компьютеров, но снижение сложности добавления или настройки метрик поможет вашей команде реагировать на изменяющиеся требования в надлежащие сроки.

Гибкое и мощное оповещение

Одним из наиболее важных аспектов системы мониторинга для оценки является ее способность оповещения. Помимо очень строгих требований к надежности, система оповещения должна быть достаточно гибкой, чтобы уведомлять операторов через несколько сред, и достаточно мощной, чтобы иметь возможность составлять продуманные, действенные триггеры уведомлений. Многие системы откладывают ответственность за фактическую доставку уведомлений другим сторонам, предлагая интеграцию с существующими службами пейджинга или приложениями обмена сообщениями. Это сводит к минимуму ответственность за функциональность оповещений и обычно предоставляет более гибкие возможности, поскольку плагину просто нужно использовать внешний API.

Однако та часть, которую система мониторинга не может отложить, определяет параметры оповещения. Оповещения определяются на основе значений, выходящих за пределы допустимых диапазонов, но определения могут потребовать некоторого нюанса, чтобы избежать чрезмерного оповещения. Например, кратковременные пики часто не являются проблемой, но постоянная повышенная нагрузка может потребовать внимания оператора. Способность четко определять параметры для оповещения является требованием для составления надежного, заслуживающего доверия набора условий оповещения.

Дополнительная терминология

Изучая экосистему мониторинга, вы начнете сталкиваться с набором общей терминологии, которая часто используется для обсуждения характеристик систем мониторинга, обрабатываемых данных и различных компромиссов, требующих рассмотрения. Хотя приведенный ниже список не является исчерпывающим, он может помочь вам познакомиться с некоторыми из терминов, с которыми вы, скорее всего, столкнетесь.

  • * Наблюдаемость *: хотя и не строго определена, наблюдаемость - это общий термин, используемый для описания процессов и методов, связанных с повышением осведомленности и видимости в системах. Это может включать мониторинг, метрики, визуализацию, трассировку и анализ журнала.

  • * Ресурс *: В контексте систем мониторинга и программного обеспечения ресурс - это любая исчерпаемая или ограниченная зависимость. То, что считается ресурсом, может сильно различаться в зависимости от части обсуждаемой системы.

  • * Задержка *: Задержка - это мера времени, которое требуется для выполнения действия. В зависимости от компонента это может быть мера обработки, ответа или времени в пути.

  • * Пропускная способность *: Пропускная способность представляет собой максимальную скорость обработки или обхода, которую может обработать система. Это может зависеть от программного или аппаратного обеспечения. Часто существует важное различие между теоретической пропускной способностью и практической наблюдаемой пропускной способностью.

  • * Производительность *: Производительность - это общая мера того, насколько эффективно система выполняет работу. Производительность - это общий термин, который часто включает в себя такие рабочие факторы, как пропускная способность, задержка или потребление ресурсов.

  • * Насыщенность *: Насыщенность является мерой количества используемой емкости. Полное насыщение указывает на то, что в настоящее время используется 100% емкости.

  • * Визуализация *: Визуализация - это процесс представления данных метрик в формате, который обеспечивает быструю, интуитивную интерпретацию с помощью графиков или диаграмм.

  • * Объединение журналов *: Объединение журналов - это процесс компиляции, организации и индексации файлов журналов, чтобы упростить управление, поиск и анализ. Отдельно от мониторинга агрегированные журналы могут использоваться вместе с системой мониторинга для выявления причин и расследования сбоев.

  • * Точка данных *: Точка данных - это единичное измерение одного показателя.

  • * Набор данных *: Набор данных - это набор точек данных для метрики.

  • * Единицы *: Единицы являются контекстом для измеренного значения. Единица измерения определяет величину, объем или количество измерений, чтобы понять степень и разрешить сравнение.

  • * Процентные единицы *: Процентные единицы - это измерения, которые проводятся как часть конечного целого. Процентная единица указывает, сколько значение из общей возможной суммы.

  • * Единицы оценки *: Единицы оценки указывают величину показателя за постоянный период времени.

  • * Временной ряд *: данные временного ряда представляют собой ряд точек данных, которые представляют изменения во времени. Большинство показателей лучше всего представить во временном ряду, поскольку отдельные точки данных часто представляют значение в определенное время, а результирующий ряд точек используется для отображения изменений во времени.

  • * Частота выборки *: Частота выборки - это измерение того, как часто репрезентативная точка данных собирается вместо непрерывного сбора. Более высокая частота дискретизации более точно отражает измеренное поведение, но требует больше ресурсов для обработки дополнительных точек данных.

  • * Разрешение *: Разрешение относится к плотности точек данных, которые составляют набор данных. Коллекции с более высоким разрешением за один и тот же период времени указывают на более высокую частоту дискретизации и более детальное представление о том же поведении.

  • * Инструментарий *. Инструментарий - это возможность отслеживать поведение и производительность программного обеспечения. Это достигается путем добавления кода и конфигурации в программное обеспечение для вывода данных, которые затем могут быть использованы системой мониторинга.

  • * Эффект наблюдателя *: Эффект наблюдателя - это влияние самой системы мониторинга на наблюдаемые явления. Поскольку для мониторинга требуются ресурсы, процесс измерения поведения и производительности будет изменять полученные значения. Системы мониторинга стремятся избежать добавления ненужных накладных расходов, чтобы минимизировать это влияние.

  • * Чрезмерный мониторинг *: Чрезмерный мониторинг происходит, когда количество настроенных метрик и оповещений обратно пропорционально связано с их полезностью. Чрезмерный мониторинг может вызвать нагрузку на инфраструктуру, затруднить поиск соответствующих данных и привести к тому, что команды потеряют доверие к своим системам мониторинга и оповещения.

  • * Усталость оповещения *: Усталость оповещения - это реакция человека на снижение чувствительности, возникающее в результате частых, ненадежных или неправильно установленных приоритетов оповещений. Усталость оповещения может заставить операторов игнорировать серьезные проблемы и обычно является показателем того, что условия оповещения необходимо пересмотреть.

  • * Порог *: при предупреждении порог - это граница между допустимыми и недопустимыми значениями, которая при превышении выдает предупреждение. Часто оповещения настроены на срабатывание, когда значение превышает пороговое значение в течение определенного периода времени, чтобы избежать отправки оповещения о временных всплесках.

  • * Квантиль *: Квантиль - это точка разделения, используемая для разделения набора данных на отдельные группы на основе их значений. Квантили используются для помещения значений в «сегменты», которые представляют сегменты совокупности данных. Часто это используется для отделения общих ценностей от выбросов, чтобы лучше понять, что представляет собой репрезентативные и экстремальные случаи.

  • * Тренд *: тренд - это общее направление, которое указывает набор значений. Тенденции более надежны, чем отдельные значения, при определении общего состояния отслеживаемого компонента.

  • * Мониторинг белого ящика *: Мониторинг белого ящика - это термин, используемый для описания мониторинга, который основан на доступе к внутреннему состоянию измеряемых компонентов. Мониторинг белого ящика может обеспечить детальное понимание состояния системы и полезен для выявления причин проблем.

  • * Мониторинг черного ящика *: Мониторинг черного ящика - это мониторинг, который наблюдает за внешним состоянием системы или компонента, наблюдая только за ее входами, выходами и поведением. Этот тип мониторинга может тесно соответствовать опыту пользователя системы, но он менее полезен для поиска причины проблем.

Заключение

Сбор метрик, мониторинг компонентов и настройка оповещений является важной частью настройки и управления производственной инфраструктурой. Возможность рассказать о том, что происходит в ваших системах, какие ресурсы требуют внимания и что вызывает замедление или отключение, неоценима. Хотя разработка и внедрение вашей настройки мониторинга может быть сложной задачей, это инвестиции, которые могут помочь вашей команде расставить приоритеты в своей работе, делегировать ответственность за надзор автоматизированной системе и понять влияние вашей инфраструктуры и программного обеспечения на вашу стабильность и производительность. ,

Related