Introduction aux métriques, surveillance et alertes

introduction

Comprendre l’état de votre infrastructure et de vos systèmes est essentiel pour assurer la fiabilité et la stabilité de vos services. Les informations sur la santé et les performances de vos déploiements aident non seulement votre équipe à réagir aux problèmes, mais leur procurent également la sécurité nécessaire pour apporter des modifications en toute confiance. L’un des meilleurs moyens d’obtenir cette information consiste à utiliser un système de surveillance robuste qui rassemble des métriques, visualise des données et alerte les opérateurs lorsque quelque chose semble cassé.

Dans ce guide, nous discuterons des métriques, de la surveillance et des alertes. Nous parlerons de leur importance, des types d’opportunités qu’elles offrent et du type de données que vous voudrez peut-être suivre. Nous allons introduire une terminologie clé en cours de route et nous terminerons par un court glossaire d’autres termes que vous pourriez rencontrer en explorant cet espace.

Que sont les métriques, la surveillance et les alertes?

Les métriques, la surveillance et les alertes sont tous des concepts interdépendants qui forment ensemble la base d’un système de surveillance. Ils ont la capacité de fournir une visibilité sur la santé de vos systèmes, de vous aider à comprendre les tendances en matière d’utilisation ou de comportement et de comprendre l’impact des changements que vous apportez. Si les mesures se situent en dehors des plages attendues, ces systèmes peuvent envoyer des notifications pour inviter un opérateur à jeter un coup d’œil, puis vous aider à retrouver des informations pour vous aider à identifier les causes possibles.

Dans cette section, nous allons examiner ces concepts individuels et leur interaction.

Que sont les métriques et pourquoi les recueillons-nous?

Les métriques représentent les mesures brutes d’utilisation des ressources ou de comportement pouvant être observées et collectées sur l’ensemble de vos systèmes. Il peut s’agir de résumés d’utilisation de bas niveau fournis par le système d’exploitation ou de types de données de niveau supérieur liés à la fonctionnalité ou au travail spécifique d’un composant, telles que les demandes traitées à la seconde ou l’appartenance à un pool de serveurs Web. Certaines métriques sont présentées par rapport à une capacité totale, tandis que d’autres sont représentées par un taux indiquant «l’activité» d’un composant.

Les mesures les plus simples au départ sont souvent celles que votre système d’exploitation expose déjà pour représenter l’utilisation des ressources physiques sous-jacentes. Données sur l’espace disque, la charge du processeur, l’utilisation de swap, etc. sont déjà disponibles, fournissent une valeur immédiate et peuvent être transférés vers un système de surveillance sans trop de travail supplémentaire. De nombreux serveurs Web, serveurs de base de données et autres logiciels fournissent également leurs propres métriques, qui peuvent également être transmises.

Pour d’autres composants, notamment vos propres applications, vous devrez peut-être ajouter du code ou des interfaces pour exposer les métriques qui vous intéressent. La collecte et l’exposition de métriques sont parfois appelées ajouter * une instrumentation * à vos services.

Les métriques sont utiles car elles fournissent des informations sur le comportement et la santé de vos systèmes, en particulier lorsqu’elles sont analysées de manière globale. Ils représentent la matière première utilisée par votre système de surveillance pour créer une vue globale de votre environnement, automatiser les réponses aux changements et alerter les êtres humains en cas de besoin. Les métriques sont les valeurs de base utilisées pour comprendre les tendances historiques, mettre en corrélation divers facteurs et mesurer les changements dans vos performances, votre consommation ou vos taux d’erreur.

Qu’est-ce que la surveillance?

Alors que les métriques représentent les données de votre système, la surveillance consiste à collecter, à regrouper et à analyser ces valeurs pour améliorer la connaissance des caractéristiques et du comportement de vos composants. Les données de différentes parties de votre environnement sont collectées dans un * système de surveillance * chargé du stockage, de l’agrégation, de la visualisation et du lancement de réponses automatisées lorsque les valeurs répondent à des exigences spécifiques.

En général, la différence entre les mesures et la surveillance reflète la différence entre les données et les informations. Les données sont composées de faits bruts non traités, tandis que les informations sont produites en analysant et en organisant les données afin de créer un contexte offrant de la valeur. La surveillance prend des données de métrique, les agrège et les présente de différentes manières, ce qui permet aux humains d’extraire des informations de la collection d’éléments individuels.

Les systèmes de surveillance remplissent de nombreuses fonctions connexes. Leur première responsabilité est d’accepter et de stocker les données entrantes et historiques. Bien que les valeurs représentant le moment actuel soient utiles, il est presque toujours plus utile d’afficher ces chiffres par rapport aux valeurs passées pour fournir un contexte autour des changements et des tendances. Cela signifie qu’un système de surveillance devrait être capable de gérer des données sur plusieurs périodes, ce qui peut impliquer l’échantillonnage ou l’agrégation de données plus anciennes.

Deuxièmement, les systèmes de surveillance fournissent généralement des visualisations de données. Bien que les métriques puissent être affichées et comprises sous forme de valeurs ou de tableaux individuels, les humains sont beaucoup mieux à même de reconnaître les tendances et de comprendre comment les composants s’emboîtent lorsque l’information est organisée de manière visuellement significative. Les systèmes de surveillance représentent généralement les composants qu’ils mesurent avec des graphiques et des tableaux de bord configurables. Cela permet de comprendre l’interaction de variables complexes ou de modifications au sein d’un système en jetant un coup d’œil sur un affichage.

Une fonction supplémentaire fournie par les systèmes de surveillance est l’organisation et la corrélation des données provenant de différentes entrées. Pour que les métriques soient utiles, les administrateurs doivent être en mesure de reconnaître les modèles entre différentes ressources et parmi des groupes de serveurs. Par exemple, si une application connaît un pic de taux d’erreur, un administrateur doit pouvoir utiliser le système de surveillance pour déterminer si cet événement coïncide avec l’épuisement de la capacité d’une ressource associée.

Enfin, les systèmes de surveillance servent généralement de plateforme pour définir et activer les alertes, ce dont nous parlerons plus loin.

Qu’est-ce qu’une alerte?

Les alertes constituent le composant réactif d’un système de surveillance qui exécute des actions en fonction des modifications des valeurs de mesure. Les définitions d’alertes sont composées de deux composants: une condition ou un seuil basé sur des métriques et une action à exécuter lorsque les valeurs se situent en dehors des conditions acceptables.

Bien que les systèmes de surveillance soient extrêmement utiles pour l’interprétation et l’investigation actives, l’un des principaux avantages d’un système de surveillance complet est de permettre aux administrateurs de se désengager du système. Les alertes vous permettent de définir les situations qu’il est judicieux de gérer activement, tout en s’appuyant sur la surveillance passive du logiciel pour surveiller les conditions changeantes.

Bien que la notification des parties responsables soit l’action la plus courante en matière d’alerte, certaines réponses programmatiques peuvent également être déclenchées en fonction de dépassements de seuil. Par exemple, une alerte indiquant que vous avez besoin de plus de ressources processeur pour traiter la charge actuelle peut être traitée avec un script qui redimensionne automatiquement cette couche de votre application. Bien qu’il ne s’agisse pas d’une alerte à proprement parler car elle n’aboutit pas à une notification, le même mécanisme de système de surveillance peut souvent aussi être utilisé pour lancer ces processus.

Cependant, le principal objectif de l’alerte reste d’attirer l’attention de l’homme sur l’état actuel de vos systèmes. L’automatisation des réponses est un mécanisme important permettant de garantir que les notifications ne sont déclenchées que dans des situations qui nécessitent l’attention d’un être humain bien informé. L’alerte elle-même doit contenir des informations sur ce qui ne va pas et où aller pour trouver des informations supplémentaires. L’individu répondant à l’alerte peut ensuite utiliser le système de surveillance et les outils associés, tels que les fichiers journaux, pour rechercher la cause du problème et mettre en œuvre une stratégie d’atténuation.

Une infrastructure même de complexité modérée requiert des distinctions en termes de gravité d’alerte afin que les équipes ou individus responsables puissent être avertis à l’aide de méthodes adaptées à l’ampleur du problème. Par exemple, l’utilisation croissante du stockage peut justifier un ticket de travail ou un courrier électronique, tandis qu’une augmentation du taux d’erreur ou une absence de réponse des clients peut nécessiter l’envoi d’une page au personnel sur appel.

Quel type d’informations est important à suivre?

Les types de valeurs que vous surveillez et les informations que vous suivez vont probablement changer à mesure que votre infrastructure évolue. Étant donné que les systèmes fonctionnent généralement de manière hiérarchique, avec des couches plus complexes reposant sur une infrastructure plus primitive, il peut être utile de réfléchir aux métriques disponibles à ces différents niveaux lors de la planification de votre stratégie de surveillance.

Métriques basées sur l’hôte

Au bas de la hiérarchie des métriques primitives se trouvent des indicateurs basés sur l’hôte. Il s’agit de tout ce qui est impliqué dans l’évaluation de la santé ou des performances d’une machine individuelle, ignorant pour le moment ses piles d’applications et ses services. Ceux-ci sont principalement constitués de l’utilisation ou des performances du système d’exploitation ou du matériel, tels que:

CPU
Mémoire
Espace disque
Les processus

Celles-ci peuvent vous donner une idée des facteurs qui peuvent influer sur la capacité d’un ordinateur à rester stable ou à effectuer un travail.

Métriques d’application

La prochaine catégorie de métriques que vous voudrez peut-être examiner est la métrique d’application. Il s’agit de métriques relatives à des unités de traitement ou de travail dépendant des ressources au niveau de l’hôte, telles que des services ou des applications. Les types de métriques spécifiques à examiner dépendent de ce que le service fournit, des dépendances dont il dispose et des autres composants avec lesquels il interagit. Les métriques à ce niveau sont des indicateurs de la santé, des performances ou de la charge d’une application:

Taux d’erreur et de réussite
Échecs de service et redémarrages
Performance et latence des réponses
L’utilisation des ressources

Ces indicateurs permettent de déterminer si une application fonctionne correctement et efficacement.

Mesures de réseau et de connectivité

Pour la plupart des types d’infrastructures, les indicateurs de réseau et de connectivité constitueront un autre ensemble de données intéressant à explorer. Ce sont des indicateurs importants de la disponibilité vers l’extérieur, mais ils sont également essentiels pour garantir que les services sont accessibles aux autres machines pour tous les systèmes couvrant plusieurs machines. Comme pour les autres mesures dont nous avons discuté jusqu’à présent, les réseaux doivent être vérifiés pour leur exactitude fonctionnelle globale et leur capacité à fournir les performances nécessaires en examinant:

Connectivité
Taux d’erreur et perte de paquets
Latence
Utilisation de la bande passante

Le suivi de votre couche réseau peut vous aider à améliorer la disponibilité et la réactivité de vos services internes et externes.

Mesures de pool de serveurs

Lorsque vous traitez avec une infrastructure à l’échelle horizontale, une autre couche d’infrastructure pour laquelle vous aurez besoin d’ajouter des métriques concerne les pools de serveurs. Les métriques relatives aux serveurs individuels sont utiles, mais à l’échelle, un service est mieux représenté par la capacité d’un ensemble de machines à effectuer un travail et à répondre correctement aux demandes. Ce type de métrique est à bien des égards une extrapolation de niveau supérieur des métriques application et serveur, mais dans ce cas, les ressources sont des serveurs homogènes au lieu de composants au niveau de la machine. Certaines données que vous pourriez vouloir suivre sont:

Utilisation groupée des ressources
Indicateurs d’ajustement d’échelle
Instances dégradées

La collecte de données qui résume l’intégrité des collections de serveurs est importante pour comprendre les capacités réelles de votre système à gérer la charge et à réagir aux changements.

Mesures de dépendance externe

Les autres mesures que vous souhaitez peut-être ajouter à votre système sont celles liées aux dépendances externes. Les services fournissent souvent des pages de statut ou une API pour détecter les pannes de service, mais le suivi de ces derniers au sein de vos propres systèmes, ainsi que vos interactions réelles avec le service, peut vous aider à identifier les problèmes avec vos fournisseurs susceptibles d’affecter vos opérations. Voici certains éléments pouvant être suivis à ce niveau:

Statut du service et disponibilité
Taux de réussite et d’erreur
Taux de fonctionnement et coûts opérationnels
Épuisement des ressources

Il existe de nombreux autres types de métriques qu’il peut être utile de collecter. La conceptualisation des informations les plus importantes à différents niveaux de focalisation peut vous aider à identifier les indicateurs les plus utiles pour prédire ou identifier les problèmes. N’oubliez pas que les indicateurs les plus précieux pour les niveaux supérieurs sont probablement les ressources fournies par les couches inférieures.

Facteurs influant sur ce que vous choisissez de surveiller

Pour plus de tranquillité d’esprit, dans un monde idéal, vous suivrez tout ce qui concerne vos systèmes depuis le début, au cas où un élément pourrait un jour vous intéresser. Cependant, il y a de nombreuses raisons pour lesquelles cela pourrait ne pas être possible ou même souhaitable.

Voici quelques facteurs qui peuvent affecter ce que vous choisissez de collecter et d’agir:

* Ressources disponibles pour le suivi *: En fonction de vos ressources humaines, de votre infrastructure et de votre budget, vous devrez limiter la portée de ce que vous gardez trace à ce que vous pouvez vous permettre de mettre en œuvre et de gérer raisonnablement.
* La complexité et le but de votre application *: La complexité de votre application ou de vos systèmes peut avoir un impact important sur ce que vous choisissez de suivre. Les éléments pouvant être critiques pour certains logiciels peuvent ne pas l’être du tout pour d’autres.
* Environnement de déploiement *: si une surveillance robuste est essentielle pour les systèmes de production, les systèmes de test et de test bénéficient également de la surveillance, bien qu’il puisse y avoir des différences de gravité, de granularité et de métriques globales mesurées.
* La probabilité que la métrique soit utile *: l’un des facteurs les plus importants pour déterminer si une mesure est mesurée est son potentiel d’aide dans le futur. Chaque métrique supplémentaire suivie augmente la complexité du système et consomme des ressources. La nécessité des données peut également évoluer dans le temps, nécessitant une réévaluation à intervalles réguliers.
* L’importance essentielle de la stabilité *: En termes simples, la stabilité et la disponibilité peuvent ne pas être des priorités pour certains types de projets personnels ou de projets en phase initiale.

Les facteurs qui influencent vos décisions dépendront de vos ressources disponibles, de la maturité de votre projet et du niveau de service requis.

Qualités importantes d’un système de métriques, de surveillance et d’alerte

Bien que chaque application ou service de surveillance ait ses forces et ses faiblesses, les meilleures options partagent souvent certaines qualités importantes. Certaines des caractéristiques les plus importantes à rechercher lors de l’évaluation des systèmes de surveillance sont présentées ci-dessous.

Indépendant de la plupart des autres infrastructures

L’une des exigences les plus élémentaires d’un système de surveillance adéquat est d’être externe à d’autres services. Bien qu’il soit parfois utile de regrouper des services, les principales responsabilités d’un système de surveillance, son utilité pour diagnostiquer les problèmes et sa relation avec les systèmes surveillés signifient qu’il est important que votre système de surveillance soit accessible de manière indépendante. Votre système de surveillance aura inévitablement des effets sur les systèmes qu’il surveille, mais vous devez vous efforcer de minimiser cet effet afin de réduire l’impact de votre suivi sur les performances et d’accroître la fiabilité de votre surveillance en cas d’autres problèmes du système.

Fiable et digne de confiance

Une autre exigence de base est la fiabilité. Comme un système de surveillance est responsable de la collecte, du stockage et de la fourniture d’un accès à des informations de grande valeur, il est important que vous puissiez avoir confiance qu’il fonctionne correctement au quotidien. Des métriques perdues, des pannes de service et des alertes peu fiables peuvent avoir un impact négatif immédiat sur votre capacité à gérer efficacement votre infrastructure. Cela s’applique non seulement à la fiabilité du logiciel principal, mais également à la configuration que vous activez, car des erreurs telles qu’une alerte erronée peuvent entraîner une perte de confiance dans le système.

Vues de résumé et de détail faciles à utiliser

La possibilité d’afficher des résumés de haut niveau et de demander plus de détails à la demande est une caractéristique importante pour garantir que les données de métriques sont utiles et utilisables par les opérateurs. La conception de tableaux de bord présentant de manière immédiatement intelligible les données les plus souvent consultées peut aider les utilisateurs à comprendre l’état du système en un coup d’œil. De nombreuses vues de tableau de bord peuvent être créées pour différentes fonctions ou domaines d’intérêt.

Il est également important de pouvoir explorer à partir d’affichages récapitulatifs les informations les plus pertinentes pour la tâche en cours. Il est essentiel d’ajuster de manière dynamique l’échelle des graphiques, de supprimer les métriques inutiles et de superposer des informations provenant de plusieurs systèmes pour rendre l’outil interactif utile pour les enquêtes ou l’analyse des causes premières.

Stratégie efficace pour la maintenance des données historiques

Un système de surveillance est particulièrement utile lorsqu’il dispose d’un riche historique de données pouvant aider à établir des tendances, des modèles et des cohérences sur de longues périodes. Idéalement, toutes les informations seraient conservées indéfiniment dans leur granularité d’origine, mais des contraintes de coûts et de ressources peuvent parfois rendre nécessaire le stockage de données plus anciennes à une résolution réduite. Les systèmes de surveillance offrant la flexibilité nécessaire pour travailler avec des données à la fois avec une granularité totale et dans un format échantillonné offrent un éventail plus large d’options pour gérer une quantité de données sans cesse croissante.

Une fonctionnalité connexe utile est la possibilité d’importer facilement des ensembles de données existants. Si la réduction de la densité d’informations de vos métriques historiques n’est pas une option attrayante, le déchargement de données plus anciennes vers une solution de stockage à long terme peut constituer une meilleure solution. Dans ce cas, vous n’avez pas besoin de conserver des données plus anciennes dans le système, mais vous devez pouvoir les recharger en masse lorsque vous souhaitez les analyser ou les utiliser.

Capable de corréler des facteurs de différentes sources

Le système de surveillance est chargé de fournir une vue globale de l’ensemble de votre infrastructure. Il doit donc pouvoir afficher des informations connexes, même si elles proviennent de systèmes différents ou présentent des caractéristiques différentes. Les administrateurs doivent être capables de coller des informations provenant de parties différentes de leurs systèmes, à leur guise, afin de comprendre les interactions potentielles et l’état général de l’ensemble de l’infrastructure. Pour que la synchronisation des données de différents systèmes soit fiable, il est indispensable de s’assurer que la synchronisation de l’heure est configurée sur tous vos systèmes.

Facile à démarrer le suivi de nouvelles métriques ou infrastructure

Pour que votre système de surveillance soit une représentation précise de vos systèmes, vous devez être en mesure de procéder à des ajustements en fonction de l’évolution des machines et de l’infrastructure. Une friction minimale lors de l’ajout de machines supplémentaires vous aidera à le faire. Il est également important de pouvoir retirer facilement les machines mises hors service sans détruire les données collectées qui leur sont associées. Le système doit rendre ces opérations aussi simples que possible pour encourager la mise en place d’une surveillance dans le cadre du processus de provisionnement ou de retrait d’instance.

Une capacité connexe importante est la facilité avec laquelle le système de surveillance peut être configuré pour suivre des métriques entièrement nouvelles. Cela dépend de la manière dont les métriques sont définies dans la configuration de surveillance principale, ainsi que de la variété et de la qualité des mécanismes disponibles pour envoyer des données métriques au système. La définition de nouvelles métriques est généralement plus complexe que l’ajout de machines, mais la réduction de la complexité de l’ajout ou du réglage de métriques aidera votre équipe à répondre aux exigences changeantes dans un délai approprié.

Alerte flexible et puissante

L’un des aspects les plus importants d’un système de surveillance à évaluer concerne ses capacités d’alerte. Outre des exigences de fiabilité très strictes, le système d’alerte doit être suffisamment souple pour notifier les opérateurs via plusieurs supports et suffisamment puissant pour pouvoir composer des déclencheurs de notification réfléchis et exploitables. De nombreux systèmes rejettent la responsabilité de l’envoi de notifications à d’autres parties en proposant des intégrations avec des services de radiomessagerie ou des applications de messagerie existantes. Cela minimise la responsabilité de la fonctionnalité d’alerte et fournit généralement des options plus flexibles puisque le plug-in doit simplement utiliser une API externe.

La partie que le système de surveillance ne peut pas différer, cependant, définit les paramètres d’alerte. Les alertes sont définies en fonction de valeurs situées en dehors des plages acceptables, mais les définitions peuvent nécessiter certaines nuances afin d’éviter les alertes excessives. Par exemple, les pointes momentanées ne sont souvent pas un sujet de préoccupation, mais une charge élevée et soutenue peut nécessiter l’attention de l’opérateur. Pour pouvoir définir clairement les paramètres d’une alerte, il est indispensable de composer un ensemble de conditions d’alerte robustes et fiables.

Terminologie additionnelle

En explorant l’écosystème de surveillance, vous rencontrerez un ensemble de terminologies communes fréquemment utilisées pour discuter des caractéristiques des systèmes de surveillance, des données traitées et des différents compromis à prendre en compte. Bien que non exhaustive, la liste ci-dessous peut vous aider à vous familiariser avec certains des termes que vous êtes le plus susceptible de rencontrer.

* Observabilité *: Bien que cela ne soit pas strictement défini, l’observabilité est un terme général utilisé pour décrire les processus et les techniques permettant d’accroître la sensibilisation et la visibilité dans les systèmes. Cela peut inclure la surveillance, les métriques, la visualisation, le traçage et l’analyse des journaux.
* Ressource *: Dans le contexte des systèmes de surveillance et de logiciel, une ressource est toute dépendance épuisable ou limitée. Ce qui est considéré comme une ressource peut varier considérablement en fonction de la partie du système en cours de discussion.
* Latence *: La latence est une mesure du temps nécessaire pour terminer une action. Selon le composant, il peut s’agir d’une mesure du traitement, de la réponse ou du temps de déplacement.
* Débit *: Le débit représente le taux maximum de traitement ou de traversée qu’un système peut gérer. Cela peut dépendre de la conception du logiciel ou du matériel. Il existe souvent une distinction importante entre le débit théorique et le débit observé dans la pratique.
* Performance *: la performance est une mesure générale de l’efficacité avec laquelle un système achève son travail. La performance est un terme générique qui englobe souvent des facteurs de travail tels que le débit, la latence ou la consommation de ressources.
* Saturation *: La saturation est une mesure de la quantité de capacité utilisée. Une saturation complète indique que 100% de la capacité est actuellement utilisée.
* Visualisation *: la visualisation consiste à présenter les données de mesure dans un format permettant une interprétation rapide et intuitive au moyen de graphiques ou de diagrammes.
* Agrégation de journaux *: L’agrégation de journaux consiste à compiler, organiser et indexer les fichiers journaux pour faciliter la gestion, la recherche et l’analyse. Bien que distincts de la surveillance, les journaux agrégés peuvent être utilisés conjointement avec le système de surveillance pour identifier les causes et analyser les défaillances.
* Point de données *: Un point de données est une mesure unique d’une métrique.
* Jeu de données *: Un jeu de données est une collection de points de données pour une métrique.
* Unités *: Les unités constituent le contexte d’une valeur mesurée. Une unité définit la magnitude, l’étendue ou la quantité d’une mesure pour comprendre l’étendue et permettre la comparaison.
* Unités de pourcentage *: Les unités de pourcentage sont des mesures qui font partie d’un tout fini. Une unité de pourcentage indique combien une valeur est hors du montant total possible.
* Unités de tarification *: Les unités de tarification indiquent la magnitude d’une métrique sur une période de temps constante.
* Séries temporelles *: Les données de séries temporelles sont une série de points de données qui représentent les changements dans le temps. La plupart des mesures sont mieux représentées par une série chronologique, car des points de données uniques représentent souvent une valeur à un moment donné et la série de points résultante est utilisée pour afficher les modifications au fil du temps.
* Taux d’échantillonnage *: Le taux d’échantillonnage est une mesure de la fréquence à laquelle un point de données représentatif est collecté au lieu d’une collecte continue. Un taux d’échantillonnage plus élevé représente plus précisément le comportement mesuré, mais nécessite plus de ressources pour gérer les points de données supplémentaires.
* Résolution *: La résolution fait référence à la densité de points de données constituant un ensemble de données. Les collections avec des résolutions plus élevées sur la même période indiquent un taux d’échantillonnage plus élevé et une vue plus granulaire du même comportement.
* Instrumentation *: L’instrumentation est la capacité de suivre le comportement et les performances d’un logiciel. Ceci est accompli en ajoutant du code et une configuration au logiciel pour sortir des données qui peuvent ensuite être utilisées par un système de surveillance.
* L’effet observateur *: L’effet observateur est l’impact du système de surveillance sur les phénomènes observés. Étant donné que la surveillance utilise des ressources, le fait de mesurer le comportement et les performances modifiera les valeurs produites. Les systèmes de surveillance cherchent à éviter d’ajouter des frais généraux inutiles afin de minimiser cet impact.
* Sur-surveillance *: une sur-surveillance se produit lorsque la quantité de métriques et d’alertes configurées est inversement liée à leur utilité. Une surveillance excessive peut engendrer un stress sur l’infrastructure, rendre difficile la recherche de données pertinentes et provoquer la perte de confiance des équipes dans leurs systèmes de surveillance et d’alerte.
* Fatigue liée aux alertes *: La fatigue liée aux alertes correspond à la réaction humaine de désensibilisation résultant d’alertes fréquentes, peu fiables ou mal hiérarchisées. La fatigue des alertes peut amener les opérateurs à ignorer les problèmes graves et est généralement une indication que les conditions d’alerte doivent être réévaluées.
* Seuil *: lors d’une alerte, un seuil est la limite entre les valeurs acceptables et non acceptables qui déclenche une alerte en cas de dépassement. Les alertes sont souvent configurées pour se déclencher lorsqu’une valeur dépasse le seuil pendant une certaine période afin d’éviter l’envoi d’une alerte pour les pointes temporaires.
* Quantile *: Un quantile est un point de division utilisé pour séparer un jeu de données en groupes distincts en fonction de leurs valeurs. Les quantiles sont utilisés pour placer des valeurs dans des «compartiments» qui représentent des segments d’une population de données. Souvent, cela est utilisé pour séparer les valeurs communes des valeurs aberrantes afin de mieux comprendre ce qui constitue des cas représentatifs et extrêmes.
* Tendance *: Une tendance est la direction générale indiquée par un ensemble de valeurs. Les tendances sont plus fiables que les valeurs uniques pour déterminer l’état général du composant suivi.
* Surveillance par boîte blanche *: La surveillance par boîte blanche est un terme utilisé pour décrire la surveillance qui repose sur l’accès à l’état interne des composants mesurés. La surveillance par boîte blanche peut fournir une compréhension détaillée de l’état du système et est utile pour identifier les causes des problèmes.
* Surveillance Black-Box *: La surveillance Black-Box est une surveillance qui observe l’état externe d’un système ou d’un composant en ne regardant que ses entrées, ses sorties et son comportement. Ce type de surveillance peut s’aligner étroitement sur l’expérience utilisateur d’un système, mais est moins utile pour trouver la cause des problèmes.

Conclusion

La collecte de métriques, la surveillance des composants et la configuration des alertes constituent un élément essentiel de la configuration et de la gestion de l’infrastructure de production. Pouvoir savoir ce qui se passe dans vos systèmes, quelles ressources ont besoin d’attention et ce qui provoque un ralentissement ou une panne est inestimable. Bien que la conception et la mise en œuvre de votre configuration de surveillance puissent constituer un défi, il s’agit d’un investissement qui peut aider votre équipe à hiérarchiser ses travaux, à déléguer la responsabilité de la surveillance à un système automatisé et à comprendre l’impact de votre infrastructure et de vos logiciels sur votre stabilité et vos performances. .

TOC