Eine Einführung in Metriken, Überwachen und Warnen

Einführung

Um die Zuverlässigkeit und Stabilität Ihrer Dienste zu gewährleisten, müssen Sie unbedingt den Zustand Ihrer Infrastruktur und Systeme kennen. Informationen zum Zustand und zur Leistung Ihrer Bereitstellungen helfen Ihrem Team nicht nur, auf Probleme zu reagieren, sondern geben ihm auch die Sicherheit, Änderungen mit Zuversicht vorzunehmen. Eine der besten Möglichkeiten, diese Erkenntnisse zu gewinnen, ist ein robustes Überwachungssystem, das Messdaten sammelt, Daten visualisiert und Bediener benachrichtigt, wenn Probleme auftreten.

In diesem Handbuch werden Metriken, Überwachung und Warnungen erläutert. Wir werden darüber sprechen, warum sie wichtig sind, welche Arten von Möglichkeiten sie bieten und welche Art von Daten Sie möglicherweise verfolgen möchten. Wir werden auf diesem Weg einige Schlüsselbegriffe einführen und mit einem kurzen Glossar einiger anderer Begriffe enden, die Ihnen bei der Erkundung dieses Bereichs möglicherweise begegnen.

Was sind Metriken, Überwachung und Alarmierung?

Metriken, Überwachung und Alarmierung sind miteinander verknüpfte Konzepte, die zusammen die Grundlage eines Überwachungssystems bilden. Sie bieten Einblicke in den Zustand Ihrer Systeme, helfen Ihnen dabei, Trends in der Nutzung oder im Verhalten zu verstehen und die Auswirkungen der von Ihnen vorgenommenen Änderungen zu verstehen. Wenn die Messwerte außerhalb Ihres erwarteten Bereichs liegen, können diese Systeme Benachrichtigungen senden, um einen Bediener zum Überprüfen aufzufordern, und dann beim Auftauchen von Informationen helfen, um die möglichen Ursachen zu identifizieren.

In diesem Abschnitt beschäftigen wir uns mit diesen einzelnen Konzepten und wie sie zusammenpassen.

Was sind Metriken und warum sammeln wir sie?

Metriken stellen die Rohdaten der Ressourcennutzung oder des Verhaltens dar, die in Ihren Systemen beobachtet und gesammelt werden können. Dies können vom Betriebssystem bereitgestellte Zusammenfassungen der Nutzung auf niedriger Ebene oder Datentypen auf höherer Ebene sein, die an die spezifische Funktionalität oder Arbeit einer Komponente gebunden sind, z. B. Anfragen, die pro Sekunde gesendet werden, oder die Mitgliedschaft in einem Pool von Webservern. Einige Metriken werden in Bezug auf die Gesamtkapazität dargestellt, während andere als Rate dargestellt werden, die die „Betriebsbereitschaft“ einer Komponente angibt.

Am einfachsten ist es, zunächst die von Ihrem Betriebssystem bereitgestellten Metriken zu verwenden, um die Verwendung der zugrunde liegenden physischen Ressourcen darzustellen. Daten zu Speicherplatz, CPU-Auslastung, Auslagerungsnutzung usw. sind bereits vorhanden, liefern sofort Wert und können ohne großen Mehraufwand an ein Überwachungssystem weitergeleitet werden. Viele Webserver, Datenbankserver und andere Software stellen auch eigene Metriken zur Verfügung, die ebenfalls weitergeleitet werden können.

Für andere Komponenten, insbesondere für Ihre eigenen Anwendungen, müssen Sie möglicherweise Code oder Schnittstellen hinzufügen, um die Metriken anzuzeigen, die Sie interessieren. Das Sammeln und Anzeigen von Metriken wird manchmal als Hinzufügen von Instrumenten zu Ihren Diensten bezeichnet.

Metriken sind nützlich, da sie Einblicke in das Verhalten und den Zustand Ihrer Systeme bieten, insbesondere wenn sie in ihrer Gesamtheit analysiert werden. Sie stellen den Rohstoff dar, der von Ihrem Überwachungssystem verwendet wird, um eine ganzheitliche Sicht auf Ihre Umgebung zu erstellen, Reaktionen auf Änderungen zu automatisieren und Menschen zu alarmieren, wenn dies erforderlich ist. Metriken sind die grundlegenden Werte, mit denen Sie historische Trends verstehen, verschiedene Faktoren korrelieren und Änderungen Ihrer Leistung, Ihres Verbrauchs oder Ihrer Fehlerraten messen können.

Was ist Überwachung?

Während Metriken die Daten in Ihrem System darstellen, besteht das Überwachen darin, diese Werte zu sammeln, zu aggregieren und zu analysieren, um das Bewusstsein für die Eigenschaften und das Verhalten Ihrer Komponenten zu verbessern. Die Daten aus verschiedenen Teilen Ihrer Umgebung werden in einem * Überwachungssystem * gesammelt, das für die Speicherung, Aggregation, Visualisierung und Initiierung automatisierter Antworten zuständig ist, wenn die Werte bestimmten Anforderungen entsprechen.

Im Allgemeinen spiegelt der Unterschied zwischen Metriken und Überwachung den Unterschied zwischen Daten und Informationen wider. Daten bestehen aus rohen, unverarbeiteten Fakten, während Informationen durch Analysieren und Organisieren von Daten erzeugt werden, um einen Kontext zu erstellen, der Wert liefert. Bei der Überwachung werden Metrikdaten erfasst, aggregiert und auf verschiedene Weise dargestellt, sodass der Mensch aus der Sammlung einzelner Teile Erkenntnisse gewinnen kann.

Überwachungssysteme erfüllen viele verwandte Funktionen. Ihre erste Verantwortung besteht darin, eingehende und historische Daten zu akzeptieren und zu speichern. Während Werte, die den aktuellen Zeitpunkt darstellen, nützlich sind, ist es fast immer hilfreicher, diese Zahlen im Verhältnis zu früheren Werten anzuzeigen, um einen Kontext für Änderungen und Trends bereitzustellen. Dies bedeutet, dass ein Überwachungssystem in der Lage sein sollte, Daten über einen bestimmten Zeitraum hinweg zu verwalten, was die Erfassung oder Zusammenfassung älterer Daten umfassen kann.

Zweitens bieten Überwachungssysteme in der Regel Visualisierungen von Daten. Während Metriken als einzelne Werte oder Tabellen angezeigt und verstanden werden können, ist der Mensch viel besser in der Lage, Trends zu erkennen und zu verstehen, wie Komponenten zusammenpassen, wenn Informationen auf visuell aussagekräftige Weise organisiert werden. Überwachungssysteme repräsentieren normalerweise die Komponenten, die sie messen, mit konfigurierbaren Diagrammen und Dashboards. Dies ermöglicht es, das Zusammenspiel komplexer Variablen oder Änderungen innerhalb eines Systems durch einen Blick auf eine Anzeige zu verstehen.

Eine zusätzliche Funktion, die Überwachungssysteme bieten, ist das Organisieren und Korrelieren von Daten aus verschiedenen Eingaben. Damit die Metriken nützlich sind, müssen Administratoren in der Lage sein, Muster zwischen verschiedenen Ressourcen und zwischen Servergruppen zu erkennen. Wenn eine Anwendung beispielsweise einen Anstieg der Fehlerraten feststellt, sollte ein Administrator in der Lage sein, mithilfe des Überwachungssystems festzustellen, ob dieses Ereignis mit der Kapazitätsauslastung einer verwandten Ressource zusammenfällt.

Schließlich werden Überwachungssysteme in der Regel als Plattform zum Definieren und Aktivieren von Warnungen verwendet, auf die im Folgenden eingegangen wird.

Was ist Alarmierung?

Alerting ist die reaktionsschnelle Komponente eines Überwachungssystems, das Aktionen basierend auf Änderungen der Metrikwerte ausführt. Warnungsdefinitionen bestehen aus zwei Komponenten: einer metrikbasierten Bedingung oder einem Schwellenwert und einer auszuführenden Aktion, wenn die Werte außerhalb der zulässigen Bedingungen liegen.

Überwachungssysteme sind unglaublich nützlich für die aktive Interpretation und Untersuchung. Einer der Hauptvorteile eines vollständigen Überwachungssystems besteht darin, dass Administratoren sich vom System lösen können. Mithilfe von Warnungen können Sie Situationen definieren, in denen eine aktive Verwaltung sinnvoll ist, während Sie sich auf die passive Überwachung der Software verlassen, um auf sich ändernde Bedingungen zu achten.

Während die Benachrichtigung der Verantwortlichen die häufigste Maßnahme zur Alarmierung ist, können einige programmgesteuerte Reaktionen auch auf der Grundlage von Schwellenwertverletzungen ausgelöst werden. Beispielsweise kann eine Warnung, die angibt, dass Sie mehr CPU benötigen, um die aktuelle Last zu verarbeiten, mit einem Skript beantwortet werden, das diese Ebene Ihrer Anwendung automatisch skaliert. Dies ist zwar keine reine Warnung, da dies nicht zu einer Benachrichtigung führt, aber derselbe Überwachungssystemmechanismus kann häufig auch zum Starten dieser Prozesse verwendet werden.

Der Hauptzweck der Warnung besteht jedoch darin, die Aufmerksamkeit des Menschen auf den aktuellen Status Ihrer Systeme zu lenken. Die Automatisierung von Antworten ist ein wichtiger Mechanismus, um sicherzustellen, dass Benachrichtigungen nur in Situationen ausgelöst werden, die eine Berücksichtigung durch einen sachkundigen Menschen erfordern. Die Warnung selbst sollte Informationen darüber enthalten, was falsch ist und wo Sie zusätzliche Informationen finden können. Die Person, die auf die Warnung reagiert, kann dann das Überwachungssystem und die zugehörigen Tools wie Protokolldateien verwenden, um die Ursache des Problems zu untersuchen und eine Abhilfemaßnahme zu implementieren.

Infrastrukturen mit moderater Komplexität erfordern eine Unterscheidung des Schweregrads der Alarme, damit die verantwortlichen Teams oder Einzelpersonen mithilfe von Methoden benachrichtigt werden können, die dem Ausmaß des Problems entsprechen. Beispielsweise kann eine zunehmende Speichernutzung ein Arbeitsticket oder eine E-Mail rechtfertigen, während eine Erhöhung der Fehlerquoten bei Kunden oder die Nichtbeantwortung möglicherweise das Senden einer Seite an Bereitschaftsmitarbeiter erforderlich macht.

Welche Art von Informationen ist wichtig, um zu verfolgen?

Die Arten von Werten, die Sie überwachen, und die Informationen, die Sie nachverfolgen, werden sich wahrscheinlich mit der Entwicklung Ihrer Infrastruktur ändern. Da Systeme in der Regel hierarchisch funktionieren und komplexere Ebenen auf primitiveren Infrastrukturen aufbauen, kann es hilfreich sein, bei der Planung Ihrer Überwachungsstrategie über die auf diesen verschiedenen Ebenen verfügbaren Metriken nachzudenken.

Hostbasierte Metriken

Ganz unten in der Hierarchie der primitiven Metriken befinden sich hostbasierte Indikatoren. Dies wäre alles, was bei der Bewertung des Zustands oder der Leistung einer einzelnen Maschine erforderlich ist, wobei die Anwendungsstapel und -services für den Moment unberücksichtigt bleiben. Diese umfassen hauptsächlich die Nutzung oder Leistung des Betriebssystems oder der Hardware, wie z.

CPU
Erinnerung
Festplattenplatz
Prozesse

Diese können Ihnen einen Eindruck von Faktoren vermitteln, die sich auf die Fähigkeit eines einzelnen Computers auswirken können, stabil zu bleiben oder Arbeiten auszuführen.

Anwendungsmetriken

Die nächste Kategorie von Metriken, die Sie sich ansehen möchten, sind Anwendungsmetriken. Hierbei handelt es sich um Metriken für Verarbeitungseinheiten oder Arbeitseinheiten, die von Ressourcen auf Hostebene abhängen, z. B. Dienste oder Anwendungen. Welche Arten von Metriken angezeigt werden, hängt davon ab, was der Service bereitstellt, welche Abhängigkeiten er hat und mit welchen anderen Komponenten er interagiert. Metriken auf dieser Ebene sind Indikatoren für den Zustand, die Leistung oder die Auslastung einer Anwendung:

Fehler- und Erfolgsquoten
Dienstfehler und Neustart
Leistung und Latenz der Antworten
Ressourcennutzung

Mithilfe dieser Indikatoren können Sie feststellen, ob eine Anwendung ordnungsgemäß und effizient funktioniert.

Netzwerk- und Konnektivitätsmetriken

Für die meisten Arten von Infrastrukturen sind Netzwerk- und Konnektivitätsindikatoren ein weiterer Datensatz, der es wert ist, untersucht zu werden. Dies ist ein wichtiges Maß für die nach außen gerichtete Verfügbarkeit, es ist jedoch auch wichtig, um sicherzustellen, dass Dienste für andere Computer für alle Systeme verfügbar sind, die mehr als einen Computer umfassen. Wie bei den anderen Metriken, die wir bisher erörtert haben, sollten Netzwerke auf ihre allgemeine Funktionskorrektheit und ihre Fähigkeit überprüft werden, die erforderliche Leistung zu erbringen, indem Folgendes untersucht wird:

Konnektivität
Fehlerraten und Paketverlust
Latenz
Bandbreitennutzung

Durch die Überwachung Ihrer Netzwerkschicht können Sie die Verfügbarkeit und Reaktionsfähigkeit Ihrer internen und externen Dienste verbessern.

Server-Pool-Metriken

Wenn Sie sich mit horizontal skalierter Infrastruktur befassen, müssen Sie als weitere Infrastrukturebene Metriken für Serverpools hinzufügen. Während Metriken zu einzelnen Servern nützlich sind, wird ein Dienst im Maßstab besser als die Fähigkeit einer Sammlung von Maschinen dargestellt, Arbeit zu leisten und angemessen auf Anforderungen zu reagieren. Diese Art von Metrik ist in vielerlei Hinsicht nur eine Extrapolation von Anwendungs- und Servermetriken auf höherer Ebene. In diesem Fall sind die Ressourcen jedoch homogene Server anstelle von Komponenten auf Maschinenebene. Einige Daten, die Sie möglicherweise verfolgen möchten, sind:

Gepoolte Ressourcennutzung
Skalierungsanpassungsindikatoren
Verschlechterte Instanzen

Das Sammeln von Daten, die den Zustand von Serversammlungen zusammenfassen, ist wichtig, um die tatsächlichen Fähigkeiten Ihres Systems zu verstehen, mit der Last umzugehen und auf Änderungen zu reagieren.

Externe Abhängigkeitsmetriken

Andere Metriken, die Sie möglicherweise zu Ihrem System hinzufügen möchten, beziehen sich auf externe Abhängigkeiten. Häufig bieten Services Statusseiten oder eine API zum Erkennen von Service-Ausfällen. Durch Verfolgen dieser Seiten in Ihren eigenen Systemen sowie Ihrer tatsächlichen Interaktionen mit dem Service können Sie Probleme mit Ihren Providern identifizieren, die sich auf Ihren Betrieb auswirken können. Einige Elemente, die möglicherweise für die Verfolgung auf dieser Ebene relevant sind, sind:

Servicestatus und Verfügbarkeit
Erfolgs- und Fehlerquoten
Run Rate und Betriebskosten
Erschöpfung der Ressourcen

Es gibt viele andere Arten von Metriken, deren Erfassung hilfreich sein kann. Durch die Konzeption der wichtigsten Informationen auf verschiedenen Fokusebenen können Sie Indikatoren identifizieren, die für die Vorhersage oder Identifizierung von Problemen am nützlichsten sind. Beachten Sie, dass die wertvollsten Metriken auf höheren Ebenen wahrscheinlich Ressourcen sind, die von niedrigeren Ebenen bereitgestellt werden.

Faktoren, die sich auf die Überwachung auswirken

In einer idealen Welt würden Sie alles, was mit Ihren Systemen zu tun hat, von Anfang an nachverfolgen, falls ein Artikel eines Tages für Sie relevant sein sollte. Es gibt jedoch viele Gründe, warum dies möglicherweise nicht möglich oder sogar wünschenswert ist.

Einige Faktoren, die Einfluss darauf haben können, was Sie sammeln und wie Sie vorgehen, sind:

* Ressourcen für die Nachverfolgung verfügbar *: Abhängig von Ihren Personalressourcen, Ihrer Infrastruktur und Ihrem Budget müssen Sie den Umfang Ihrer Nachverfolgung auf das beschränken, was Sie sich leisten können, um es zu implementieren und vernünftig zu verwalten.
* Die Komplexität und der Zweck Ihrer Anwendung *: Die Komplexität Ihrer Anwendung oder Ihrer Systeme kann einen großen Einfluss darauf haben, was Sie nachverfolgen möchten. Elemente, die für manche Software von entscheidender Bedeutung sein können, sind in anderen möglicherweise überhaupt nicht wichtig.
* Die Bereitstellungsumgebung *: Während eine zuverlässige Überwachung für Produktionssysteme am wichtigsten ist, profitieren auch Staging- und Testsysteme von der Überwachung, auch wenn Unterschiede im Schweregrad, der Granularität und den gemessenen Gesamtmetriken auftreten können.
* Die Wahrscheinlichkeit, dass die Metrik nützlich ist *: Einer der wichtigsten Faktoren, die die Messung beeinflussen, ist das Potenzial, in Zukunft zu helfen. Jede zusätzliche nachverfolgte Metrik erhöht die Komplexität des Systems und beansprucht Ressourcen. Die Notwendigkeit von Daten kann sich auch im Laufe der Zeit ändern und eine regelmäßige Neubewertung erforderlich machen.
* Wie wichtig Stabilität ist *: Einfach ausgedrückt, Stabilität und Betriebszeit sind für bestimmte Arten von persönlichen Projekten oder Projekten in der Frühphase möglicherweise keine Prioritäten.

Die Faktoren, die Ihre Entscheidungen beeinflussen, hängen von Ihren verfügbaren Ressourcen, dem Reifegrad Ihres Projekts und dem von Ihnen benötigten Servicelevel ab.

Wichtige Eigenschaften eines Metrik-, Überwachungs- und Warnsystems

Während jede Überwachungsanwendung oder jeder Überwachungsdienst seine Stärken und Schwächen hat, haben die besten Optionen oft einige wichtige Eigenschaften gemeinsam. Einige der wichtigsten Merkmale, die bei der Bewertung von Überwachungssystemen zu beachten sind, sind nachstehend aufgeführt.

Unabhängig von den meisten anderen Infrastrukturen

Eine der grundlegendsten Anforderungen eines angemessenen Überwachungssystems besteht darin, sich außerhalb anderer Dienste zu befinden. Während es manchmal nützlich ist, Dienste zu gruppieren, bedeutet die Hauptverantwortung eines Überwachungssystems, seine Hilfsbereitschaft bei der Diagnose von Problemen und seine Beziehung zu den überwachten Systemen, dass es wichtig ist, dass Ihr Überwachungssystem unabhängig zugänglich ist. Ihr Überwachungssystem wird sich zwangsläufig auf die überwachten Systeme auswirken. Sie sollten jedoch darauf achten, dies auf ein Minimum zu beschränken, um die Auswirkungen Ihrer Nachverfolgung auf die Leistung zu verringern und die Zuverlässigkeit Ihrer Überwachung bei anderen Systemproblemen zu erhöhen.

Zuverlässig und vertrauenswürdig

Eine weitere Grundvoraussetzung ist die Zuverlässigkeit. Da ein Überwachungssystem für das Sammeln, Speichern und Bereitstellen des Zugriffs auf wertvolle Informationen verantwortlich ist, ist es wichtig, dass Sie darauf vertrauen können, dass es täglich ordnungsgemäß funktioniert. Abgebrochene Messdaten, Serviceausfälle und unzuverlässige Warnungen können sich unmittelbar nachteilig auf Ihre Fähigkeit auswirken, Ihre Infrastruktur effektiv zu verwalten. Dies gilt nicht nur für die Zuverlässigkeit der Kernsoftware, sondern auch für die Konfiguration, die Sie aktivieren, da Fehler wie ungenaue Warnungen zu einem Vertrauensverlust in das System führen können.

Einfach zu verwendende Zusammenfassungs- und Detailansichten

Die Möglichkeit, Zusammenfassungen auf hoher Ebene anzuzeigen und bei Bedarf mehr Details anzufordern, ist eine wichtige Funktion, um sicherzustellen, dass die Metrikdaten für menschliche Bediener nützlich und konsumierbar sind. Durch das Entwerfen von Dashboards, in denen die am häufigsten angezeigten Daten sofort verständlich dargestellt werden, können Benutzer den Systemstatus auf einen Blick erkennen. Es können viele verschiedene Dashboard-Ansichten für verschiedene Auftragsfunktionen oder Interessenbereiche erstellt werden.

Ebenso wichtig ist die Möglichkeit, einen Drilldown in Übersichtsanzeigen durchzuführen, um die für die aktuelle Aufgabe relevantesten Informationen anzuzeigen. Das dynamische Anpassen des Maßstabs von Diagrammen, das Ausschalten unnötiger Metriken und das Überlagern von Informationen aus mehreren Systemen ist unerlässlich, damit das Tool interaktiv für Untersuchungen oder Ursachenanalysen eingesetzt werden kann.

Effektive Strategie zur Pflege historischer Daten

Ein Überwachungssystem ist am nützlichsten, wenn es über eine umfangreiche Datenhistorie verfügt, mit deren Hilfe Trends, Muster und Konsistenzen über lange Zeiträume hinweg ermittelt werden können. Während im Idealfall alle Informationen unbegrenzt in ihrer ursprünglichen Granularität erhalten bleiben, können es Kosten- und Ressourcenbeschränkungen manchmal erforderlich machen, ältere Daten mit einer reduzierten Auflösung zu speichern. Überwachungssysteme mit der Flexibilität, mit Daten sowohl in vollständiger Granularität als auch in einem abgetasteten Format zu arbeiten, bieten eine größere Auswahl an Optionen für den Umgang mit einer ständig wachsenden Datenmenge.

Eine verwandte, hilfreiche Funktion ist das einfache Importieren vorhandener Datensätze. Wenn die Reduzierung der Informationsdichte Ihrer historischen Messdaten keine attraktive Option ist, ist das Auslagern älterer Daten auf eine Langzeitspeicherlösung möglicherweise die bessere Alternative. In diesem Fall müssen Sie keine älteren Daten im System verwalten, sondern müssen sie in der Lage sein, in großen Mengen neu zu laden, wenn Sie sie analysieren oder verwenden möchten.

In der Lage, Faktoren aus verschiedenen Quellen zu korrelieren

Das Überwachungssystem ist für die Bereitstellung einer ganzheitlichen Ansicht Ihrer gesamten Infrastruktur verantwortlich. Daher muss es in der Lage sein, verwandte Informationen anzuzeigen, auch wenn diese von unterschiedlichen Systemen stammen oder unterschiedliche Merkmale aufweisen. Administratoren sollten in der Lage sein, Informationen aus unterschiedlichen Teilen ihres Systems nach Belieben zusammenzufügen, um mögliche Interaktionen und den Gesamtstatus in der gesamten Infrastruktur zu verstehen. Die systemübergreifende Konfiguration der Zeitsynchronisierung ist eine Grundvoraussetzung für die zuverlässige Korrelation von Daten aus verschiedenen Systemen.

Einfache Erfassung neuer Metriken oder Infrastrukturen

Damit Ihr Überwachungssystem eine genaue Darstellung Ihrer Systeme darstellt, müssen Sie in der Lage sein, Anpassungen vorzunehmen, wenn sich die Maschinen und die Infrastruktur ändern. Ein Minimum an Reibung beim Hinzufügen zusätzlicher Maschinen hilft Ihnen dabei. Ebenso wichtig ist die Möglichkeit, stillgelegte Maschinen einfach zu entfernen, ohne die damit verbundenen gesammelten Daten zu zerstören. Das System sollte diese Vorgänge so einfach wie möglich gestalten, um das Einrichten der Überwachung als Teil der Instanzbereitstellung oder des Stilllegungsprozesses zu fördern.

Eine verwandte Fähigkeit, die wichtig ist, ist die Leichtigkeit, mit der das Überwachungssystem eingerichtet werden kann, um völlig neue Metriken zu verfolgen. Dies hängt von der Art und Weise ab, wie Metriken in der Kernüberwachungskonfiguration definiert sind, sowie von der Vielfalt und Qualität der verfügbaren Mechanismen, um Metrikdaten an das System zu senden. Das Definieren neuer Metriken ist in der Regel komplexer als das Hinzufügen zusätzlicher Maschinen. Wenn Sie jedoch die Komplexität des Hinzufügens oder Anpassens von Metriken verringern, kann Ihr Team in einem angemessenen Zeitrahmen auf sich ändernde Anforderungen reagieren.

Flexible und leistungsstarke Alarmierung

Einer der wichtigsten Aspekte eines zu bewertenden Überwachungssystems sind seine Warnfunktionen. Abgesehen von sehr strengen Zuverlässigkeitsanforderungen muss das Warnsystem flexibel genug sein, um Bediener über mehrere Medien zu benachrichtigen, und leistungsfähig genug sein, um durchdachte, umsetzbare Benachrichtigungsauslöser zu erstellen. Viele Systeme übernehmen keine Verantwortung für die Zustellung von Benachrichtigungen an andere Parteien, indem sie Integrationen mit vorhandenen Paging-Diensten oder Messenger-Anwendungen anbieten. Dies minimiert die Verantwortung für die Warnfunktionen und bietet in der Regel flexiblere Optionen, da das Plugin nur eine externe API verwenden muss.

Der Teil, den das Überwachungssystem jedoch nicht verschieben kann, definiert die Alarmierungsparameter. Warnungen werden basierend auf Werten definiert, die außerhalb des zulässigen Bereichs liegen. Die Definitionen können jedoch einige Nuancen erfordern, um eine Überwarnung zu vermeiden. Zum Beispiel sind kurzzeitige Spitzen oft kein Problem, aber eine anhaltend hohe Belastung kann die Aufmerksamkeit des Bedieners erfordern. Die Möglichkeit, die Parameter für eine Warnung eindeutig zu definieren, ist eine Voraussetzung für die Erstellung einer zuverlässigen und vertrauenswürdigen Gruppe von Warnungsbedingungen.

Zusätzliche Terminologie

Wenn Sie das Überwachungsökosystem erkunden, werden Sie auf eine Reihe gemeinsamer Begriffe stoßen, die häufig verwendet werden, um die Merkmale von Überwachungssystemen, die verarbeiteten Daten und verschiedene zu berücksichtigende Kompromisse zu erörtern. Die folgende Liste ist in keiner Weise erschöpfend und kann Ihnen dabei helfen, einige der Begriffe vorzustellen, auf die Sie am wahrscheinlichsten stoßen.

* Beobachtbarkeit *: Obwohl nicht genau definiert, ist Beobachtbarkeit ein allgemeiner Begriff, der zur Beschreibung von Prozessen und Techniken im Zusammenhang mit der Erhöhung des Bewusstseins und der Sichtbarkeit von Systemen verwendet wird. Dies kann Überwachung, Metrik, Visualisierung, Nachverfolgung und Protokollanalyse umfassen.
* Ressource *: Im Kontext von Überwachungs- und Softwaresystemen ist eine Ressource eine erschöpfbare oder begrenzte Abhängigkeit. Was als Ressource betrachtet wird, kann je nach Teil des diskutierten Systems sehr unterschiedlich sein.
* Latenz *: Die Latenz ist ein Maß für die Zeit, die zum Ausführen einer Aktion benötigt wird. Abhängig von der Komponente kann dies ein Maß für die Verarbeitung, die Antwort oder die Fahrzeit sein.
* Durchsatz *: Der Durchsatz gibt die maximale Verarbeitungs- oder Durchlaufrate an, die ein System verarbeiten kann. Dies kann vom Software- oder Hardware-Design abhängig sein. Oft gibt es einen wichtigen Unterschied zwischen theoretischem und praktisch beobachtetem Durchsatz.
* Leistung *: Die Leistung ist ein allgemeines Maß dafür, wie effizient ein System die Arbeit erledigt. Leistung ist ein Überbegriff, der häufig Arbeitsfaktoren wie Durchsatz, Latenz oder Ressourcenverbrauch umfasst.
* Sättigung *: Die Sättigung ist ein Maß für die verwendete Kapazität. Die vollständige Sättigung zeigt an, dass 100% der Kapazität derzeit belegt sind.
* Visualisierung *: Bei der Visualisierung werden Messdaten in einem Format dargestellt, das eine schnelle und intuitive Interpretation durch Grafiken oder Diagramme ermöglicht.
* Protokollaggregation *: Bei der Protokollaggregation werden Protokolldateien kompiliert, organisiert und indiziert, um die Verwaltung, Suche und Analyse zu vereinfachen. Unabhängig von der Überwachung können aggregierte Protokolle in Verbindung mit dem Überwachungssystem verwendet werden, um Ursachen zu identifizieren und Fehler zu untersuchen.
* Datenpunkt *: Ein Datenpunkt ist eine einzelne Messung einer einzelnen Metrik.
* Datensatz *: Ein Datensatz ist eine Sammlung von Datenpunkten für eine Metrik.
* Einheiten *: Einheiten sind der Kontext für einen gemessenen Wert. Eine Einheit definiert die Größe, den Umfang oder die Menge einer Messung, um das Ausmaß zu verstehen und einen Vergleich zu ermöglichen.
* Prozenteinheiten *: Prozenteinheiten sind Maßeinheiten, die als Teil eines endlichen Ganzen genommen werden. Eine prozentuale Einheit gibt an, wie viel ein Wert von der insgesamt möglichen Menge abweicht.
* Rate Units *: Rate Units geben die Größe einer Metrik über einen konstanten Zeitraum an.
* Zeitreihe *: Zeitreihendaten sind eine Reihe von Datenpunkten, die zeitliche Änderungen darstellen. Die meisten Metriken werden am besten durch eine Zeitreihe dargestellt, da einzelne Datenpunkte häufig einen Wert zu einem bestimmten Zeitpunkt darstellen und die resultierende Reihe von Punkten verwendet wird, um Änderungen im Zeitverlauf anzuzeigen.
* Abtastrate *: Die Abtastrate ist ein Maß dafür, wie oft ein repräsentativer Datenpunkt anstelle einer kontinuierlichen Erfassung erfasst wird. Eine höhere Abtastrate stellt das gemessene Verhalten genauer dar, erfordert jedoch mehr Ressourcen für die Verarbeitung der zusätzlichen Datenpunkte.
* Auflösung *: Die Auflösung bezieht sich auf die Dichte der Datenpunkte, aus denen ein Datensatz besteht. Sammlungen mit höheren Auflösungen im selben Zeitraum weisen auf eine höhere Abtastrate und eine detailliertere Ansicht desselben Verhaltens hin.
* Instrumentation *: Instrumentation ist die Fähigkeit, das Verhalten und die Leistung von Software zu verfolgen. Dies wird erreicht, indem der Software Code und Konfiguration hinzugefügt werden, um Daten auszugeben, die dann von einem Überwachungssystem verarbeitet werden können.
* Der Beobachter-Effekt *: Der Beobachter-Effekt ist der Einfluss des Überwachungssystems auf die beobachteten Phänomene. Da die Überwachung Ressourcen beansprucht, werden durch das Messen des Verhaltens und der Leistung die ermittelten Werte geändert. Überwachungssysteme vermeiden unnötigen Overhead, um diese Auswirkungen zu minimieren.
* Überüberwachung *: Überüberwachung tritt auf, wenn die Menge der konfigurierten Metriken und Warnungen in einem umgekehrten Verhältnis zu deren Nützlichkeit steht. Übermäßige Überwachung kann die Infrastruktur belasten, das Auffinden relevanter Daten erschweren und dazu führen, dass Teams das Vertrauen in ihre Überwachungs- und Warnsysteme verlieren.
* Alarmermüdung *: Alarmermüdung ist die menschliche Reaktion auf Desensibilität, die aus häufigen, unzuverlässigen oder falsch priorisierten Alarmen resultiert. Alarmermüdung kann dazu führen, dass Bediener schwerwiegende Probleme ignorieren. Dies ist normalerweise ein Hinweis darauf, dass die Alarmbedingungen neu bewertet werden müssen.
* Schwelle *: Bei einer Warnung ist eine Schwelle die Grenze zwischen akzeptablen und nicht akzeptablen Werten, die bei Überschreitung eine Warnung auslöst. Oft werden Warnungen so konfiguriert, dass sie ausgelöst werden, wenn ein Wert für einen bestimmten Zeitraum den Schwellenwert überschreitet, um zu vermeiden, dass eine Warnung für temporäre Spitzen gesendet wird.
* Quantil *: Ein Quantil ist ein Teilungspunkt, mit dem ein Datensatz anhand seiner Werte in verschiedene Gruppen unterteilt wird. Quantile werden verwendet, um Werte in "Buckets" zu setzen, die Segmente einer Datenpopulation darstellen. Oft wird dies verwendet, um gemeinsame Werte von Ausreißern zu trennen, um besser zu verstehen, was repräsentative und extreme Fälle darstellt.
* Trend *: Ein Trend ist die allgemeine Richtung, die eine Reihe von Werten angibt. Trends sind zuverlässiger als einzelne Werte, wenn es darum geht, den allgemeinen Zustand der zu verfolgenden Komponente zu bestimmen.
* White-Box-Überwachung *: Der Begriff "White-Box-Überwachung" beschreibt die Überwachung, die auf dem Zugriff auf den internen Status der zu messenden Komponenten beruht. Die White-Box-Überwachung bietet ein detailliertes Verständnis des Systemzustands und ist hilfreich, um die Ursachen von Problemen zu identifizieren.
* Black-Box-Überwachung *: Bei der Black-Box-Überwachung wird der externe Zustand eines Systems oder einer Komponente überwacht, indem nur die Eingänge, Ausgänge und das Verhalten überprüft werden. Diese Art der Überwachung kann sich eng an die Benutzererfahrung eines Systems anpassen, ist jedoch weniger nützlich, um die Ursache von Problemen zu finden.

Fazit

Das Erfassen von Metriken, Überwachen von Komponenten und Konfigurieren von Warnungen ist ein wesentlicher Bestandteil der Einrichtung und Verwaltung der Produktionsinfrastruktur. Es ist von unschätzbarem Wert festzustellen, was in Ihren Systemen vor sich geht, welche Ressourcen Aufmerksamkeit erfordern und was zu einer Verlangsamung oder einem Ausfall führt. Während das Entwerfen und Implementieren Ihrer Überwachungskonfiguration eine Herausforderung sein kann, ist es eine Investition, die Ihrem Team dabei helfen kann, Prioritäten für ihre Arbeit zu setzen, die Verantwortung für die Überwachung auf ein automatisiertes System zu delegieren und die Auswirkungen Ihrer Infrastruktur und Software auf Ihre Stabilität und Leistung zu verstehen .

TOC