Überwachung und Alarmierung in die Praxis umsetzen

Einführung

Überwachungssysteme erhöhen die Transparenz Ihrer Infrastruktur und Anwendungen und definieren akzeptable Leistungs- und Zuverlässigkeitsbereiche. Wenn Sie wissen, welche Komponenten gemessen werden müssen und welche Metriken für die verschiedenen Szenarien am besten geeignet sind, können Sie mit der Planung einer Überwachungsstrategie beginnen, die alle kritischen Teile Ihrer Services abdeckt. In unserem Leitfaden zugathering metrics from your infrastructure and applications haben wir ein beliebtes Framework zur Identifizierung hochwertiger Metriken eingeführt und anschließend eine Bereitstellung in Ebenen unterteilt, um zu diskutieren, was in verschiedenen Phasen erfasst werden soll.

In diesem Handbuch werden die Komponenten eines Überwachungssystems und deren Verwendung zur Implementierung Ihrer Überwachungsstrategie erläutert. Wir werden zunächst die grundlegenden Verantwortlichkeiten eines wirksamen und zuverlässigen Überwachungssystems überprüfen. Anschließend wird erläutert, wie die Elemente eines Überwachungssystems diese funktionalen Anforderungen erfüllen. Anschließend werden wir erläutern, wie Sie Ihre Überwachungsrichtlinien am besten in Dashboards und Warnrichtlinien umsetzen können, die Ihrem Team die erforderlichen Informationen liefern, ohne zu ungerechtfertigten Zeiten um ihre Aufmerksamkeit zu bitten.

Überprüfung wichtiger Eigenschaften eines Metrik-, Überwachungs- und Warnsystems

In einem der letzten Abschnitte unseres Leitfadens zuintroduction to metrics, monitoring, and alertinghaben wir einige vonthe most important qualities of an effective monitoring systembesprochen. Da wir uns in Kürze mit den Kernkomponenten dieser Systeme befassen, ist es hilfreich, die Eigenschaften zu überprüfen, die wir als nützlich oder notwendig identifiziert haben:

Independent from Most Other Infrastructure: Um Daten genau zu erfassen und negative Auswirkungen auf die Leistung zu vermeiden, sollten die meisten Überwachungskomponenten dedizierte Ressourcen verwenden, die von anderen Anwendungen getrennt sind.
Reliable and Trustworthy: Da die Überwachung zur Beurteilung des Zustands anderer Systeme verwendet wird, ist es wichtig sicherzustellen, dass das Überwachungssystem selbst korrekt und verfügbar ist.
Easy to Use Summary and Detail Views: Daten sind nicht nützlich, wenn sie nicht verständlich oder umsetzbar sind. Es ist unglaublich wertvoll, den Bedienern zu ermöglichen, Zusammenfassungsansichten anzuzeigen und dann weitere Details in wichtigen Bereichen zu ermitteln.
Effective Strategy for Maintaining Historical Data: Es ist wichtig zu verstehen, wie typische Muster aussehen, um Anomalien zu erkennen. Über längere Zeiträume kann dies den Zugriff auf ältere Daten erfordern, die Ihr System abrufen und darauf zugreifen kann.
Able to Correlate Factors from Different Sources: Die organisierte Anzeige von Informationen aus unterschiedlichen Teilen Ihrer Bereitstellungen ist wichtig, um Muster und korrelierte Faktoren zu identifizieren.
Easy to Start Tracking New Metrics or Infrastructure: Ihr Überwachungssystem muss sich weiterentwickeln, wenn sich Ihre Anwendungen und Infrastruktur ändern. Eine veraltete oder unvollständige Überwachungsabdeckung verringert das Vertrauen in Ihre Werkzeuge und Daten.
Flexible and Powerful Alerting: Die Warnfunktion muss in der Lage sein, Benachrichtigungen in einer Vielzahl von Kanälen und Prioritäten zu senden, abhängig von den von Ihnen definierten Bedingungen.

Schauen wir uns unter Berücksichtigung dieser Attribute an, was ein Überwachungssystem ausmacht.

Teile eines Überwachungssystems

Überwachungssysteme bestehen aus einigen verschiedenen Komponenten und Schnittstellen, die zusammenarbeiten, um den Zustand Ihrer Bereitstellung zu erfassen, zu visualisieren und darüber zu berichten. Wir werden die grundlegenden Einzelteile im Folgenden behandeln.

Verteilte Überwachungsagenten und Datenexporteure

Während der Großteil des Überwachungssystems möglicherweise auf einem oder mehreren dedizierten Servern bereitgestellt wird, müssen Daten aus vielen verschiedenen Quellen in Ihrer gesamten Infrastruktur gesammelt werden. Zu diesem Zweck wird auf jedem einzelnen Computer im gesamten Netzwerk ein Überwachungsagent installiert, eine kleine Anwendung zum Erfassen und Weiterleiten von Daten an einen Erfassungsendpunkt. Diese Agenten erfassen Statistiken und Nutzungsmetriken auf dem Host, auf dem sie installiert sind, und senden sie an die zentrale Überwachungssoftware.

Agenten werden auf jedem Host im gesamten System als ständig aktive Daemons ausgeführt. Sie können eine Basiskonfiguration zur sicheren Authentifizierung beim Remote-Datenendpunkt, zur Definition der Datenfrequenz oder der Stichprobenrichtlinien und zur Festlegung eindeutiger Kennungen für die Hostdaten enthalten. Um die Auswirkungen auf andere Dienste zu verringern, muss der Agent nur minimale Ressourcen verwenden und mit wenig oder gar keiner Verwaltung arbeiten können. Im Idealfall sollte es einfach sein, einen Agenten auf einem neuen Knoten zu installieren und Metriken an das zentrale Überwachungssystem zu senden.

Überwachungsagenten erfassen in der Regel allgemeine Messdaten auf Host-Ebene. Es stehen jedoch auch Agenten zur Überwachung von Software wie Web- oder Datenbankservern zur Verfügung. Für die meisten speziellen Softwaretypen müssen Daten jedoch gesammelt und exportiert werden, indem entweder die Software selbst geändert oder ein eigener Agent erstellt wird, indem ein Dienst erstellt wird, der die Statusendpunkte oder Protokolleinträge der Software analysiert. Viele gängige Überwachungslösungen verfügen über Bibliotheken, mit denen Sie Ihre Dienste einfacher mit benutzerdefinierten Instrumenten ausstatten können. Wie bei der Agentensoftware muss darauf geachtet werden, dass Ihre benutzerdefinierten Lösungen möglichst wenig Speicherplatz beanspruchen, um die Integrität oder Leistung Ihrer Anwendungen nicht zu beeinträchtigen.

Bisher haben wir einige Annahmen zu einer Push-basierten Architektur für die Überwachung getroffen, bei der die Agenten Daten an einen zentralen Ort übertragen. Es sind jedoch auch Ausführungen auf Pull-Basis erhältlich. In Pull-basierten Überwachungssystemen sind einzelne Hosts dafür verantwortlich, Metriken in einem bekannten Format an einem zugänglichen Endpunkt zu sammeln, zu aggregieren und bereitzustellen. Der Überwachungsserver fragt den Metrikendpunkt auf jedem Host ab, um die Metrikdaten zu erfassen. Die Software, die die Daten über den Endpunkt sammelt und präsentiert, hat viele der gleichen Anforderungen wie ein Agent, erfordert jedoch häufig weniger Konfiguration, da sie nicht wissen muss, wie auf andere Computer zugegriffen werden soll.

Metrikeintritt

Einer der beschäftigtsten Teile eines Überwachungssystems zu einem bestimmten Zeitpunkt ist die Metrik-Eingangskomponente. Da ständig Daten generiert werden, muss der Erfassungsprozess robust genug sein, um ein hohes Aktivitätsvolumen zu bewältigen, und mit der Speicherschicht koordiniert werden, um die eingehenden Daten korrekt aufzuzeichnen.

Bei Push-basierten Systemen ist der Messdateneingangsendpunkt ein zentraler Ort im Netzwerk, an den jeder Überwachungsagent oder Statistikaggregator seine gesammelten Daten sendet. Der Endpunkt sollte in der Lage sein, Daten von einer großen Anzahl von Hosts gleichzeitig zu authentifizieren und zu empfangen. Ingress-Endpunkte für Metrics-Systeme werden häufig aus Gründen der Zuverlässigkeit und um mit dem hohen Verkehrsaufkommen Schritt zu halten, Lastenausgleich oder Skalierung durchgeführt.

Bei Pull-basierten Systemen ist die entsprechende Komponente der Abfragemechanismus, mit dem die auf den einzelnen Hosts verfügbaren Metrikendpunkte abgerufen und analysiert werden. Dies hat einige der gleichen Anforderungen, aber einige Verantwortlichkeiten sind umgekehrt. Wenn einzelne Hosts beispielsweise die Authentifizierung implementieren, muss der Messwerterfassungsprozess in der Lage sein, die richtigen Anmeldeinformationen bereitzustellen, um sich anzumelden und auf den sicheren Endpunkt zuzugreifen.

Datenverwaltungsschicht

Die Datenverwaltungsschicht ist für die Organisation und Aufzeichnung eingehender Daten von der Metrik-Eingangskomponente und die Beantwortung von Abfragen und Datenanforderungen von den Verwaltungsschichten verantwortlich. Metrikdaten werden normalerweise in einem Format namenstime series aufgezeichnet, das Wertänderungen im Laufe der Zeit darstellt. Zeitreihendatenbanken - Datenbanken, die auf das Speichern und Abfragen dieser Art von Daten spezialisiert sind - werden häufig in Überwachungssystemen verwendet.

Die Hauptaufgabe der Datenverwaltungsebene besteht darin, eingehende Daten so zu speichern, wie sie von Hosts empfangen oder gesammelt werden. Die Speicherebene sollte mindestens die Metrik, die gemeldet wird, den beobachteten Wert, die Zeit, zu der der Wert generiert wurde, und den Host, der ihn erstellt hat, aufzeichnen.

Für eine dauerhafte Speicherung über einen längeren Zeitraum muss die Speicherschicht eine Möglichkeit zum Exportieren von Daten bereitstellen, wenn die Sammlung die lokalen Einschränkungen für Verarbeitung, Speicher oder Speicherung überschreitet. Infolgedessen muss die Speicherschicht auch in der Lage sein, Daten in großen Mengen zu importieren, um bei Bedarf historische Daten erneut in das System aufzunehmen.

Die Datenverwaltungsschicht muss auch einen organisierten Zugriff auf die gespeicherten Informationen bereitstellen. Für Systeme, die Zeitreihendatenbanken verwenden, wird diese Funktionalität durch integrierte Abfragesprachen oder APIs bereitgestellt. Diese können für interaktive Abfragen und Datenexplorationen verwendet werden. Die Hauptkonsumenten sind jedoch wahrscheinlich die Datenpräsentations-Dashboards und das Warnsystem.

Visualisierungs- und Dashboard-Ebene

Auf der Datenverwaltungsebene sind die Schnittstellen aufgebaut, mit denen Sie interagieren, um die gesammelten Daten zu verstehen. Da es sich bei Metriken um Zeitreihendaten handelt, lassen sich Daten am besten als Diagramm mit der Zeit auf der x-Achse darstellen. Auf diese Weise können Sie leicht nachvollziehen, wie sich die Werte mit der Zeit ändern. Metriken können über verschiedene Zeitskalen hinweg visualisiert werden, um Trends über lange Zeiträume sowie die jüngsten Änderungen zu verstehen, die sich derzeit möglicherweise auf Ihre Systeme auswirken.

Die Visualisierungs- und Datenverwaltungsebenen tragen dazu bei, dass Daten von verschiedenen Hosts oder von verschiedenen Teilen Ihres Anwendungsstapels überlagert und ganzheitlich angezeigt werden können. Glücklicherweise bieten Zeitreihendaten eine konsistente Skala, mit deren Hilfe Ereignisse oder Änderungen, die gleichzeitig erfolgten, identifiziert werden können, auch wenn die Auswirkungen auf verschiedene Arten von Infrastrukturen verteilt sind. Durch die Auswahl der Daten, die interaktiv überlagert werden sollen, können Bediener Visualisierungen erstellen, die für die jeweilige Aufgabe am nützlichsten sind.

Häufig verwendete Grafiken und Daten werden häufig in gespeicherten Dashboards organisiert. Diese sind in einer Reihe von Zusammenhängen nützlich, entweder als fortlaufende Darstellung der aktuellen Zustandsmetriken für permanente Anzeigen oder als gezielte Portale zur Fehlerbehebung oder zum Tiefeneintauchen in bestimmte Bereiche Ihres Systems. Beispielsweise kann ein Dashboard mit einer detaillierten Aufschlüsselung der physischen Speicherkapazität in einer Flotte für die Kapazitätsplanung wichtig sein, für die tägliche Verwaltung muss jedoch möglicherweise nicht darauf verwiesen werden. Indem Sie das Erstellen von allgemeinen und fokussierten Dashboards vereinfachen, können Sie Ihre Daten leichter zugänglich machen und leichter umsetzen.

Warn- und Schwellenwertfunktion

Diagramme und Dashboards sind zwar die wichtigsten Werkzeuge für das Verständnis der Daten in Ihrem System, sie sind jedoch nur in Kontexten nützlich, in denen ein menschlicher Bediener die Seite anzeigt. Eine der wichtigsten Aufgaben eines Überwachungssystems besteht darin, die Teammitglieder von der aktiven Überwachung Ihrer Systeme zu entlasten, damit sie wertvollere Aktivitäten ausführen können. Damit dies möglich ist, muss das System in der Lage sein, bei Bedarf um Ihre Aufmerksamkeit zu bitten, damit Sie sicher sein können, über wichtige Änderungen informiert zu werden. Überwachungssysteme verwenden dazu benutzerdefinierte Metrikschwellenwerte und Warnsysteme.

Das Ziel des Warnsystems ist es, Bediener zuverlässig zu benachrichtigen, wenn Daten auf eine wichtige Änderung hinweisen, und sie ansonsten in Ruhe zu lassen. Da dies erfordert, dass das System weiß, was Sie als signifikantes Ereignis betrachten, müssen Sie Ihre Alarmierungskriterien definieren. Warnungsdefinitionen bestehen aus einer Benachrichtigungsmethode und einem Messwertschwellenwert, den das System basierend auf eingehenden Daten kontinuierlich auswertet. Der Schwellenwert definiert normalerweise einen maximalen oder minimalen Durchschnittswert für eine Metrik über einen bestimmten Zeitraum, während die Benachrichtigungsmethode beschreibt, wie die Warnung gesendet wird.

Einer der schwierigsten Teile der Alarmierung besteht darin, ein Gleichgewicht zu finden, mit dem Sie auf Probleme reagieren können, ohne übermäßig alarmiert zu werden. Um dies zu erreichen, müssen Sie verstehen, welche Metriken die besten Anzeichen für echte Probleme sind, welche Probleme sofort behoben werden müssen und welche Benachrichtigungsmethoden für verschiedene Szenarien am besten geeignet sind. Um dies zu unterstützen, muss die Sprache für die Schwellenwertdefinition leistungsfähig genug sein, um Ihre Kriterien angemessen zu beschreiben. Ebenso muss die Benachrichtigungskomponente Kommunikationsmethoden anbieten, die für verschiedene Schweregrade geeignet sind.

Black-Box- und White-Box-Überwachung

Nachdem wir nun beschrieben haben, wie verschiedene Teile des Überwachungssystems dazu beitragen, die Sichtbarkeit Ihrer Bereitstellung zu verbessern, können wir einige Möglichkeiten erläutern, wie Sie Schwellenwerte und Warnungen definieren können, um Ihrem Team den bestmöglichen Service zu bieten. Wir werden zunächst den Unterschied zwischen Black-Box- und White-Box-Überwachung erörtern.

Black-Box- und White-Box-Überwachung beschreiben verschiedene Modelle für die Überwachung. Sie schließen sich nicht gegenseitig aus, daher verwenden Systeme häufig eine Mischung aus jedem Typ, um ihre einzigartigen Stärken auszunutzen.

Black-box monitoring beschreibt eine Alarmdefinition oder ein Diagramm, das nur auf extern sichtbaren Faktoren basiert. Diese Art der Überwachung nimmt eine externe Perspektive ein, um den Fokus auf das öffentliche Verhalten Ihrer Anwendung oder Ihres Dienstes zu richten. Ohne spezielle Kenntnisse über den Zustand der zugrunde liegenden Komponenten liefert Ihnen die Black-Box-Überwachung Daten über die Funktionalität Ihres Systems aus Benutzersicht. Obwohl diese Ansicht einschränkend zu sein scheint, sind diese Informationen eng mit Problemen verknüpft, die Kunden aktiv betreffen, sodass sie gute Kandidaten für Alarmauslöser sind.

Die Alternativewhite-box monitoring ist ebenfalls unglaublich nützlich. White-Box-Überwachung beschreibt jede Überwachung, die auf privilegierten Insiderinformationen zu Ihrer Infrastruktur basiert. Da die Anzahl der internen Prozesse das von außen sichtbare Verhalten bei weitem übersteigt, werden Sie wahrscheinlich einen viel höheren Anteil an White-Box-Daten haben. Da das White-Box-Monitoring umfassendere Informationen zu Ihren Systemen enthält, kann es vorausschauend eingesetzt werden. Durch Nachverfolgen von Änderungen in der Ressourcennutzung können Sie beispielsweise benachrichtigt werden, wenn Sie bestimmte Services skalieren müssen, um neuen Anforderungen gerecht zu werden.

Black-Box und White-Box sind lediglich Möglichkeiten, verschiedene Arten von Perspektiven in Ihr System einzuordnen. Der Zugriff auf White-Box-Daten, bei denen die Interna Ihres Systems sichtbar sind, ist hilfreich, um Probleme zu untersuchen, die Ursachen zu ermitteln und korrelierte Faktoren zu finden, wenn ein Problem bekannt ist, oder für normale Verwaltungszwecke. Die Black-Box-Überwachung hingegen hilft, schwerwiegende Probleme schnell zu erkennen, indem die Auswirkungen auf den Benutzer sofort sichtbar werden.

Übereinstimmender Schweregrad mit Alarmtyp

Warnmeldungen und Benachrichtigungen sind einige der wichtigsten Teile Ihres Überwachungssystems, um das Richtige zu tun. Ohne Benachrichtigungen über wichtige Änderungen sind Ihrem Team entweder keine Ereignisse bekannt, die sich auf Ihre Systeme auswirken, oder Sie müssen Ihre Dashboards aktiv überwachen, um auf dem Laufenden zu bleiben. Auf der anderen Seite kann übermäßig aggressives Messaging mit einem hohen Prozentsatz an falschen Positiven, nicht dringenden Ereignissen oder mehrdeutigem Messaging mehr schaden als nützen.

In diesem Abschnitt werden wir verschiedene Ebenen von Benachrichtigungen erläutern und erläutern, wie Sie die einzelnen Ebenen am besten nutzen, um ihre Effektivität zu maximieren. Anschließend diskutieren wir einige Kriterien für die Auswahl, worauf aufmerksam gemacht werden soll und was mit der Benachrichtigung erreicht werden soll.

Seiten

Beginnend mit dem Alarmtyp mit der höchsten Priorität sindpages Benachrichtigungen, die versuchen, dringend auf ein kritisches Problem mit dem System aufmerksam zu machen. Diese Alarmkategorie sollte für Situationen verwendet werden, die aufgrund ihres Schweregrads eine sofortige Lösung erfordern. Für das Paging-System ist eine zuverlässige, aggressive Methode erforderlich, um Menschen zu erreichen, die für die Lösung des Problems verantwortlich und befugt sind.

Seiten sollten für kritische Probleme mit Ihrem System reserviert sein. Aufgrund der Art der Probleme, die sie darstellen, sind sie die wichtigsten Warnungen, die Ihr System sendet. Gute Funkrufsysteme sind zuverlässig, beständig und aggressiv genug, dass sie nicht vernünftigerweise ignoriert werden können. Um eine Antwort zu gewährleisten, enthalten Paging-Systeme häufig die Option, eine sekundäre Person oder Gruppe zu benachrichtigen, wenn die erste Seite nicht innerhalb einer bestimmten Zeitspanne bestätigt wird.

Da Seiten von Natur aus unglaublich störend sind, sollten sie sparsam verwendet werden: Nur wenn klar ist, dass ein betrieblich inakzeptables Problem vorliegt. Dies bedeutet häufig, dass Seiten mithilfe von Black-Box-Techniken an beobachtete Symptome in Ihrem System gebunden sind. Während es schwierig sein kann, die Auswirkung eines Back-End-Webhosts zu bestimmen, der die Verbindungen maximal nutzt, ist die Bedeutung Ihrer Domain, die nicht erreichbar ist, weniger zweideutig und erfordert möglicherweise eine Seite.

Sekundäre Benachrichtigungen

Der Schweregrad istnotificationswie E-Mails und Tickets. Diese sollen dauerhaft daran erinnern, dass die Betreiber eine sich entwickelnde Situation untersuchen sollten, wenn sie in der Lage sind, dies zu tun. Im Gegensatz zu Seiten weisen Benachrichtigungen nicht darauf hin, dass sofortige Maßnahmen erforderlich sind. Sie werden daher in der Regel von Mitarbeitern ausgeführt, anstatt einen Mitarbeiter auf Abruf zu benachrichtigen. Wenn in Ihrem Unternehmen nicht immer Administratoren arbeiten, sollten Benachrichtigungen an Situationen ausgerichtet werden, die bis zum nächsten Arbeitstag warten können.

Durch die Überwachung erzeugte Tickets und E-Mails helfen den Teams, die Arbeit zu verstehen, auf die sie sich konzentrieren sollten, wenn sie das nächste Mal aktiv sind. Da Benachrichtigungen nicht für kritische Probleme verwendet werden sollten, die sich derzeit auf die Produktion auswirken, basieren sie häufig auf White-Box-Indikatoren, mit denen sich auftretende Probleme vorhersagen oder identifizieren lassen, die in Kürze behoben werden müssen.

In anderen Fällen werden Benachrichtigungsalarme so eingestellt, dass sie dasselbe Verhalten wie Paging-Alarme überwachen, jedoch niedrigere, weniger kritische Schwellenwerte festlegen. Sie können beispielsweise eine Benachrichtigungswarnung definieren, wenn Ihre Anwendung über einen bestimmten Zeitraum hinweg eine geringfügige Zunahme der Latenz aufweist und eine entsprechende Seite gesendet wird, wenn die Latenz auf einen unangemessenen Wert ansteigt.

Im Allgemeinen sind Benachrichtigungen in Situationen am besten geeignet, in denen eine Reaktion erforderlich ist, die jedoch keine unmittelbare Gefahr für die Stabilität Ihres Systems darstellt. In diesen Fällen möchten Sie auf ein Problem aufmerksam machen, damit Ihr Teambeforeuntersuchen und abschwächen kann, die sich auf Benutzer auswirken oder sich in ein größeres Problem verwandeln.

Protokollierungsinformationen

Obwohl es sich technisch gesehen nicht um eine Warnung handelt, möchten Sie manchmal ein bestimmtes beobachtetes Verhalten an einem Ort feststellen, auf den Sie später problemlos zugreifen können, ohne dass jemand darauf aufmerksam gemacht wird. In diesen Situationen kann es nützlich sein, Schwellenwerte festzulegen, die lediglichlogInformationen enthalten. Diese können in eine Datei geschrieben oder zum Inkrementieren eines Zählers in einem Dashboard in Ihrem Überwachungssystem verwendet werden. Ziel ist es, schnell zusammengestellte Informationen für Ermittlungszwecke bereitzustellen, um die Anzahl der Abfragen zu verringern, die Operatoren zum Sammeln von Informationen erstellen müssen.

Diese Strategie ist nur für Szenarien sinnvoll, die eine sehr niedrige Priorität haben und keine eigene Reaktion erfordern. Ihr größter Nutzen besteht darin, verwandte Faktoren zu korrelieren und Zeitpunktdaten zusammenzufassen, auf die später als ergänzende Quellen verwiesen werden kann. Sie werden wahrscheinlich nicht viele Trigger dieses Typs haben, aber sie können in Fällen nützlich sein, in denen Sie bei jedem Auftreten eines Problems die gleichen Daten nachschlagen. Alternativen, die zum Teil dieselben Vorteile bieten, sind gespeicherte Abfragen und benutzerdefinierte Untersuchungs-Dashboards.

Wann ist eine Warnung zu vermeiden?

Es ist wichtig zu wissen, welche Warnungen Ihrem Team angezeigt werden sollen. Jede Warnung sollte darauf hinweisen, dass ein Problem auftritt, das manuelles Eingreifen des Benutzers oder Eingaben in eine Entscheidung erfordert. Aufgrund dieses Fokus sollten Sie, wenn Sie Metriken in Betracht ziehen, auf die aufmerksam gemacht werden soll, alle Gelegenheiten notieren, bei denen Reaktionen automatisiert werden könnten.

Automatisierte Korrekturen können in folgenden Fällen entwickelt werden:

Eine erkennbare Signatur kann das Problem zuverlässig identifizieren
Die Antwort wird immer gleich sein
Die Antwort erfordert keine menschlichen Eingaben oder Entscheidungen

Einige Antworten sind einfacher zu automatisieren als andere. Im Allgemeinen kann jedoch jedes Szenario, das die oben genannten Kriterien erfüllt, als Skript entfernt werden. Die Antwort kann weiterhin an Warnungsschwellen gebunden sein. Statt jedoch eine Nachricht an eine Person zu senden, kann der Auslöser die Skript-Korrektur starten, um das Problem zu lösen. Die Protokollierung jedes Mal, wenn dies auftritt, kann wertvolle Informationen über den Systemzustand und die Wirksamkeit Ihrer Metrikschwellenwerte und automatisierten Maßnahmen liefern.

Es ist wichtig zu berücksichtigen, dass auch bei automatisierten Prozessen Probleme auftreten können. Es ist eine gute Idee, Ihren Skriptantworten zusätzliche Warnungen hinzuzufügen, damit ein Bediener benachrichtigt wird, wenn die Automatisierung fehlschlägt. Auf diese Weise wird in den meisten Fällen eine Hand-off-Reaktion durchgeführt, und Ihr Team wird über Vorfälle informiert, die ein Eingreifen erfordern.

Entwerfen effektiver Schwellenwerte und Warnungen

Nachdem wir uns nun mit den verschiedenen verfügbaren Warnungsmedien und den jeweils geeigneten Szenarien befasst haben, können wir über die Merkmale guter Warnungen sprechen.

Ausgelöst durch Ereignisse mit Auswirkungen auf den Benutzer

Wie bereits erwähnt, sind Warnungen, die auf Szenarien mit tatsächlichen Auswirkungen auf den Benutzer basieren, am besten geeignet. Dies bedeutet, dass Sie verschiedene Ausfall- oder Leistungsminderungsszenarien analysieren und verstehen, wie und wann sie zu Ebenen aufsteigen, mit denen Benutzer interagieren.

Dies setzt voraus, dass Sie die Redundanz Ihrer Infrastruktur, die Beziehung der verschiedenen Komponenten und die Ziele Ihres Unternehmens in Bezug auf Verfügbarkeit und Leistung genau kennen. Ihr Ziel ist es, die symptomatischen Kennzahlen zu ermitteln, mit denen aktuelle oder bevorstehende Probleme, die Auswirkungen auf den Benutzer haben, zuverlässig angezeigt werden können.

Schwellenwerte mit abgestuftem Schweregrad

Nachdem Sie symptomatische Messwerte ermittelt haben, besteht die nächste Herausforderung darin, die geeigneten Werte zu ermitteln, die als Schwellenwerte verwendet werden sollen. Möglicherweise müssen Sie Trial-and-Error verwenden, um die richtigen Schwellenwerte für einige Metriken zu ermitteln.

Überprüfen Sie, falls verfügbar, die historischen Werte, um festzustellen, welche Szenarien in der Vergangenheit behoben werden mussten. Es empfiehlt sich, für jede Metrik einen "Notfall" -Schwellenwert zu definieren, der eine Seite auslöst, sowie einen oder mehrere "kanarische" Schwellenwerte, die mit Nachrichten mit niedrigerer Priorität verknüpft sind. Bitten Sie nach dem Definieren neuer Warnungen um Feedback, ob die Schwellenwerte zu aggressiv oder zu empfindlich waren, damit Sie das System optimal an die Erwartungen Ihres Teams anpassen können.

Enthält den passenden Kontext

Durch die Minimierung der Zeit, die Antwortende benötigen, um Probleme zu untersuchen, können Sie sich schneller von Vorfällen erholen. Zu diesem Zweck ist es hilfreich, den Kontext innerhalb des Warnungstextes anzugeben, damit die Bediener die Situation schnell verstehen und mit den entsprechenden nächsten Schritten beginnen können.

In Warnmeldungen sollten die betroffenen Komponenten und Systeme, der ausgelöste Messwertschwellenwert und der Zeitpunkt, zu dem der Vorfall begann, klar angegeben werden. Die Warnung sollte auch Links enthalten, über die Sie weitere Informationen abrufen können. Dies können Links zu bestimmten Dashboards sein, die mit der ausgelösten Metrik verknüpft sind, Links zu Ihrem Ticketing-System, wenn automatisierte Tickets generiert wurden, oder Links zu der Warnseite Ihres Überwachungssystems, auf der ein detaillierterer Kontext verfügbar ist.

Ziel ist es, dem Bediener genügend Informationen zur Verfügung zu stellen, um seine erste Reaktion zu steuern und ihn dabei zu unterstützen, sich auf den jeweiligen Vorfall zu konzentrieren. Es ist weder erforderlich noch empfehlenswert, alle Informationen, die Sie über das Ereignis haben, anzugeben. Wenn Sie jedoch grundlegende Details mit einigen Optionen für den nächsten Schritt angeben, kann dies die anfängliche Erkennungsphase Ihrer Antwort verkürzen.

An die richtigen Leute geschickt

Warnungen sind nicht nützlich, wenn sie nicht umsetzbar sind. Ob eine Warnung umsetzbar ist, hängt häufig vom Kenntnisstand, der Erfahrung und der Berechtigung der antwortenden Person ab. Für Unternehmen einer bestimmten Größe ist die Entscheidung für die zu übermittelnde Person oder Gruppe in einigen Fällen unkompliziert und in anderen Fällen nicht eindeutig. Die Entwicklung einer Rotation auf Abruf für verschiedene Teams und die Ausarbeitung eines konkreten Eskalationsplans können einige der Unklarheiten bei diesen Entscheidungen beseitigen.

Die Bereitschaftsrotationen sollten genügend fähige Personen umfassen, um ein Ausbrennen zu vermeiden und Müdigkeit zu alarmieren. Am besten ist es, wenn Ihr Warnsystem einen Mechanismus zum Planen von Bereitschaftsschichten enthält. Andernfalls können Sie Verfahren zum manuellen Drehen der Warnkontakte basierend auf Ihren Zeitplänen entwickeln. Möglicherweise verfügen Sie über mehrere Rufbereitschaftsrotationen, die von den Eigentümern bestimmter Teile Ihres Systems ausgefüllt werden.

Ein Eskalationsplan ist ein zweites Tool, mit dem sichergestellt wird, dass Vorfälle an die richtigen Personen weitergeleitet werden. Wenn Ihre Systeme rund um die Uhr von Mitarbeitern besetzt sind, ist es am besten, vom Überwachungssystem generierte Warnungen an Mitarbeiter im Schichtdienst zu senden, und nicht an die Bereitschaftsdienst-Rotation. Die Antwortenden können dann selbst Abhilfemaßnahmen ergreifen oder sich dafür entscheiden, Bereitschaftsbetreiber manuell zu melden, wenn sie zusätzliche Hilfe oder Fachkenntnisse benötigen. Ein Plan, der festlegt, wann und wie Probleme eskaliert werden, kann unnötige Warnungen minimieren und das Gefühl der Dringlichkeit bewahren, das Seiten darstellen sollen.

Fazit

In diesem Handbuch wurde erläutert, wie das Überwachen und Warnen in realen Systemen funktioniert. Zunächst haben wir untersucht, wie die verschiedenen Teile eines Überwachungssystems funktionieren, um die organisatorischen Anforderungen an Bewusstsein und Reaktionsfähigkeit zu erfüllen. Wir diskutierten den Unterschied zwischen Black- und White-Box-Monitoring als Rahmen für das Nachdenken über verschiedene Warnhinweise. Anschließend diskutierten wir verschiedene Arten von Warnungen und wie der Schweregrad von Vorfällen am besten mit einem geeigneten Warnungsmedium abgeglichen werden kann. Zuletzt haben wir die Merkmale eines effektiven Alarmierungsprozesses behandelt, um Ihnen bei der Entwicklung eines Systems zu helfen, das die Reaktionsfähigkeit Ihres Teams erhöht.

TOC