Meine Monitoring-Inbox sieht heute Morgen so aus:
Die Signal vs. Noise-Ratio ist schlecht und mein Ziel ist es diese zu verbessern. Keine der Nachrichten erfordert eine unmittelbare Reaktion. Die meisten der Nachrichten sollen jedoch gelegentlich, stichprobenartig auswerten. Die Reports sollen weiterhin in der Inbox bleiben.
Die Alerts betreffen primär die letzten Event-Log Einträge. Hier enthalten sind Sicherheitsnachrichten, ausgelaufenen Sessions, etc. Wir sollten hier mal besser Filtern um unnötige Informationen nicht als Alert zu zeigen. Auf Programmierseite besteht jedoch keine dringender Handlungsbedarf.
Als Monitoring Werkzeug verwenden wir zur Zeit "PA-Server-Monitor" und sind damit auch sehr zufrieden. Wir Monitoren sowohl Webseiten über HTTP, als auch Server Interna über WMI. Hier interessiert uns am meisten der Eventlog, aber auch Leistungsdaten wir Arbeitsspeicher, CPU-Auslastung und verfügbarer Festplattenplatz werden überwacht.
Gruppierungskriterien
Einfließen in die Gruppierung sollen unsere "Eskalationstufen". Unsere Eskalationstufen würde wie folgt darstellen:
- "Unbekannt" Nachricht als Email, wird in regelmäßigen Intervallen ausgewertet
- "Dienst nicht beeinträchtigt" Nachricht als Email
- "Dienst gering beeinträchtigt" Nachricht als Email
- "Dienst stark beeinträchtigt" Nachricht SMS
- "Offline" - Nachricht SMS
Einfließen soll die Wichtigkeit des Dienstes. Für uns hängt die Dienstwichtigkeit am Kunden. Alle Kunden bekommen zwar eine gleich gute großartige Hosting und Monitoring-Qualtität - aber für einen Kunden der €22.50 im Jahr bezahlt, muss sich in einem eventuellen Fehlerfall, niemand nach einer SMS, morgens um 3 Uhr aus dem Bett lösen. 7Uhr sollte dann noch vollends reichen :-) Unser Wichtigkeiten sehen also so aus:
- Kunde A
- Kunde B
- Intern
Vorgehensweise
Nach dem die Eckdaten nun ungefähr klar sind, geht es daran eine Strategie zu entwickeln. Folgende Überlegung ist dabei zentral:
- Alles was wir tun soll, soll als Prozess dem ganze Team nützen und an dritte zu übergeben sein.
Daraus könnte sich ergeben, dass ein zentraler Account die Beste Möglichkeit ist. Hier könnte alle Nachrichten und Filter-Regeln. für alle erreichbar umgesetzt werden.
(Da die das Definieren von Filtern und Regeln auf Textinhalte im PA-Monitor Relativ schwer ist und bei einigen Nachrichten in der Eskalationsstufe Stufe 1 eine Unschärfe durchaus gewünscht ist, probieren wir das Filtern im Nachrichtenclient durchzuführen.)
Lösungsansatz
Mehrere Lösungsansätze sind denkbar. Der Einfachheit halber konzentrieren wir uns auf den ersten guten (nicht der Erstbeste!) Lösungsansatz. Wenn dieser nicht befriedigend ist - suchen wir eine alternative.
Vorschlag: Wir nutzen einen zentralen Google-Email Account für Auswertung der Monitoring und Lognachrichten. Hier definieren wir Labels und Regeln, die unsere Eskaltions und Gruppierungskriterien abbilden.
So können wir gemeinschaftlich die Regeln weiterentwicklen und im Fall von Urlaub können wir für die Auswertung Rollen übertragen. GMails hat soweit mir bekannt ist, sehr leistungsfähige Filter und kann Multitagging (Labeling).
Wenn Mark sein Ok gibt, dann sind die nächsten zwei Schritte: 1:) Gmail Account für Monitoring einrichten und alle Nachrichten umleiten :-)
- Fortsetzung folgt -