Samstag, 25. März 2017
Twitter Facebook Mister Wong Delicious stumbleupon digg Yahoo

Neueste Technologie für Administratoren

Systembetreuer im Windows-Umfeld brauchen Know-how über die neuesten Entwicklungen. Einsatzbeispiele und Tipps aus der Praxis führen zu mehr Effizienz im täglichen Betrieb. Wir bieten Skript-basierte Lösungen von Windows IT Pro exklusiv im deutschsprachigen Raum für unsere Abonnenten.

IT-Überwachung und die nötige Aufmerksamkeit

Leon Adato, Head Geek bei SolarWinds (Quelle: Solarwinds)

Es ist traurig, aber wahr: Für viele – um nicht zu sagen die meisten – IT-Profis sind Warnungen ein tagtäglicher Fluch. Sie sind nervtötende Arbeitsunterbrechungen, die zumeist nutzlos und häufig schlicht unbegründet sind. Spezialisten für die IT-Überwachung kennen wohl nur zu gut die Enttäuschung, wenn man begreift, dass die so mühsam erstellte Warnung von den Empfängern einfach ignoriert wird.

Viele Systeme wie Server, Router, Switches oder Backup-Appliances sind für eine sichere, effiziente und funktionierende IT-Infrastruktur essentiell. Daher sollten diese neben der entsprechenden Aufmerksamkeit bei der Bereitstellung und der Konfiguration auch im laufenden Betrieb genügend Aufmerksamkeit erhalten. Oftmals wird eine Vielzahl an Systemen in den Unternehmen daher in entsprechende Überwachungslösungen integriert.

 

Dabei sorgen bestimmte Bedingungen oder gewisse Voraussetzungen den entsprechenden „Trigger“. Wird dieser aktiviert (etwa wenn einer der Server permanent bei 100 Prozent CPU-Auslastung „hängt“), sendet das Tool die entsprechende Meldung an den Administrator. Die kann etwa per IM (Instant Message), SMS (Short Message Service) oder auch per Email gelöst werden. nehmen derartige Meldungen „überhand“, schwächt das die Aufmerksamkeit der Mitarbeiter. Denn wenn der entsprechenden Server bereits zum hundertsten Mal „meckert“, obwohl kein gravierender Fehler vorliegt, reagieren die Systembetreuer entsprechend „abgestumpft“, selbst wenn ein echter Notfall vorliegen sollte.

Dann wächst vielleicht der Wunsch, diese Warnungen auffälliger, interessanter und dringlicher zu gestalten – möglicherweise in Richtung eines dieser Beispiele:

  • Bissig: Hi Serverteam! Lest Ihr diese Warnungen überhaupt noch?!?
  • Übertrieben: ALARMSTUFE ROT! Der Router EXPLODIERT in 5 Minuten!
  • Mitleiderregend: Huhu, ich bin's, der IIS-Server. Hier ist es ganz dunkel und kalt. Könnte bitte jemand das Licht wieder anmachen, ich hab' Angst im Dunkeln.

Oder vielleicht in Richtung Clickbait, zum Beispiel so:

  • Die Reaktionszeit dieses Servers lag bei unter 75 Prozent. Sie glauben nicht, was dann passierte!
  • Drei freche Langzeitabfragen, von denen Sie noch nie gehört haben.
  • Heißer geht's nicht! Diese Heatmap zeigt, welche toten WLAN-Winkel Ihre Access-Points verbergen!
  • Was passiert, wenn diese VM in einen Konflikt gerät, wird Sie schockieren!

Natürlich sind diese Ansätze interessant bis verlockend, doch sie lösen nicht das Grundproblem, nämlich, wie überraschend schwierig es ist, eine bedeutsame, informative und verwertbare Warnung zu erstellen. Damit genau das gelingt und die Empfänger Warnungen in Zukunft ohne Wutausbrüche oder Tricks des Admins genau lesen, gibt es nachfolgend einige Tipps für häufige Probleme. Etwa mehrere Warnungen (und Tickets) zum selben Anliegen, und zwar alle paar Minuten: Der Grund dafür: Ein Vorfall ereignet sich oder eine Bedingung ist erfüllt. Die Situation wird geklärt, tritt dann aber erneut auf, und das immer wieder, also erstellt das Überwachungssystem jedes Mal eine neue Warnung.

Problemlösung

Der erste Schritt zur Lösung ist die Erkenntnis, dass einige wiederkehrende Warnungen auf ein echtes Problem hindeuten. Zum Beispiel ein Gerät, das ständig neu gestartet wird. Doch eine solche Meldungsflut tritt gewöhnlich auf, weil eine Messgröße um einen Schwellenwert pendelt. Wenn zum Beispiel die CPU-Warnung bei 90 Prozent ausgelöst wird und das Gerät ständig zwischen 88 und 92 Prozent liegt. Hierfür gibt es einige bewährte Lösungsansätze:

Statten Sie den Warnungsauslöser mit einer Zeitverzögerung aus. Das Gerät muss etwa über einen bestimmten Zeitraum hinweg den CPU-Schwellenwert überschreiten, ehe die Warnung ausgegeben wird. Siehe da: Gewarnt wird jetzt nur bei Geräten, die beständig und dauerhaft über dem Limit liegen.

Mit jeder guten Überwachungslösung lässt sich festlegen, dass zusätzlich zum Warnungsauslöser noch eine andere Bedingung gegeben sein muss, um die Warnung auszugeben. Wenn beispielsweise eine Warnung erfolgen soll, sobald die CPU-Auslastung 10 Minuten lang bei über 90 Prozent liegt, kann man zudem festlegen, dass der nächste CPU-Alarm erst erfolgt, wenn diese Bedingung auftritt, nachdem die Auslastung 20 Minuten lang unter 80 Prozent lag. Derart verzögerte Warnungen bedeuten für die Umgebung ein gewisses Maß an Stabilität.

Nutzen Sie die API des Ticketsystems, um die bidirektionale Kommunikation zwischen Überwachungslösung und Ticketsystem zu ermöglichen, und legen Sie fest, dass zu jedem Gerät pro Problemfall nur ein Ticket angelegt werden kann.

Problem: Ein kritisches Gerät fällt aus, zum Beispiel der Edge-Router an einem Remote-Standort, und das Team wird von Warnungen zu allen anderen Geräten an diesem Standort überflutet. In manchen Fällen erfasst das Überwachungssystem ein Gerät als ausgefallen, obwohl es nur nicht an seine Daten herankommt, beispielsweise wegen der Unterbrechung eines Geräte-Upstreams.

Die Überwachung kann dann erst wieder bei erneuter Verbindung erfolgen. Jede ernst zu nehmende Überwachungslösung hat eine Option zur Unterdrückung von Warnungen auf Basis von „Upstream“- oder hierarchischen Verbindungen. Aktivieren Sie diese Option und hinterlegen Sie in der Überwachungslösung die Geräteabhängigkeiten Ihrer Umgebung.

Strukturiertes Vorgehen

Sie müssen unzählige Warnungen einrichten, um den Eigenschaften jeder einzelnen Maschine gerecht zu werden. Sie müssen dieselbe allgemeine Warnung (CPU-Auslastung, Festplattenkapazität, Anwendungsausfall usw.) für eine nicht enden wollende Anzahl an Geräten einrichten, da sich die Maschinen in Schwellenwert, Timing, dem verantwortlichen Empfänger und dergleichen unterscheiden. Überwachungsprofis geraten in diese Situation, wenn sie keine benutzerdefinierten Felder nutzen (oder sie möglicherweise gar nicht haben).

Anders gesagt: Jedes ausgereifte Überwachungs-Tool sollte Parameter wie „CPU_kritischer_Wert“ als benutzerdefinierte Eigenschaften anbieten. Der Wert wird für jedes Gerät einzeln festgelegt, sodass die dazugehörige allgemeine Warnung nicht mehr „Warnen, wenn CPU-Auslastung in % >= 90 %“ lautet, sondern „Warnen, wenn CPU-Auslastung in % >= CPU_kritischer_Wert“.

So erhält jedes System seinen eigenen Schwellenwert, aber es reicht eine einzige Warnung für alle. Auf dieselbe Weise lassen sich auch mehrere Empfänger integrieren. Dank eines benutzerdefinierten Felds wie „Verantwortliche_Gruppe_E-Mail-Adresse“, das einen E-Mail-Gruppennamen enthält, sind separate identische CPU-Warnungen für die Server-, Netzwerk- und Speicherteams überflüssig. Übrig bleibt eine einzige Warnung, die an die in diesem Feld hinterlegten Empfänger geht.

IT-Überwachungstricks

Bestimmte Geräte lösen zu bestimmten Zeiten Warnungen aus, weil sie scheinbar untypisch genutzt werden. Im gewohnten Betrieb gibt es Zeiträume hoher Auslastung, die vollkommen normal sind, aber eben auch vollkommen außerhalb der üblichen Grenzen liegen. Ursachen können Monatsabschlussberichte, Kompilierungen über Nacht oder am Wochenende sowie jeder andere regelmäßig wiederkehrende Vorgang sein.

Problematisch hierbei ist, dass der betreffende normale Bedingungsschwellenwert zwar an sich gut gewählt ist, er aber zeitweilig überschritten wird, weshalb eine Warnung ausgegeben wird. Doch wenn man dem Schwellenwert des Systems den Wert bei hoher Auslastung zugrunde legt, werden kritische Probleme übersehen, deren Auslöser oft unter dem höheren Schwellenwert liegt.

Anstatt die Warnung bei Erreichen eines festen Schwellenwerts auslösen zu lassen – auch wenn dieser, wie oben erklärt, pro Gerät festgelegt ist –, sollten Sie sich einmal die Überwachungsdaten gründlich ansehen. Denken Sie daran: Überwachung besteht nicht nur aus Warnungen, Ansichten und blinkenden Signalen. Es geht darum, von einer Gruppe von Geräten regelmäßig, beständig und kontinuierlich ein- und denselben Satz an Messwerten zu erfassen. Der Rest, also die Warnungen, E-Mails, blinkenden Signale usw., sind nur der Beweis für eine gute Überwachungsleistung.

All die erfassten Daten sollte man analysieren, um den „Normalzustand“ jedes Geräts zu identifizieren. Dieser wird auch „Baseline“ genannt und stellt nicht nur den Gesamtdurchschnitt der Geräteleistung dar, sondern auch die normale Leistung pro Tag und sogar pro Stunde. Unter Zuhilfenahme einer Baseline lautet die Warnung dann nicht mehr „Warnen, wenn CPU-Auslastung in % >= <fester Wert>“, sondern „Warnen, wenn CPU-Auslastung in % >= 10 % über der Baseline für diesen Zeitraum“.

Überwachungsexperten, die die Funktionen ihrer Lösungen umfassend implementieren und nutzen, nehmen sich und anderen eine große Last von den Schultern. Warnungen nehmen an Bedeutung zu und an Zahl ab, sodass alle Beteiligten mehr Zeit für wichtigere Aufgaben haben. Außerdem vertrauen die Teams zuverlässigeren Warnungen mehr und reagieren schneller auf sie – und das kommt dem gesamten Geschäft zugute. Am wichtigsten ist jedoch der Mehrwert guter Überwachung, von dem nun alle profitieren. Infolgedessen werden wir Überwachungsprofis stärker eingebunden und können Warnungen und Übersichten erstellen, die die Umgebung noch weiter stabilisieren und verbessern.

Leon Adato, Head Geek bei SolarWinds

Anmelden
Anmelden