Systemüberwachung und Fehlerbehebung

Erfahren Sie, warum die Systemüberwachung und Fehlerbehebung ein wesentlicher Bestandteil der Aufgaben eines IT-Teams ist.


Was ist Systemüberwachung und Fehlerbehebung?

Systemüberwachung und Fehlerbehebung sind ein wichtiger Bestandteil der Aufgaben eines IT-Teams. Obwohl Compliance-Frameworks wie NIST und ITIL Richtlinien zur Überwachung anbieten können, sind diese Standards in der Anwendung nicht eindeutig, und die Umsetzung einer Überwachungsstrategie mag überwältigend erscheinen. Die nachfolgenden Abschnitte geben einen Überblick über die verschiedenen Aspekte einer Überwachung Ihrer IT-Umgebung.

Zu überwachende Datentypen

Ein Ansatz zur Überwachung Ihrer Umgebung ist die Unterteilung der Daten in drei Kategorien.

Zunächst wären da die Logdaten, die in eine Logdatei geschrieben werden, unabhängig davon, ob es sich um eine geläufige Struktur oder einfachen Text handelt. Die Logdaten bieten eine ausführliche Aufzeichnung der Transaktionen in Ihrer gesamten IT-Umgebung. Zweitens gibt es Asset-Daten, also direkt aus dem Asset stammende Daten. Hierbei handelt es sich um einfache Ressourcenmesswerte wie die CPU und den Arbeitsspeicher bis hin zu Angaben über die auf einem bestimmten IT-Asset laufenden Prozesse und Anwendungen. Die Asset-Daten können besonders nützlich sein, wenn eine Überwachung von Ereignissen erfolgen soll, die in den standardmäßigen Log-Dateien nicht erfasst werden. Schließlich sind da noch die Netzwerkdaten, zu denen die Daten über die jeweilige Netzwerkleistung einschließlich Bandbreite, Netzwerkverbindungen und Routing-Verhalten zählen.

Während die Überwachung aller drei Datentypen für einen ausgereiften IT-Betrieb von großer Bedeutung ist, geht es bei der Systemüberwachung in der Regel um die Analyse von Logdaten und Asset-Daten.

Zu überwachende Systeme

Sie können potenziell eine Vielzahl verschiedenster Systeme überwachen, und welche Sie am Ende auswählen, ist von Ihrer jeweiligen Umgebung abhängig. Zu den Optionen gehören:

Server: Die Serverüberwachung umfasst ein breites Systemspektrum, darunter Server, die Anwendungen hosten, Active Directory Domänen-Controller, Dateifreigabe- und E-Mail-Server. Die meisten Server bieten jedenfalls ansatzweise eine Ereignisprotokollierung, ganz gleich, ob es ein Windows-, Linux- oder Mac-Rechner ist.

Datenbanken: Viele Datenbanken bieten verschiedene Protokollebenen, um Administratoren beim Debugging und der Bestimmung bevorstehender Probleme zu helfen. Zu den typischen Ereignissen der Datenbanken gehören langsame Abfragen und SQL-Zeitüberschreitungen, Zeilenbegrenzungen, Speicherbeschränkungen und Cache-Probleme.

Anwendungen: Zu den Anwendungen zählen sowohl jene von Drittanbietern, die Sie erworben haben, als auch solche, die intern entwickelt wurden. Einige Anwendungen von Drittanbietern schreiben Logs an ihren Host, die dann gesammelt werden können. Auch die intern entwickelten Anwendungen sollten so erstellt werden, dass sie wichtige Ereignisse protokollieren können. Überprüfen Sie, ob diese Anwendungen kundenorientiert oder mitarbeiterorientiert sind. Obwohl die Überwachung der Anwendungsleistung ganz unabhängig von der Nutzergruppe von Bedeutung ist, empfiehlt es sich, kundenorientierte Anwendungen und Dienste ausführlicher zu protokollieren.

Cloud-Services: Cloud-Services, insbesondere Infrastruktur-as-a-Service wie AWS und Azure, sind für einen Systemüberwachungsplan unverzichtbar. Diese Dienste bieten ggf. von sich aus Log-Dateiansichten, aber es sollte auch möglich sein, Logs jenseits dieser Dienste zu erfassen und zu speichern. Die Erfassung und Speicherung Ihrer Protokolle an einem einzigen Ort erleichtert es, diese Informationen später zu finden.

Container: Die Containerisierung wird dank der Dienste wie Docker zu einem beliebten Ansatz bei der Planung und beim Hosting von Anwendungen und Infrastrukturen. Angesichts immer stärker unterteilter, kurzlebigerer und, im Gegensatz zu physischen Rechnern, stärker codeabhängiger Infrastruktur spielt die Container-Überwachung zunehmend eine Rolle für den Systemzustand.

Workstations: Wenn Software oder Prozesse auf dem Rechner eines Mitarbeiters in Konflikt stehen oder Ihr Netzwerk mit Paketen überfluten, muss sichtbar sein, was auf der Workstation des Mitarbeiters läuft. Es ist wichtig, dies ferngesteuert zu tun, da die Aufspürung des physischen Assets zeitaufwändig oder nicht möglich sein kann.

Zu überwachende Ereignisse und Metriken

Fehler: Die Protokollierung von Anwendungs- und Systemfehlern liegt auf der Hand und der Suchbegriff „Error“ (Fehler) ist bei der IT-Recherche immer ein guter Ausgangspunkt. Einige Systeme kategorisieren Fehler nach Typ, was Hinweise auf die zu beachtenden Ereignisse liefert.

CRUD Ereignisse: Es ist in der Regel sinnvoll, festzuhalten, wann Informationen geschrieben, gelesen, aktualisiert oder gelöscht wurden, um später Probleme, besonders jene in Anwendungen, beheben zu können. Obwohl diese Ereignisse häufig keine direkten Hinweise auf ein Problem sind, können sie bei der Rückverfolgung eines Problems hervorragende Informationen liefern.

Transaktionen: „Transaktionen“ beziehen sich häufig auf wichtige Ereignisse wie Käufe, Abonnements, Stornierungen und Einsendungen. Individuelle Transaktionen sollten aufmerksam auf fehlgeschlagene oder unvollständige Transaktionen überwacht werden. Je nach System enthalten Fehlercodes bisweilen wichtige Informationen über die Ursache des Transaktionsproblems. Bestimmte Systeme wie Microsoft SQL Server bieten ein dediziertes Transaktionsprotokoll, in dem diese Informationen erfasst sind. In anderen Systemen müssen Sie diese Daten eventuell eigenständig zusammentragen.

Zugriffsanfragen und Berechtigungsänderungen: Die Protokollierung aus einem Dienst wie Active Directory kann einen wichtigen Einblick in das Nutzerverhalten in Ihrer Umgebung bieten. Die Überwachung und Erfassung von Daten über Dinge wie Berechtigungsänderungen ist hilfreich, um zu verhindern, dass Benutzer unerlaubt auf Administratorrechte zugreifen. Diese Art der Überwachung ist häufig notwendig, um bestimmte Compliance-Standards zu erfüllen.

Systemmetriken: Systemwerte wie CPU, Arbeitsspeicher und Nutzung des Datenträgers sollten jederzeit aufmerksam überwacht werden, um einen Systemausfall zu verhindern. Dramatische Änderungen dieser Werte könnten einen Ausfall oder einen bevorstehenden Ausfall anzeigen. Auch die Erfassung dieser Messdaten über längere Zeit kann bei der Kapazitätsplanung für die Zukunft helfen.

So geht Überwachung

Angesichts der zu überwachenden Breite der Systeme, Ereignisse und Metriken ist die Zentralisierung Ihrer Datenerfassung an einem einzigen sicheren Ort eine gute Entscheidung, besonders wenn ein System ausfallen sollte. Es stehen Log-Managementlösungen zur Sammlung, Zentralisierung und Organisierung von Protokollen bereit, damit sie sich leicht finden und visualisieren lassen und Warnungen schnell generiert werden können.

Die Überwachung kann auch über das Log-Management hinaus auf die Überwachung einzelner IT-Assets ausgeweitet werden. Diese Art der Überwachung umfasst die laufende Messung der Ressourcennutzung und die Verfolgung von Software und Prozessen, die auf den Assets laufen. In herkömmlichen Protokollen wird die Softwarenutzung häufig nicht festgehalten, kann jedoch wichtige Hinweise auf die Ursachen von Systemfehlern geben. IT-Asset-Daten nicht nur messen, sondern auch speichern zu können, gibt Ihnen einen umfassenden Einblick in Ihre IT-Umgebung.

Zeitpunkt der Überwachung

Kurz gesagt sollte die Systemüberwachung 24/7 erfolgen, wenn Ihre Systeme ständig verfügbar sein sollen. In der Regel kann die Überwachung im Hintergrund laufen, ohne dass Sie ständig einen Blick darauf werfen müssen. Jedoch gibt es einige Fälle, in denen Sie erwartungsgemäß die Systemdaten im Auge behalten sollten, u. a.:

Systemaktualisierungen: Wenn ein System aktualisiert wird, besteht das Risiko, dass das Update fehlschlägt oder die Aktualisierung unerwünschte Komplikationen verursacht.

Bereitstellung und Rollbacks von Anwendungen: Beim Bereitstellen (oder Rollback) von Code in Anwendungen könnten unerwartete Probleme auftreten, auch wenn alle Einzel- und Funktionstests erfolgreich beendet werden.

Migrationen: Datenmigrationen sind häufig komplex und bringen Probleme wie fehlerhafte Datentypen, Validierungsprobleme und vieles mehr mit sich.

Spitzentransaktionszeiten: In bestimmten Unternehmen kommt es regelmäßig zu Zeiträumen mit erhöhten Transaktionen, wie E-Commerce-Unternehmen während der Vorweihnachtszeit oder in einem Aktionszeitraum. Die in diesen Spitzenzeiten auftretenden Probleme könnten erhebliche Folgen haben, wenn sie nicht schnell bemerkt werden.

Die IT-Systemüberwachung und Fehlerbehebung ist von vielen Faktoren abhängig. Durch die Aufschlüsselung Ihrer IT-Umgebung in die Systeme und Ereignisse, die überwacht werden sollten, kommen Sie der Bestimmung der geeigneten Überwachungsstrategie und -lösung für Ihr Unternehmen einen Schritt näher.

Erfahren Sie mehr über SecOps

Security Operations: Aktuelles aus dem Rapid7 Blog