Netzwerk-Management

Transparenz schaffen bei Anwendungen und Infrastrukturen

von Redaktion, 15. September 2024

IT- und Cloud-Umgebungen werden immer komplexer. Konzepte wie Observability sollen sicherstellen, dass IT-Fachleute, Entwickler und Security-Spezialisten den Überblick behalten.

(Bild: Shutterstock/ Gorodenkoff)

Manchmal drängt sich der Eindruck auf, dass die Anbieter von IT-Lösungen und Beratungsfirmen ständig neue Hype-Themen erfinden, um den Nutzern von IT-Systemen, Anwendungen und Cloud-Ressourcen neue Produkte und Dienstleistungen verkaufen zu können. Auf den ersten Blick gilt das auch für das Thema Observability. Dieser Ansatz wird als Erweiterung von Lösungen für das Logging und Monitoring gehandelt, mit denen IT-Fachleute die Performance, Verfügbarkeit und Sicherheit von Anwendungen, IT-Infrastrukturen und Cloud-Services überwachen. Doch Observability hat sehr wohl seine Berechtigung. Ein Grund: „Die Komplexität moderner IT-Infrastrukturen steigt ständig an. Damit wächst die Zahl der Stellen, an denen es zu Problemen kommen kann“, sagt Frederik Bijlsma, Senior Director Central EMEA von VMware Tanzu.

Dass Infrastruktur- und Anwendungsumgebungen immer komplizierter werden, ist auf mehrere Faktoren zuzuführen. Vereinfacht gesagt, haben sich monolithische IT-Umgebungen zu Mechanismen weiterentwickelt, in denen immer mehr Räder ineinandergreifen, so Klaus Kurz, Senior Director Solution Consulting Central Europe bei New Relic, einem Anbieter von Observability-Lösungen: „Cloudnative Technologien, hybride Infrastrukturen, die Verwendung von Microservices, Container-Services und DevOps-Konzepte lassen komplexe Systeme entstehen. Services ändern sich nun laufend. Außerdem verkürzen sich die Implementierungszyklen.“

(Bild: Dynatrace) „Jeder Tipp-, Klick- oder Wischvorgang eines Benutzers, jede neue Code-Implementierung oder Architekturänderung und jeder versuchte Cyberangriff erzeugt Daten, die erfasst und analysiert werden können.“

Alexander Zachow, Regional Vice President EMEA Central, Dynatrace

Weil Anwendungen sich gegenseitig beeinflussen, können laut Kurz zudem neue oder weiterentwickelte Services Auswirkungen auf andere Systembereiche haben. Die Folgen bekommen Unternehmen täglich zu spüren. Laut der Studie „Observability Forecast 2022“ von New Relic gaben 63 Prozent der Unternehmen in der DACH-Region an, dass sie mindesten einmal pro Woche von IT-Ausfällen betroffen sind, die signifikante wirtschaftliche Folgen haben.

Monitoring reicht nicht

Allein mithilfe der Daten, die Monitoring-Tools bereitstellen, lassen sich solche negativen Effekte nicht vermeiden: „Etliche Unternehmen betreiben Multi-Cloud-Infrastrukturen mit Tausenden von Anwendungen und Millionen von Microservices. Jeder Tipp-, Klick- oder Wischvorgang eines Benutzers, jede neue Code-Implementierung oder Architekturänderung und jeder versuchte Cyberangriff erzeugt Daten, die erfasst und analysiert werden können. Hinzu kommen kontinuierliche Software-Release-Zyklen. Dies hat eine Datenexplosion zur Folge, die von Menschen nicht mehr zu bewältigen ist“, betont Alexander Zachow, Regional Vice President EMEA Central bei Dynatrace.

Monitoring stößt zudem aus einem weiteren Grund an Grenzen: Solche Lösungen überwachen ein IT-System anhand von vorab definierten Parametern wie Auslastung der Prozessoren, Netzwerkbandbreite und Ausfallzeiten. Die Grundlage bilden somit planbare und erfassbare Anforderungen und Fragen, etwa „Wie hoch ist die Auslastung der CPUs und des Arbeitsspeichers von Server A?“ oder „Hält die Anwendung B die vorgegebenen Antwortzeiten ein?“. Solche Fragen geben die IT-Fachleute eines Unternehmens vor. Das heißt, sie stützen sich auf „bekannte Unbekannte“ wie CPU-Leistung und Antwortzeiten. Eine Monitoring-Software zeigt auf, ob Fehler in einer bestimmten IT-Komponente auftreten beziehungsweise ob ein Grenzwert überschritten wurde.

Dieses Konzept weist Defizite auf, wenn zu viele Variablen vorhanden sind, etwa Microservices, verteilte Anwendungen, IT-Umgebungen, die Cloud- und On-Premises-Ressourcen kombinieren und möglicherweise über mehrere Standorte verteilt sind. Dann muss die IT-Abteilung auch Antworten auf Fragen erhalten, die sie im Vorfeld nicht definiert hat. Wenn eine Anwendung nicht die gewünschte Performance aufweist, kann dies an IT-Systemen im eigenen Rechenzentrum, an Public-Cloud-Services oder einem Update von System- oder Anwendungs-Software liegen. Auch Netzwerkverbindungen, ein Microservice und eventuell ein Cyberangriff kommen als Ursachen infrage.

Durchblick durch Observability

Hier kommt Observability ins Spiel. „Neben dem Monitoring-Part umfasst ein solches Konzept auch Log-Daten, das Tracing sowie Metriken. Dieser ganzheitliche Ansatz hat den Vorteil, dass Probleme effizient identifiziert und gelöst werden können“, sagt Martin Bauer, Partner beim IT-Dienstleister Cluster Reply.

Ganzheitlich bedeutet, dass Observability den gesamten IT-Stack einbezieht: „Dazu zählen beispielsweise die Analyse von Anwendungen, Speicher, Dienste sowie Netzwerke – und das in Echtzeit“, erläutert Tommy Ziegler, Leader Sales Engineering bei Cisco Appdynamics. „Mit Observability verschaffen sich Unternehmen einen umfassenden Einblick in das Verhalten, die Leistung und den Zustand ihrer Applikationen. Dies schließt essenzielle Telemetriedaten mit ein, etwa Metriken, Ereignisse, Logs und Traces, die in IT-Umgebungen gesammelt werden“, so der Fachmann weiter. Im Unterschied zu Monitoring sind Anwender dadurch in der Lage, im Vorfeld mögliche Engpässe und Ursachen von Performance-Einbußen zu erkennen und Vorkehrungen zu treffen.

Eine immer wichtigere Rolle spielen dabei Künstliche Intelligenz und maschinelles Lernen: „Moderne Observability-Lösungen wie Alluvio IQ nutzen KI und Machine Learning, um Daten aus dem Monitoring der Network Performance und der Digital Experience zu korrelieren. Dadurch liefern sie verwertbare Erkenntnisse über geschäftsrelevante Ereignisse“, verdeutlicht Oliver Oehlenberg, Field Chief Technology Office EMEA bei Riverbed Technology. Idealerweise werden durch den Einsatz von KI, ML und weiteren datenwissenschaftlichen Ansätzen Muster, Trends, Korrelationen und Anomalien sichtbar.

Ein weiterer Vorzug von KI und ML im Zusammenhang mit Observability ist, dass beide Technologien die Zahl der fehlerhaften Meldungen und Daten verringern, ergänzt Frederik Bijlsma von VMware Tanzu: „Ein entscheidender Vorteil, den Observability bieten kann, sind intelligente Alarme. Sie unterscheiden Fehlalarme von Ernstfällen und filtern das ‚Grundrauschen‘ heraus. Lösungen wie VMware AI Genie nutzen KI und maschinelles Lernen, um Alarme noch smarter zu machen und Vorhersagen über die Performance zu treffen.“

Observability-Varianten

Bei Observability haben sich mehrere Spielarten entwickelt. Die Lösungen der führenden Anbieter decken in der Regel all diese Varianten ab.

Data Observability: Dieser Ansatz fokussiert sich auf die Datenebene, nicht die gesamte IT-Umgebung. Das Ziel ist, die Qualitätssicherung von Daten zu optimieren und Fehlern durch unzureichende oder mangelhafte Daten vorzubeugen. Ein weiteres Element ist ein zentrales Datenmanagement, und zwar während ihres gesamten Lebenszyklus.

Model Observability: Diese Variante zielt darauf ab, hochwertige und fehlerfreie Modelle im Bereich Machine Learning zu erstellen. Ein Mittel ist die automatisierte Analyse von Problempunkten, die im Zusammenhang mit Faktoren wie Bias und einer mangelnden Datenintegrität stehen.

Network Observability: Entsprechende Lösungen nutzen die Daten von Network-Monitoring-Tools, Deep Packet Inspection und Telemetrie-Software, um eine ganzheitliche Sicht auf das Netzwerk zu erstellen. Dies erfolgt aus Sicht der Nutzer und deren Erfahrungen (User Experience) sowie der Anwendungen und Systeme, die das Netzwerk verwenden. Ebenso wie bei allen Observability-Spielarten spielen KI und Machine Learning eine wichtige Rolle, um die Analysen und das Beheben von Fehlern zu beschleunigen und zu automatisieren.

Security Observability: „Security Observability geht über das Logging und Monitoring hinaus und nutzt umfassende Daten der Umgebung sowie Applikationen, um unerwünschte Zustände und potenzielle Angriffe frühzeitig zu erkennen“, erläutert Martin Bauer, Partner von Cluster Reply. Im Idealfall lassen sich dann Angriffe unterbinden, bevor es zu einem Schaden kommt. Dies setzt voraus, dass zu jedem Zeitpunkt Informationen über den Zustand von Systemen und Applikationen vorliegen. Das reicht weiter als Security-Events in Log-Daten.

Entlastung der IT-Abteilungen

Observability-Lösungen mit KI-Funktionen entlasten außerdem die IT-Abteilungen. Das ist vor dem Hintergrund des nach wie vor gravierenden Mangels an IT-Fachkräften ein wichtiger Faktor. Denn nach einer Studie des Digitalverbands Bitkom vom November 2022 fehlen in Deutschland 137.000 IT-Fachkräfte – ein neuer Rekordwert.

„KI-Funktionen übernehmen mühsame, zeit- und konzentrationsintensive Arbeiten – und nehmen dadurch viel Druck von den Mitarbeitenden“, sagt beispielsweise Klaus Kurz von New Relic. Eine KI-Instanz könne beispielsweise eigenständig Lösungsvorschläge und Handlungsempfehlungen erarbeiten sowie neuartige Fehler erkennen, an die Entwickler beim System-Roll-out noch gar nicht dachten. Es ist absehbar, dass eine KI im Rahmen von Observability-Aufgaben künftig verstärkt automatisiert Entscheidungen treffen und umsetzen wird – unter Aufsicht von IT-Experten.

Die zentralen Funktionen

Das Beratungshaus Gartner hat im Juni 2022 im „Magic Quadrant for Application Performance Monitoring and Observability“ folgende Kernfunktionen für Observability- und APM-Lösungen definiert:

„Beobachtung“ des Transaktionsverhaltens von Anwendungen
Automatische Identifizieren und Mapping von Applikationen sowie deren Infra- strukturkomponenten inklusive Cloud-Services
Monitoring von Anwendungen, die auf mobilen Endgeräten und im Browser ausgeführt werden
Identifizierung und Analyse von Performance-Problemen und deren Auswirkungen auf das Geschäftsergebnis
Integration in Automatisierungs- und Servicemanagement-Werkzeuge sowie Zusammenarbeit mit Cloud-Plattformen
Möglichkeit, Telemetriedaten auszuwerten, etwa Log-Files, Traces und Metriken
Sicherheitsfunktionen und Analyse von sicherheitsrelevanten Vorkommnissen

Herauskristallisiert hat sich allerdings, dass weitere Funktionen erforderlich sind: „Es sind Observability-Lösungen erforderlich, die mit AIOps-Funktionen kombiniert werden und weitreichende Insights in Performance-Probleme ermöglichen“, erklärt Tommy Ziegler, Leader Sales Engineering bei Cisco Appdynamics. Störungen und Anomalien müssten sich mithilfe von Machine Learning identifizieren lassen.

Außerdem ist es Ziegler zufolge wichtig, dass die Beseitigung von Performance-Engpässen oder Störungen automatisiert abläuft.

Die drei Säulen der Observability

Der klassische Observability-Ansatz beruht auf den drei Säulen:

Logging: Klassische Log-Daten, die in großer Zahl anfallen und erfasst, konsolidiert und visualisiert werden müssen.
Metriken: Sie sind wichtig, damit sich die Performance von Anwendungen und IT-Umgebungen über einen längeren Zeitraum hinweg kontrollieren lässt. Diese Metriken erstellt das Observability-Tool. Beispiele sind klassische Wert wie CPU-Auslastung und Latenzzeiten, aber auch die Zahl der Instanzen von Microservices und die „Readiness“ von Containern.
Tracing/Traces: Die Zahl und Wege der Anfragen der Services, aus denen moderne Anwendungen aufgebaut sind. Diese Anfragen zielen unter anderem auf externe IT-Ressourcen. Bei Applikationen verfolgen Traces die gesamte „Reise“ einer Anfrage eines Nutzers, vom Start einer Anwendung auf einem Endgerät bis hin zu den Prozessen, die im Back-End ausgelöst werden.

Allerdings sind Diskussionen darüber entbrannt, ob nicht weitere Elemente berücksichtigt werden müssten. Dazu zählen die Abhängigkeiten (Dependencies) von Anwendungen von anderen Applikationen, IT-Komponenten und Ressourcen in Unternehmensrechenzentren und Cloud-Data-Centern.

(Bild: Cisco Appdynamics) „Mit Observability verschaffen sich Unternehmen einen umfassenden Einblick in das Verhalten, die Leistung und den Zustand ihrer Applikationen.“

Tommy Ziegler, Leader Sales Engineering, Cisco Appdynamics

Data Scientists und DevOps-Teams wiederum wollen die Herkunft und Qualität von Daten (Data Lineage) als weitere Säule in das Modell aufnehmen. Diese Überlegungen stellen sie auch vor dem Hintergrund an, dass
das Management von Daten und die Kontrolle über solche Informationsbestände für viele Unternehmen eine zentrale Rolle spielt.

Wichtig ist angesichts dieser Tendenzen, dass sich keine spezialisierten Observability-Lösungen herausbilden, die nicht mehr mit anderen Lösungen Daten austauschen können. Dies würde dem Ansatz zuwiderlaufen, Datensilos zu vermeiden. Stattdessen sollten Lösungen zur Wahl stehen, die sich durch einen großen Funktionsumfang, offene Schnittstellen, eine Vielzahl von Integrationen mit anderen Tools und IT-Lösungen sowie zentrale Dashboards auszeichnen.

Do it Yourself oder Komplettlösung

Auf welche Art von Observability-Lösungen ein Unternehmen zurückgreift, hängt davon ab, welche Anforderungen es hat und wie es um die Ressourcen der IT-Abteilung bestellt ist. Unternehmen mit einer hohen IT-Affinität und einer personell gut bestückten IT-Abteilung haben die Option, mithilfe von Open-Source-Tools und Frameworks wie Open Telemetry selbst eine Observability-Umgebung aufzubauen.

IT-Dienstleister wie etwa Consol Software aus München favorisieren ebenfalls quellenoffene Werkzeuge, wenn sie entsprechende Projekte bei Kunden umsetzen. Zu diesen Tools zählen beispielsweise Grafana, Prometheus, Loki und Jaeger.

(Bild: Cluster Reply)„Observability wird bei deutschen Unternehmen häufig als ‚Beifang‘ bei der Transformation zu agilen Prozessen, DevOps oder cloudnativen Applikationen eingestuft.“

Martin Bauer, Partner, Cluster Reply

Die einfachere Wahl sind Komplettlösungen. Sie stehen je nach Anbieter als Cloud-Service (SaaS), als Hosted Services oder als Software für den Einsatz im Unternehmensrechenzentrum bereit. Mittlerweile haben so gut wie alle führenden Anbieter von Lösungen für Application Performance Monitoring (APM), Monitoring und Logging ihre Produkte in Richtung Observability weiterentwickelt. Dies erfolgt teilweise durch die Übernahme von kleineren Anbietern, etwa im Fall von IBM durch den Kauf von Instana sowie bei Servicenow, das Lightstep und Era Software übernahm. Wichtig ist jedenfalls, dass die Lösung Standards wie Open Telemetry unterstützt und nicht dazu führt, dass sich der Nutzer mit einem Vendor-Lock-in konfrontiert sieht.

Außerdem sollten Observability-Lösungen Automatisierungsfunktionen bereitstellen. Das Gleiche gilt für die Option, Telemetriedaten mithilfe von Zeitreihenuntersuchungen zu analysieren, so Oliver Oehlenberg von Riverbed. „Das System sollte zudem eine Plattform nutzen, die alle Beteiligten möglichst einfach konfigurieren können“, ergänzt Martin Bauer von Cluster Reply.

Fazit & Ausblick

„Ein umfassender Observability-Ansatz kann IT- und DevOps-Teams dabei helfen, hybride und Multi-Cloud-Umgebungen kontinuierlich zu analysieren, anzupassen und zu automatisieren. Das Ergebnis: Diese Teams agieren nicht mehr reaktiv, sondern optimieren proaktiv die IT-Strukturen“, fasst Alexander Zachow von Dynatrace die Vorteile von Observability zusammen.

Doch diese Botschaft scheint in vielen Unternehmen in Deutschland noch nicht angekommen zu sein, wie Martin Bauer von Cluster Reply bemängelt: „Aufgrund der späten Adaption der Cloud-Technologie ist Observability für deutsche Unternehmen noch ein neues Thema. Häufig wird es als ‚Beifang‘ bei der Transformation zu agilen Prozessen, DevOps oder cloudnativen Applikationen eingestuft.“

Doch ein „Abfallprodukt“ ist Observability in keinem Fall. Wer die Kontrolle über eine moderne IT-Umgebung mit On-Premises- und Cloud-Komponenten, Microservices und Containern behalten möchte, wird nicht umhinkommen, sich mit dem Thema zu beschäftigen. Sonst riskiert er, dass die Reise ins digitale Zeitalter zu einem Blindflug wird.

„Die Performance wird von ‚unbekannten Unbekannten‘ bestimmt“

Je mehr IT-Infrastrukturkomponenten, Cloud-Dienste, Microservices und verteilte Anwendungen zusammenspielen, desto schwerer fällt es, die Performance und Verfügbarkeit einer IT-Umgebung sicherzustellen. Wie Observability den Einfluss von „unbekannten Unbekannten“ transparent macht, erläutert Stéphane Estevez, EMEA Director of Product Marketing Observability & IT Markets bei Splunk.

Stephane Estevez (Bild: Splunk)Stéphane Estevez, EMEA Director, Splunk

com! professional: Herr Estevez, es gibt mittlerweile ja zig Definitionen von Observability. Was versteht Splunk darunter?

Stéphane Estevez: Der Begriff tauchte auf, als Unternehmen damit begannen, in großem Maßstab Microservices und Container einzusetzen. Zuvor haben wir monolithische Anwendungen immer auf die gleiche Weise überwacht und Fehler behoben. Aber jetzt, da Anwendungen hochgradig verteilt sind, gibt es viele „unbekannte Unbekannte“, die sich auf die Gesamtleistung und Verfügbarkeit auswirken. Diese verteilten Dienste, die oft nur kurzfristig bestehen, lassen sich mit traditionellen Tools schwer beobachten.

com! professional: Was ist dazu nötig?

Estevez: Es fehlen wichtige Daten wie Logs, Metriken und Traces. Wir müssen diese auf eine neue Art sammeln, und zwar in Echtzeit unter Verwendung von Streaming-Technologien und in voller Wiedergabetreue. Um Observability zu verstehen, können wir die Analogie des Survivorship Bias verwenden (Verzerrung zugunsten der Überlebenden). Sie beschreibt einen logischen Fehler, den Menschen begehen, wenn sie sich auf das konzentrieren, was sie sehen können, statt nach dem zu suchen, was sie nicht sehen können.

com! professional: Observability soll also Zusammenhänge transparent machen, die sich mit klassischen Mitteln nicht erkennen lassen?

Estevez: Ja, Observability ist ein Datenproblem. Ich muss mich fragen: „Verfüge ich über alle erforderlichen Daten, um mein System beobachtbar zu machen und es dann auf die richtige Weise zu überwachen?“ Die meisten Tools für das Application Performance Management verwendeten vor Observability beispielsweise Stichproben von Daten. Das heißt, sie analysierten nur ein Prozent der Transaktionen, um Schwachstellen zu finden. Doch damals waren die Erwartungen der Benutzer niedriger. Heute müssen Unternehmen jede Transaktion jedes Benutzers verstehen, um sicherzustellen, dass die Ursache eines Problems schneller gefunden und der bestmögliche Service geboten werden kann.

com! professional: Können Sie ein Beispiel nennen, welche weiteren Daten nötig sind?

Estevez: Nehmen Sie ein Unternehmen, das seine virtuellen Maschinen bisher jede Minute überwacht hat. Daher wird das IT-Betriebsteam dies auch bei Containern tun. Doch das bedeutet, dass in den Zeitintervallen zwischen jeder Minute die Container unbeobachtet bleiben. Da Container allerdings oft sehr kurzlebig sind, kann es sein, dass ein Speicherleck oder ein anderes Problem in einem Zeitsegment von wenigen Millisekunden auftritt. Wenn die Überwachung nicht im selben Intervall stattfindet, kann ein Anwender daher Probleme bekommen und vielleicht nicht einmal bemerken, was zwischen beiden Messungen passiert ist. Werden dagegen Daten in Echtzeit erfasst, lassen sich Container besser und engmaschiger beobachten, Stichwort Observability.

„Firmen können sich angesichts der zunehmenden Digitalisierung nicht leisten, blind zu sein, wenn es um die tatsächliche Leistung von Anwendungen aus Sicht der Endnutzer geht.“

com! professional: Das heißt, IT-Abteilungen müssen umdenken?

Estevez: Ja, Observability ist eine Denkweise. Wie auch immer künftige IT-Technologien und Codierungstechniken aussehen, müssen wir uns vor Augen halten, dass wir derzeit nur wissen, dass wir eben nicht alles wissen. Daher sollten wir weiter nach den unbekannten Daten suchen, die erforderlich sind, um Systeme beobachtbar zu machen. Denn ein immer größerer Teil der Interaktionen zwischen Kunden und Unternehmen findet digital statt. Daher können es sich Firmen nicht leisten, blind zu sein und dies zu bleiben, wenn es um die tatsächliche Leistung von Anwendungen aus Sicht der Endnutzer geht.

Monitoring vs. Observability
Monitoring	Observability
Überwachung von definierten Systemen: Ein Beispiel ist etwa die kontinuierliche Analyse der „Gesundheit“ wichtiger Systeme, Anwendungen und Services	Interpretiert Daten von komplexen, variablen Systemen und Anwendungsumgebungen (Clouds, Hybrid-IT-Umgebungen). Bereitstellen von granularen „Insights“ und Debugging-Informationen, um Fehler nach Möglichkeit proaktiv zu beseitigen
Tracking von vordefinierten Metriken und Log-Daten: Ausgeben von Warnmeldungen, wenn Grenzwerte überschritten werden. Nutzer müssen jedoch vorgeben, welche Daten von welchen IT-Komponenten abgefragt werden	Stellt verwertbare Informationen zur Verfügung. Intelligente Verfahren (KI, Machine Learning, Analytics) kommen bei der Analyse von Telemetriedaten zum Einsatz und setzen diese in verwertbare Erkenntnisse um. Dadurch lassen sich automatisch Änderungen und Optimierungen an IT-Infrastrukturen und Anwendungsumgebungen vornehmen
Sammeln von Daten: Infrastruktur-Monitoring erfasst Metriken wie Auslastung von CPU und RAM, Antwortzeiten, Fehlerraten und Latenzwerte	Stellt verwertbare Informationen zur Verfügung. Intelligente Verfahren (KI, Machine Learning, Analytics) kommen bei der Analyse von Telemetriedaten zum Einsatz und setzen diese in verwertbare Erkenntnisse um. Dadurch lassen sich automatisch Änderungen und Optimierungen an IT-Infrastrukturen und Anwendungsumgebungen vornehmen

Services und Lösungen im Bereich Observability (Auswahl)
Anbieter	Lösung(en)	Details
Acceldata www.acceldata.io	Acceldata Data Observability Cloud	Cloudbasierte Plattform für Observability im Bereich Daten; Identifizierung von Defiziten in Bereichen wie Skalierung, Optimierung und Performance; Überprüfung unterschiedlichen Datenströmen, Datenbanken und Dateien; technische Basis: Spark
Alibaba Cloud www.alibabacloud.com/de	Application Real-Time Monitoring Service (ARMS); Cloud Monitor; Log Service	ARMS also cloudbasierter Monitoring-Services für Application Performance Management (APM) ; Cloud Monitor für automatisiertes Performance-Monitoring von Web-Ressourcen und Anwendungen; Log Service mit Schwerpunkt auf Data-Logging, inklusive Erfassen, Aufbereiten und Analysieren von Log-Daten
AWS https://aws.amazon.com/de	Amazon Cloud Watch; AWS X-Ray; Amazon DevOps Guru	Cloud Watch als SaaS-Angebot; Erfassen und Analysieren von Performance-Daten von Servern, Storage, Netzwerksystemen, Datenbanken; für Public- und Hybrid-Cloud-Umgebungen und On Premises; AWS X-Ray für Analyse und Debugging von verteilten Anwendungen (Microservices); DevOps Guru mit Machine-Learning-Funktionen für Optimierung der Verfügbarkeit von Applikationen und Serverless Computing
Broadcom www.broadcom.com	AIOps from Broadcom; DX APM	Basis des Observability-Angebots: AIOps-Lösung von Broadcom (KI-Unterstützung, AI Operations); u. a. Funktionen für Application Performance Monitoring (APM), IT-Infrastruktur-Monitoring und Überwachung von IT-Security-Prozessen; Unterstützung von Cloud-, On-Premises- und Hybrid-Cloud-Umgebungen
Cisco (AppDynamics) www.appdynamics.com/	Cisco AppDynamics Cloud	Observability für gesamten IT-Stack, inklusive der Performance von IT-Infrastruktur, Netzwerk, Sicherheitssystemen und Anwendungen; mit Runtime Application Self-Protection (RASP) und Analyse der User Experience; Root Cause Analysis (RCA); Unterstützung von Container-Umgebungen und Enterprise-Anwendungen wie SAP sowie von Public-Clouds wie AWS, IBM, Microsoft Azure
Consol www.consol.de	Beratung und Unterstützung bei der Planung, der Implementierung und dem Betrieb von Obserbability-Lösungen	Basis: Open-Source-Lösungen wie Prometheus, Loki, Grafana und Jaeger; auf Wunsch Unterstützung der ITOps-, IT-Management-, Cloud- und Monitoring-Fachleute eines Unternehmens durch Spezialisten von Consol; Anwendungsbeispiele: Site Reliability Engineering, Monitoring und Weiterentwicklung in Richtung Observability
Cribl https://cribl.io	Cribl Suite mit Cribl Stream, Edge und Search sowie Cribl Cloud	Cribl Stream für Aufbau von herstellerunabhängigen Observability-Pipelines; Sammeln, Erfassen, Aufbereiten, Konsolidieren und Weiterleiten von entsprechenden Daten; Anpassung der Daten an Observability-Tools; Cribl Edge als Stream-Variante für den Einsatz in Edge-Computing-Umgebungen; Cribl Search als Tool für Suche nach Daten in allen Forman in Log-Stores, Data Lakes, auf Edge-Systemen und in Datenbanken; lokales Analysieren von Daten; Cribl Cloud als cloudbasierte Lösung mit Stream, Edge und Search
Datadog www.datadoghq.com/	Datadog Observability Platform	SaaS-Angebot; Plattform für Metriken, Traces, Protokolle, Events und Security-Meldungen; Anreicherung mit kontextbezogenen Metadaten durch Machine Learning; Überwachung u. a. von Anwendungs-Performance, Serverless-Computing-Instanzen, Netzwerk, Infrastruktur und User Experience; mehr als 600 Integrationen, etwa für AWS, Azure, Kubernetes, Kafka
Dynatrace www.dynatrace.de	Dynatrace Software Intelligence Platform	Bereitstellung als SaaS und On-Premises; einzelne Module können separate genutzt werden, etwa Infrastructure Monitoring; Full-Stack-Analyse von IT- und Cloud-Umgebungen; Funktionen u. a. Root Cause Analysis (RCA), CloudOps, IT-Infrastruktur-Monitoring, Application Performance Monitoring, AIOps und Aufspüren von IT-Security-Problemen; Überwachung und Prüfung von Service-Level Objectives (SLOs)
Elastic www.elastic.co/de	Elastic Observability	Als SaaS, On Premises und als Bare-Metal-Version verfügbar; Basis: Open-Source-Stack ELK (Elastic, Logstash, Kibana); Zusammenführen von Metriken, Logs und Traces und Erstellen von Inisghts; Unterstützung von Open Telemetry; hohe Flexibilität und Erweiterbarkeit; Unterstützung einer Vielzahl von Datentypen; IT-Security-Funktionen wie Behavioral Analytics, Absicherung von Endpoints sowie Schutz vor Malware
Google https://cloud.google.com	Google Cloud Monitoring; Google Cloud Logging; Google Cloud Trace	Mehrere Cloud-Services für Observability, Tracing, Monitoring und Logging; als Paket verfügbar über Google Cloud Operations Suite; Cloud Logging für Erfassen und Analysieren von Log-Daten; Cloud Trace mit Integration in Open Telemetry; u. a. Funktion für Verfolgen von Latenzen und Verkehrsmustern; Dashboard und Service Level Objectives über Cloud Monitoring
Grafana https://grafana.com	Grafana Cloud	Integration der Metriken, Traces und Log-Daten von anderen Observability-Lösungen wie Datadog, New Relic und Dynatrace; Visualisierung mit Grafana; Optionen u. a. Full-Stack-Monitoring mit Grafana-Client, Bring Your Own Data und Konsolidierung von Datenbeständen; mehr als 100 Metriken unterstützt
Honeycomb www.honeycomb.io	Honeycomb	SaaS-Lösung; Basis: Open-Telemetry-Spezifikation; mit Data Store und Abfragemodul (Query Engine); Analyse von Anomalien in Anwendungen und IT-Infrastruktur; Security- und Compliance-Funktionen, inklusive Unterstützung der regulatorischer Vorgaben wie DSGVO; Beseitigung von Problemen mit User Experience durch Service Level Objectives (SLO); Tool (BubbleUp) für höherer Transparenz von Anomalien
IBM www.ibm.com/de-de	IBM Instana Observability; IBM Cloud Pak for Watson AIOps, IBM Data Observability with Databand; IBM SevOne Network Performance Management	Instana Observability als Plattform für APM, Monitoring von Web-Sites, Clouds, Infrastruktur und Microservices; inklusive Automatisierung, kontextbezogener Analysen, Root-Cause-Analysen; IBM Data Observability with Databand für Echtzeit-Monitoring und -Analyse von datenbezogenen Aktivitäten, der Datenqualität, Anomalien und Data Pipelines; SevOne NPM für Network Monitoring und NetOps-Teams; Cloud Pak for Watson AIOps als AIOps-Plattform mit KI-gestützter Analyse von Performance-Daten und Abhängigkeiten in komplexen IT-Umgebungen; Zielgruppe ITOps- und SRE-Fachleute (Site Reliability Engineering)
LogicMonitor www.logicmonitor.com	LogicMonitor Platform	Plattform für Observability, IT-Sicherheits- und Application Performance Monitoring; inklusive AIOps (AI Operations); Vielzahl von Monitoring-und Analysefunktionen, etwa für Infrastruktur, Netzwerk, Cloud, Logs, VMs, Container, Server
Logz.io https://logz.io	Logz.io Platform	Plattform für Observability, IT-Sicherheit und Application Performance Monitoring; Einsatz von Open-Source-Lösungen, etwa Log-Management ELK (Elasticsearch, LogStash, Kibana), Infrastruktur-Monitoring mit Prometheus Grafana; Cloud-SIEM verfügbar; Unterstützung von Containern und Cloud-Umgebungen von AWS und Microsoft
ManageEngine www.manageengine.de	ManageEngine Applications Manager	ManageEngine Sparte von Zoho; Schwerpunkt auf Application Performance Monitoring (APM) und Server-Monitoring in physischen, virtualisierten und Cloud-Umgebungen; Root-Cause-Analyse für Identifizierung von Engpässen
Micro Focus www.microfocus.com/de-de/home	Micro Focus Operations Bridge	SaaS-, Hybrid-Cloud- und On-Premises-Lösung mit AIOps-Funktionen (AI Operations) für Event- und Performance-Management; für gesamten IT-Stack ausgelegt (IT-Systeme, Services, Datenbanken, Netzwerk, Betriebssysteme); proaktive Analyse von potenziellen Performance- und IT-Sicherheitsproblemen
Microsoft https://azure.microsoft.com/de-de	Azure Monitor	als SaaS über die Microsoft-Azure-Cloud verfügbar; Informationen (Insights) zu Applikationen, Virtual Machines, Netzwerkressourcen und Containern; Unterstützung von Open Telemetry; IT-Sicherheitsfunktionen auf Basis von Microsoft Sentinel und Microsoft Defender for Cloud; Analyse des Nutzerverhaltens
NetApp www.netapp.com/de/	BlueX Cloud Insights; Cloud Insights for AWS	Lösung für Hybrid- und Multi-Cloud-Monitoring von Infrastrukturen und Anwendungen; Observability-Funktionen für gesamten IT-Stack und Workloads, inklusive Kubernetes, NetApp Ontap, Datenbanken wie MySQL und MongoDB, Openstack; Analyse mit Unterstützung von KI und Machine Learning; Sicherheitsfunktionen wie Erfassen ungewöhnlicher Zugriffe auf Daten und Systeme
New Relic https://newrelic.com/de/	New Relic One Platform	SaaS-Lösung; Funktionen u. a. APM, Real User Monitoring, Analyse und Überwachung von Infrastruktur und Netzwerken; Details zu Sicherheit und Verwundbarkeit (Vulnerability) von Hard- und Software sowie Service; KI-gestützte Analysen mit Lösungs- und Handlungsvorschlägen für IT-Teams; Zielgruppen DevOps, ITOps, Entwicklungsabteilungen, DevSecOps-Teams
Oracle www.oracle.com/de/	Oracle Cloud Observability and Management Platform	Observability für Multi-Cloud- und IT-Infrastrukturumgebungen; Analysen und Automatisierung über gesamten IT-Stack hinweg; Monitoring und Management u. a. von Anwendungen und Datenbanken, beispielsweise beim Zuweisen von IT-Ressourcen; flexible Implementierung (Cloud, On Premises); Anbindung externer Tools
Paessler www.paessler.com/de/	Paessler PRTG Network Monitor; PRTG Enterprise Monitor	Lösung aus Monitoring-Bereich; On Premises und als gehosteter Cloud-Dienst verfügbar; Vielzahl von Sensoren für Monitoring von IT-Umgebungen; Schwerpunkt auf kleineren und mittelgroßen Infrastrukturen; PRTG Enterprise Monitor für große IT-Umgebungen; Anbindung an Observability-Plattform von Grafana möglich
Riverbed www.riverbed.com/de	Riverbed Alluvio IQ Unified Observability Service	Alluvio Unified Observability als SaaS-basierter Service; Performance-Management von Anwendungen und Netzwerken; Analyse der User Experience; Überwachung der IT-Infrastruktur; automatisierte, kontextbezogene Analysen mit Unterstützung von KI und Machine Learning; Identifizierung von Korrelationen über Zeitreihen, Geräte, Standorte und Anwendungen hinweg; Telemetrieservice (Full Fidelity Telemetry) mit hoher Genauigkeit und Zahl von Datenpunkten
Servicenow www.servicenow.com	Now Platform	Observability-Funktionen durch Kauf von Lightstep und Era Software; Lightstep mit Telemetrie-Funktionen und Unterstützung von Open Telemetry; Kombination und Analyse von Logs, Metrik-Daten und “Traces”, um Performance, Nutzerfahrung zu optimieren; Era Software mit Schwerpunkt auf Log-Management
Site24x7 www.site24x7.com	24×7 All-in-One Monitoring	Lösung von Zoho und Zoho-Sparte ManageEngine; Plattform für Observability des gesamten IT-Stack; mit APM, Infrastruktur- und Log-Monitoring, Analyse der Nutzerfahrung (Real User Monitoring); Integration von AIOps und Unterstützung von Open Telemetry
Solarwinds www.solarwinds.com/de/	Hybrid Cloud Observability; APM Integrated Experience	Hybrid Cloud Observability für Observability in Multi-Cloud-, Hybrid-Cloud- und Private-Clouds sowie On-Premises-Umgebungen; Übersicht über gesamte IT-Infrastruktur, inklusive Netzwerk, Anwendungen, Datenbanken; APM Integrated Experience mit Schwerpunkt auf Monitoring (Applikationen, Web-Anwendungen, Infrastruktur) und Analyse von Log-Daten
Spike Reply ww.reply.com/spike-reply/de/	SIEM-Services mit Security-Observability-Diensten	Schwerpunkt auf IT-Sicherheit; Ergänzung von Security Information and Event Management um Security Observability; Ziel: proaktive Identifizierung und Abwehr von Cyber-Angriffen; Analyse des Zustands von Systemen, Anwendungen, Containern, virtualisierten und Cloud-Ressourcen
Splunk www.splunk.com/de_de	Splunk Observability Cloud	Funktionen u. a. Monitoring der IT-Infrastruktur, Performance von Anwendungen, Real User Monitoring, Log-Analyse und Incident Response; Basis: Open-Telemetry-Spezifikation; Möglichkeit, proaktive Analysen durchzuführen, um Probleme frühzeitig zu beseitigen, inklusive Hinweisen zu deren Behebung
StrongDM www.strongdm.com/	StrongDM Infrastructure Access Platform	Spezielle Lösung für Data Observability und Data Monitoring; Einsatzfelder: Management, Schutz und Qualitätskontrolle von Daten; Kontrolle des Zugriffs; Analyse u. a. von Update-Zyklen von Daten, Änderungen an Datentabellen sowie der Datenwerte
Stackstate www.stackstate.com	Stackstate Platform	Anbieter aus den Niederlanden; cloudbasierte Lösung (Private, Public, Hybrid); erstellt topologiebasierte Auswertungen von Beziehungen und Abhängigkeiten in einer IT-Umgebung; Identifizierung der Ursachen (Root Causes) von Problemen; Integration externer Tools wie Azure Monitor und AWS X-Ray
Sumo Logic www.sumologic.com/de/	Sumo Logic Plattform	Cloud-Plattform (SaaS); Analyse von Verfügbarkeit, Sicherheit und Performance ; inklusive Infrastruktur-Monitoring, Cloud-Log-Management, Observability von Applikationen und Cloud-Security-Analyse; Unterstützung von Open Telemetry für Erfassen und Analysieren von Telemetriedaten von Anwendungen Betriebssystemen, Nutzungsverhalten und Content Delivery Networks wie Akamai
Usu www.usu.com/de-de	Usu IT Monitoring	Lösung für IT-Monitoring (Application-, Server- und Service-Level-Monitoring; Überwachung von Kapazitäten und Cloud-Ressourcen; Observability-Funktionen für proaktives Ermitteln von Mustern, Anomalien und systembedingten Problemen
VMware www.vmware.com/de	VMware Aria Operations for Applications	Full-Stack-Observability; Schwerpunkt: Multi-Cloud-Umgebungen, aber auch einsetzbar in Hybrid-Cloud- und On-Premises-Infrastrukturen; Echtzeitanalysen mit Unterstützung von KI; Unterstützung von Microservices, Kubernetes, Openshift und Serverless-Computing-Metriken; APM; Zielgruppen: Unternehmen (Anwender), aber auch Managed Services Provider