Datenqualität überwachen: Monitoring und Data Observability

Was ist Data Quality Monitoring?

Data Quality Monitoring ist die laufende Prüfung von Daten gegen definierte Erwartungen, im Gegensatz zur einmaligen Bewertung, die nur einen Startwert liefert. Statt einmal zu prüfen, ob die Daten in Ordnung sind, beobachtet Monitoring kontinuierlich, ob sie es bleiben, und schlägt Alarm, sobald eine Kennzahl aus dem definierten Rahmen läuft. Ziel ist, ein Problem zu erkennen, solange es noch in der Pipeline steckt, und nicht erst, wenn ein falscher Bericht beim Vorstand liegt oder ein Kunde eine falsche Lieferung erhält. Die Grundlage dafür ist eine erste Bestandsaufnahme, wie sie der Beitrag zum Bewerten von Datenqualität beschreibt: Sie liefert die Baseline, gegen die das Monitoring später misst.

Was unterscheidet Monitoring von Data Observability?

Klassisches Monitoring prüft, was man vorher als Regel definiert hat. Man schreibt einen Test für eine bekannte Erwartung, etwa dass ein Pflichtfeld nie leer sein darf, und der Test schlägt an, wenn die Regel verletzt wird. Das funktioniert gut für bekannte Fehler, übersieht aber alles, woran beim Schreiben der Regeln niemand gedacht hat.

Data Observability erweitert diesen Ansatz um die unbekannten Fehler. Sie überträgt das aus der Software bekannte Prinzip der Observability auf Daten: Statt fester Regeln lernt das System mit maschinellen Verfahren das normale Verhalten jeder Datenquelle und meldet Abweichungen davon. Den verbreitetsten operativen Rahmen prägte der Anbieter Monte Carlo, der die Kategorie 2019 begründete. Er fasst Data Observability in fünf Säulen: Aktualität (Freshness), Volumen, Schema, Verteilung (Distribution) und Lineage, also die Herkunft und die Abhängigkeiten zwischen Datenbeständen. Diese fünf Säulen stammen von einem Anbieter, haben sich aber als gängige Checkliste etabliert. Gartner schneidet die Kategorie in seinem Market Guide for Data Observability Tools (Februar 2026) etwas anders und nennt fünf Beobachtungsfelder: Dateninhalt, Datenfluss und Pipeline, Infrastruktur, Lineage und Kosten. Beide Sichtweisen meinen dasselbe Anliegen, nämlich den Gesundheitszustand der Daten über den gesamten Weg hinweg sichtbar zu machen.

Welche Kennzahlen überwacht man im Data Monitoring?

Im Monitoring laufen zwei Ebenen zusammen. Die erste sind die inhaltlichen Qualitätskennzahlen, also die fünf Dimensionen der Datenqualität als fortlaufende Messgrößen: der Anteil befüllter Pflichtfelder, die Übereinstimmung über Systeme hinweg, das Alter der Daten gegen die erlaubte Höchstdauer und der Anteil eindeutiger Datensätze. Die zweite Ebene sind operative Kennzahlen zum Umgang mit Vorfällen: wie viele Datenvorfälle auftreten, wie lange es bis zu ihrer Entdeckung dauert (Time to Detection) und wie lange bis zur Behebung (Time to Resolution). Sinnvoll wird das Ganze erst, wenn man je kritischem Datenbestand festlegt, welcher Wert akzeptabel ist, vergleichbar mit einem Service Level für Daten.

Warum reichen Tests allein nicht?

Weil Tests nur das abfangen, was jemand vorausgesehen und als Regel formuliert hat. Sie können nicht jede Art vorhersehen, auf die eine Pipeline brechen kann. Wie deutlich diese Lücke ist, zeigt eine von Monte Carlo beauftragte Befragung (Wakefield Research, 200 Datenfachleute, 2023): Die teilnehmenden Teams setzten im Schnitt rund 290 Tests ein, und trotzdem stieg die Zahl der Datenvorfälle weiter. Besonders aufschlussreich ist, dass 74 Prozent berichteten, Probleme würden zuerst von Fachbereichen bemerkt, nicht vom Datenteam, nach 47 Prozent im Vorjahr. Genau dort setzt die anomaliebasierte Überwachung an: Sie soll die Fehler finden, für die niemand einen Test geschrieben hat. Die Zahlen stammen aus einer Anbieter-Befragung und sind entsprechend einzuordnen, das Muster ist aber plausibel.

Wie führt man Monitoring ein?

Sinnvoll ist ein schrittweises Vorgehen. Den Anfang macht die Baseline aus der ersten Bewertung, die zeigt, wo die größten Probleme sitzen. Darauf wählt man die kritischen Datenbestände aus, an denen Umsatz und Entscheidungen hängen, statt alles gleichzeitig zu überwachen. Für diese Bestände legt man je Kennzahl fest, welcher Wert akzeptabel ist, und automatisiert die Prüfung. Wo die Bestände groß und veränderlich sind, lohnt sich anomaliebasierte Erkennung, weil man sonst für jede Tabelle Schwellwerte von Hand pflegen müsste. Entscheidend ist danach, dass ein Alarm bei der richtigen Person landet, also bei der für den Bestand verantwortlichen Rolle, was die Data Governance regelt. Schließlich verfolgt man die operativen Kennzahlen, vor allem die Zeit bis zur Entdeckung und bis zur Behebung, denn ein Vorfall, der lange unbemerkt bleibt, richtet den meisten Schaden an.

Welche Monitoring-Werkzeuge gibt es?

Die Werkzeuge lassen sich grob in drei Gruppen einteilen. In die Pipeline eingebettete Tests prüfen bei jeder Verarbeitung gegen feste Regeln, etwa über dbt-Tests, Great Expectations oder Soda. Eigenständige Observability-Plattformen, zu denen Monte Carlo und mehrere andere Anbieter zählen, ergänzen das um automatische, lernende Überwachung und Lineage. Und viele Datenplattformen bringen inzwischen eigene Qualitätsfunktionen mit. Gartner unterscheidet im Market Guide vor allem zwischen eigenständigen und eingebetteten Lösungen und empfiehlt, beworbene KI-Funktionen in einer Pilotphase zu prüfen, statt sie für bare Münze zu nehmen. Eine konkrete Werkzeugwahl hängt vom vorhandenen Stack ab, das Prinzip bleibt aber gleich: messen, früh erkennen, an die richtige Stelle melden, beheben.

Wie verbreitet ist das, und lohnt es sich?

Monitoring ist von der Kür zur Pflicht geworden. Laut Gartners 2025 State of AI-Ready Data Survey hatten 53 Prozent der Daten- und KI-Verantwortlichen Data-Observability-Werkzeuge bereits eingeführt, weitere 43 Prozent planten es binnen 18 Monaten. Treiber ist vor allem die KI: Ein Mensch, der einen falschen Bericht sieht, trifft eine falsche Entscheidung, ein Agent handelt automatisch und im großen Stil. Genau deshalb betont Gartner im Market Guide (2026), dass eine einmalige Prüfung nicht mehr genügt und Daten fortlaufend auf Qualität geprüft werden müssen, damit KI verlässliche Eingaben erhält. Warum die Datenbasis über Erfolg und Scheitern von KI entscheidet, vertieft der Beitrag Warum KI-Projekte an der Datenqualität scheitern.

Zur Übersicht: Datenqualität

Was ist Data Quality Monitoring?

Was unterscheidet Monitoring von Data Observability?

Welche Kennzahlen überwacht man im Data Monitoring?

Warum reichen Tests allein nicht?

Wie führt man Monitoring ein?

Welche Monitoring-Werkzeuge gibt es?

Wie verbreitet ist das, und lohnt es sich?

Schick uns dein echtes Problem.

Mehr aus /Insights

Datenqualität: Was sie ausmacht und was schlechte Daten kosten

Wie gut sind unsere Daten? Datenqualität bewerten