← Alle Insights / Datenqualität: Was sie ausmacht und was schlechte Daten kosten / Wie gut sind unsere Daten? Datenqualität bewerten
Insight

Wie gut sind unsere Daten? Datenqualität bewerten

Datenqualität bewertet man in vier Schritten: die wichtigsten Datenbestände auswählen, gegen die Qualitätsdimensionen messen, nach Geschäftswirkung priorisieren und eine Baseline festhalten. Der übliche erste technische Schritt ist Data Profiling.

daten-bewerten

Wie bewertet man Datenqualität?

Eine Bewertung folgt vier Schritten:

Datenbestände auswählen. Nicht alles auf einmal, sondern die Objekte, an denen Umsatz und Entscheidungen hängen. Gegen die Dimensionen messen. Vollständigkeit, Korrektheit, Konsistenz, Aktualität und Eindeutigkeit als konkrete Kennzahlen erheben. Die fünf Dimensionen von Daten erklärt der Beitrag: Welche Dimensionen hat Datenqualität? 'Nach Geschäftswirkung priorisieren*. Ein Fehler im Preisfeld wiegt schwerer als ein leeres Notizfeld. Baseline festhalten. Den Ausgangswert dokumentieren, damit Verbesserung später sichtbar wird.

Was ist Data Profiling?

Data Profiling ist die systematische Untersuchung vorhandener Daten auf Struktur, Inhalt und Auffälligkeiten. Man unterscheidet zwei Arten. Spaltenbasiertes Profiling liefert statistische Kennzahlen je Feld, etwa Füllgrad, Wertebereiche und Häufigkeiten. Regelbasiertes Profiling prüft die Daten gegen fachliche Regeln, zum Beispiel ob jede Bestellung einen gültigen Kunden hat. Beides geht mit gängigen Datenqualitäts-Werkzeugen oder mit eigenen Abfragen.

Welche Daten bewertet man zuerst?

Beginnen Sie mit den Datenobjekten, an denen das meiste Geld und die wichtigsten Entscheidungen hängen. Im E-Commerce sind das in der Regel Produkt- und Kundenstammdaten. Eine vollständige Bewertung aller Bestände auf einmal ist teuer und selten nötig, eine fokussierte auf die kritischen Objekte bringt schnell brauchbare Ergebnisse.

Wie wird aus der Bewertung eine Kennzahl?

Jede Dimension lässt sich als Prozentwert ausdrücken, etwa als Anteil der Datensätze, die ein Kriterium erfüllen. Trägt man diese Werte je Datenobjekt in eine Übersicht ein, entsteht eine Art Heat-Map, die zeigt, wo die größten Probleme sitzen und welche davon geschäftlich am meisten wehtun. Aus dieser Übersicht leiten sich die ersten Maßnahmen ab. Dieses Vorgehen, von Data Profiling bis zur Heat-Map, entspricht dem von Gartner beschriebenen Standardansatz.

Wie oft sollte man Datenqualität bewerten?

Einmal als Baseline, danach fortlaufend. Die erste Bewertung ist eine Momentaufnahme. Sie liefert den Startwert, gegen den sich jede spätere Verbesserung überhaupt erst messen lässt, altert aber ab dem Tag ihrer Erhebung, weil laufend neue Daten entstehen und bestehende veralten. Eine einmalige Messung zeigt Ihnen, wo Sie heute stehen, nicht, ob Ihre Maßnahmen wirken oder ob die Qualität an anderer Stelle nachlässt.

Den eigentlichen Nutzen entfaltet die Bewertung deshalb erst, wenn aus der einmaligen Messung dieselben Kennzahlen werden, die Sie dauerhaft im Blick behalten. So werden Fortschritte sichtbar, und neue Probleme fallen auf, bevor sie nachgelagerte Prozesse erreichen. Wie aus der Baseline eine fortlaufende Überwachung wird, steht im Beitrag zum Monitoring.

Zur Übersicht: Datenqualität

DatenqualitätData ProfilingAssessment
// Gefällt dir diese Perspektive?

Schick uns dein echtes Problem.

Ein echtes — kein Briefing. Wir schicken innerhalb von fünf Werktagen einen Arbeitsentwurf zurück. Kostenlos, kein Deck, keine Verpflichtung.