← Alle Insights / Datenqualität: Was sie ausmacht und was schlechte Daten kosten / Die Dimensionen der Datenqualität
Insight

Die Dimensionen der Datenqualität

Datenqualität wird an mehreren Dimensionen gemessen. Die fünf wichtigsten sind Vollständigkeit, Korrektheit, Konsistenz, Aktualität und Eindeutigkeit. Manche Modelle ergänzen Gültigkeit und Integrität.

data-dimensions

Was bedeutet Vollständigkeit?

Vollständigkeit fragt, ob alle erforderlichen Werte vorhanden sind. Ein Kundendatensatz ohne E-Mail-Adresse ist für eine Newsletter-Kampagne unvollständig, auch wenn alle anderen Felder stimmen. Messen lässt sich das als Anteil leerer Pflichtfelder, je Datensatz und über die Zeit beobachtet.

Was bedeutet Korrektheit?

Bei der Korrektheit geht es darum, ob ein Wert die Realität richtig abbildet. Eine alte Lieferadresse kann vollständig und trotzdem falsch sein. Korrektheit prüft man durch Abgleich gegen eine verlässliche Referenz, etwa eine Adressvalidierung oder einen Abgleich mit einem führenden System.

Was bedeutet Konsistenz?

Konsistenz prüft, ob dieselbe Information über Systeme und Datensätze hinweg übereinstimmt. Wenn ein Kunde im CRM anders heißt als im ERP und im Shop, ist die Konsistenz verletzt. Laut [Gartner]{slug:https://www.gartner.com/en/data-analytics/topics/data-quality) gilt Inkonsistenz als das am schwersten zu lösende Qualitätsproblem, weil sie aus getrennten Silos entsteht. Messbar wird sie über systemübergreifende Abgleiche definierter Schlüsselfelder.

Was bedeutet Aktualität?

Aktualität sagt, ob die Daten zum Zeitpunkt der Nutzung noch gelten. Daten beginnen ab ihrer Erfassung zu veralten, manche in Minuten, manche nie. Geprüft wird das Alter eines Datensatzes gegen die fachlich erlaubte Höchstdauer: Ein Lagerbestand muss nahezu in Echtzeit stimmen, ein Geburtsdatum bleibt gültig.

Was bedeutet Eindeutigkeit?

Eindeutigkeit verlangt, dass jeder reale Sachverhalt genau einmal abgebildet ist. Dubletten, also derselbe Kunde in mehreren Schreibweisen, verfälschen jede Zählung und Auswertung. Erkennen lässt sich das über Matching-Regeln und den Anteil zusammengeführter Datensätze.

Gibt es weitere Dimensionen?

Ja. Je nach Framework kommen vor allem zwei hinzu. Gültigkeit, auch Validität genannt, beschreibt, ob ein Wert dem erlaubten Format und Wertebereich entspricht; eine Postleitzahl mit Buchstaben ist ungültig. Integrität beschreibt, ob die Beziehungen zwischen Datensätzen stimmen; eine Bestellung ohne zugehörigen Kunden ist ein Integritätsbruch. Welche Dimensionen Sie führen, sollte davon abhängen, was Ihre Anwendungsfälle tatsächlich verlangen.

Wie misst man diese Dimensionen?

Jede Dimension lässt sich als Kennzahl ausdrücken, meist als Anteil der Datensätze, die ein bestimmtes Kriterium erfüllen. Damit wird aus dem Satz „unsere Daten sind schlecht" eine Zahl, die man verfolgen und verbessern kann. Wie man den Ausgangszustand erhebt, steht im Beitrag zum Bewerten, wie man daraus eine fortlaufende Messung macht, im Beitrag zum Monitoring.

Zur Übersicht: Datenqualität

DatenqualitätDatenqualitätsdimensionenDatenmanagement
// Gefällt dir diese Perspektive?

Schick uns dein echtes Problem.

Ein echtes — kein Briefing. Wir schicken innerhalb von fünf Werktagen einen Arbeitsentwurf zurück. Kostenlos, kein Deck, keine Verpflichtung.