Datenqualität: Was sie ausmacht und was schlechte Daten kosten

Q: Was kostet schlechte Datenqualität?

Schlechte Datenqualität kostet Unternehmen laut Gartner durchschnittlich rund 12,9 Millionen US-Dollar pro Jahr (Erhebung von 2020, bis heute breit zitiert). Die Kosten verteilen sich über viele Stellen: Fehlentscheidungen auf falscher Datenbasis, doppelte Arbeit, verpasste Umsätze, Compliance-Risiken und beschädigtes Kundenvertrauen. Wie stark der Zeitpunkt der Korrektur ins Gewicht fällt, zeigt die 1-10-100-Regel. Ein Datenfehler kostet etwa eine Einheit, wenn man ihn schon bei der Erfassung behebt, rund das Zehnfache, wenn er erst im System auffällt, und bis zum Hundertfachen, wenn er ungeprüft bis zur Entscheidung oder zum Kunden durchschlägt. Wer früh ansetzt, zahlt also einen Bruchteil dessen, was eine späte Korrektur kostet. Dazu kommt ein Aufwand, der selten beziffert wird: Zeit. Anaconda ermittelte 2020, dass Datenfachleute im Schnitt rund 45% Prozent ihrer Zeit allein mit dem Aufbereiten von Daten verbringen, bevor sie damit überhaupt arbeiten können. Ausführlich, mit Fallbeispielen und Quellen: Was schlechte Datenqualität kostet.

Was ist Datenqualität?

Datenqualität ist der bewertbare Grad, zu dem Daten für ihren vorgesehenen Einsatz brauchbar sind. Welche Qualität ausreicht, hängt stark vom Zweck und Einsatz der Daten ab. Dieselben Kundendaten können für ein monatliches Reporting völlig genügen und für ein Echtzeit-Empfehlungssystem unbrauchbar sein. Es gibt deshalb keine absolute Datenqualität, sondern immer nur Qualität für einen oder mehrere bestimmte Anwendungsfälle.

Das hat eine praktische Folge: Einmal aufräumen reicht nicht. Daten und Datensätze verhalten sich dynamisch und verändern sich laufend, also muss auch ihre Qualität laufend gemessen und gepflegt werden.

Welche Dimensionen hat Datenqualität?

Datenqualität wird üblicherweise an fünf Dimensionen gemessen:

Vollständigkeit: Sind alle erforderlichen Datenfelder befüllt? Fehlende oder inkonsistente Werte sind das häufigste und das am leichtesten messbare Problem bei der Bewertung der Datenqualität.

Korrektheit: Bilden die Datenpunkte die Realität ab? Eine veraltete Lieferadresse ist beispielsweise vollständig, aber trotzdem veraltet und demnach falsch.

Konsistenz: Stimmen Daten über verschiedene Systeme hinweg überein? Widersprüche zwischen CRM, ERP und Shop gelten laut Gartner als das am schwersten zu lösende Qualitätsproblem, weil sie aus Silos entstehen.

Aktualität: Sind die Daten zum Zeitpunkt der Nutzung noch gültig? Daten beginnen ab dem Moment ihrer Erfassung zu veralten. Die Sicherstellung von Aktualität der Daten ist also nachhaltig und qualitativ wichtig.

Eindeutigkeit: Existiert jeder Sachverhalt genau einmal? Dubletten, also derselbe Kunde in drei Schreibweisen, verzerren jede Auswertung.

Ohne diese fünf Dimensionen lässt sich gar nicht sagen, ob die eigenen Daten gut oder schlecht sind. Ausführlich zu jeder Dimension: Die Dimensionen der Datenqualität.

Was kostet schlechte Datenqualität?

Schlechte Datenqualität kostet Unternehmen laut Gartner durchschnittlich rund 12,9 Millionen US-Dollar pro Jahr (Erhebung von 2020, bis heute breit zitiert). Die Kosten verteilen sich über viele Stellen: Fehlentscheidungen auf falscher Datenbasis, doppelte Arbeit, verpasste Umsätze, Compliance-Risiken und beschädigtes Kundenvertrauen.

Wie stark der Zeitpunkt der Korrektur ins Gewicht fällt, zeigt die 1-10-100-Regel. Ein Datenfehler kostet etwa eine Einheit, wenn man ihn schon bei der Erfassung behebt, rund das Zehnfache, wenn er erst im System auffällt, und bis zum Hundertfachen, wenn er ungeprüft bis zur Entscheidung oder zum Kunden durchschlägt. Wer früh ansetzt, zahlt also einen Bruchteil dessen, was eine späte Korrektur kostet.

Dazu kommt ein Aufwand, der selten beziffert wird: Zeit. Anaconda ermittelte 2020, dass Datenfachleute im Schnitt rund 45% Prozent ihrer Zeit allein mit dem Aufbereiten von Daten verbringen, bevor sie damit überhaupt arbeiten können.

Ausführlich, mit Fallbeispielen und Quellen: Was schlechte Datenqualität kostet.

Woran erkennt man schlechte Datenqualität?

Schlechte Datenqualität fällt selten auf einen Schlag auf. Sie zeigt sich als ständige Reibung: Berichte weichen je nach Quelle voneinander ab, Kampagnen laufen ins Leere, und Teams trauen den eigenen Zahlen nicht mehr. Ein verlässliches Warnzeichen ist, wenn Mitarbeitende anfangen, Daten vor jeder Entscheidung erst manuell gegenzuprüfen.

Im Handel sitzen die typischen Fundstellen in den Produktstammdaten (unvollständige Attribute, widersprüchliche Kategorien), in den Kundendaten (Dubletten, veraltete Kontakte) und in den Brüchen zwischen PIM, ERP und Shopsystem.

Warum ist Datenqualität die Voraussetzung für KI?

Mit KI werden schlechte Daten nicht harmloser, sondern riskanter. Ein Agent handelt auf Basis der Daten, die er bekommt. Sind sie fehlerhaft, sind es auch seine Ergebnisse, und das schneller, als ein Mensch es nachkontrollieren kann. Laut Gartner zählen schlechte oder nicht KI-taugliche Daten zu den häufigsten Gründen, warum KI-Vorhaben abgebrochen werden, also nicht das Modell, sondern die Datenbasis darunter. Wer Agenten produktiv einsetzen will, fängt deshalb bei der Datenqualität an.

In der Praxis erleben wir genau das. Ein großes deutsches Handelsunternehmen musste den Go-Live von Microsoft Copilot 2023 um mehrere Monate verschieben, weil für einen Datenbestand von rund 70 Terabyte die nötige Governance fehlte, obwohl die Lizenzen bereits gekauft waren.

Warum die Datenbasis der häufigste Bruchpunkt ist, vertieft Warum KI-Projekte an der Datenqualität scheitern. Was Daten über die reine Qualität hinaus KI-tauglich macht, behandelt die nächste Stufe: AI Foundation.

Wie verbessert man Datenqualität?

Eine einmalige Bereinigung reicht nicht, weil die Daten danach sofort wieder zu veralten beginnen. Dauerhaft besser werden sie durch drei Dinge: Fehler schon bei der Erfassung vermeiden, Qualität fortlaufend messen statt einmal prüfen, und klar regeln, wer für welche Daten verantwortlich ist.

Die konkreten Schritte vertiefen die einzelnen Beiträge dieses Clusters:

Wie gut sind unsere Daten wirklich? Datenqualität bewerten Wie überwacht man Datenqualität kontinuierlich? Data Quality Monitoring Wer verantwortet Datenqualität? Data Governance Wie bereinigt man Produktdaten im Handel? Produktdaten bereinigen

Datenqualität im Foundation Ascent, dem Reifegradmodell von prodct

Foundation Ascent beschreibt den Weg eines Unternehmens vom souveränen Datenfundament bis zu produktiv eingesetzten KI-Agenten, in vier aufeinander aufbauenden Stufen, die sich nicht überspringen lassen. Datenqualität gehört zur ersten Stufe.

Stufe 1 Das Fundament. Die Datenqualität bildet im Zusammenspiel mit Datensouveränität das Fundament, auf dem alle weiteren Foundation Ascent Stufen aufbauen. Ein Unternehmen erreicht diese erste Stufe, wenn es:

die fünf Qualitätsdimensionen für seine geschäftskritischen Datenbestände misst statt schätzt,
Datenqualität schon an der Quelle sichert und nicht erst nachgelagert korrigiert,
Verantwortlichkeiten für die wichtigsten Datenobjekte definiert hat (Data Ownership),
seine Daten zugleich kontrolliert und konform hält. Mehr dazu: Datensouveränität.

Auf das Fundament setzen drei weitere Stufen auf. In Stufe 2, der Befähigung, werden die sauberen und kontrollierten Daten überhaupt erst KI-nutzbar gemacht, durch die passende Architektur, verlässliche Pipelines und eine tragfähige Governance. In Stufe 3, der Aktivierung, wird das Unternehmenswissen so erschlossen, dass KI-Systeme und Agenten gezielt darauf zugreifen können. In Stufe 4, der Autonomie, gehen Agenten und Automatisierung produktiv in den Einsatz, als Ergebnis des Fundaments und nicht als isolierter Schnellschuss.

Jede Stufe trägt die nächste. Solange das Fundament nicht steht, lässt sich keine der darüberliegenden Stufen tragfähig aufbauen, und genau hier liegt der häufigste Grund, warum KI-Vorhaben später ins Stocken geraten.

Wo ein Unternehmen heute steht, identifiziert der zugehörige AI Readiness Score. Gesamtüberblick: Foundation Ascent, das Reifegradmodell von prodct