Wie hoch sind die Kosten schlechter Datenqualität?
Die meistzitierte Zahl stammt von Gartner: rund 12,9 Millionen US-Dollar pro Organisation und Jahr, genannt von Gartner-Analystin Melody Chien (2021). Wichtig zur Einordnung: Die Zahl beschreibt große Unternehmen und umfasst neben direkten Verlusten auch die wachsende Komplexität der Datenlandschaft und Fehlentscheidungen. Eins zu eins auf den Mittelstand übertragbar ist sie deshalb nicht.
Aussagekräftiger als der absolute Betrag ist die Größenordnung im Verhältnis zum Umsatz. Der Datenqualitäts-Experte Thomas Redman bezifferte die Kosten schlechter Daten in der MIT Sloan Management Review (2017) auf 15 bis 25 Prozent des Umsatzes. Auf gesamtwirtschaftlicher Ebene nannte IBM 2016 für die US-Wirtschaft eine Schätzung von 3,1 Billionen US-Dollar, deren genaue Methodik das Unternehmen allerdings nie offengelegt hat.
Drei Quellen, drei Blickwinkel, eine gemeinsame Aussage: Der Schaden bewegt sich in der Größenordnung eines spürbaren Umsatzanteils, nicht im Bereich von Rundungsfehlern.
Warum sieht man diese Kosten so selten?
Weil sie sich verteilen und in keiner einzelnen Position der Buchhaltung auftauchen. Sie stecken in falschen Entscheidungen, in doppelter Arbeit, in verpassten Umsätzen und in Compliance-Risiken.
Wie tief das Problem in den Datenbeständen sitzt, zeigt eine Untersuchung von Nagle, Redman und Sammon im Harvard Business Review (2017): Im Schnitt enthielten 47 Prozent der neu erfassten Datensätze mindestens einen kritischen Fehler, und nur 3 Prozent der geprüften Bestände erreichten selbst nach mildem Maßstab ein akzeptables Qualitätsniveau.
Den größten Kostenblock nennt Thomas Redman die versteckten Datenfabriken: die Zeit, die Mitarbeitende täglich mit dem Suchen, Korrigieren und Gegenprüfen von Daten verbringen, denen sie nicht trauen. Redman schätzt, dass dafür bis zu 50 Prozent der Arbeitszeit von Wissensarbeitern verloren gehen. Bei spezialisierten Datenfachkräften ist das Bild ähnlich: Anaconda ermittelte in seinem State-of-Data-Science-Report (2020), dass im Schnitt 45 Prozent ihrer Zeit allein auf das Laden und Bereinigen von Daten entfällt. Ältere Erhebungen (CrowdFlower, 2016) nannten bis zu 80 Prozent, ein Wert, der oft überzitiert wird, aber in dieselbe Richtung weist.
Auch in Geld lässt sich der versteckte Aufwand fassen. In einer Forrester-Erhebung (2023, zitiert von IBM) schätzte über ein Viertel der betroffenen Daten- und Analytics-Mitarbeiter den jährlichen Verlust durch schlechte Datenqualität auf mehr als fünf Millionen US-Dollar, sieben Prozent sogar auf 25 Millionen oder mehr.
Wird das Problem größer oder kleiner?
Trotz wachsender Investitionen in Daten-Werkzeuge nimmt die Belastung zu, weil Datenmengen und Pipeline-Komplexität schneller wachsen als die Qualitätssicherung. In einer von Monte Carlo beauftragten Befragung (Wakefield Research, 200 Daten-Experten, 2023) stieg der durchschnittliche Anteil des Umsatzes, der von Datenqualitätsproblemen betroffen ist, auf 31 Prozent, nach 26 Prozent im Vorjahr. Die Zahl der Datenvorfälle wuchs von 59 auf 67 pro Monat, und die durchschnittliche Zeit bis zur Behebung eines Vorfalls stieg um 166 Prozent auf rund 15 Stunden. Die Befragung stammt von einem Anbieter für Datenüberwachung und ist als solche einzuordnen, der Trend deckt sich aber mit dem übrigen Bild.
Warum steigen die Kosten, je später ein Fehler auffällt?
Das beschreibt die 1-10-100-Regel, ursprünglich von Labovitz und Chang formuliert (1992). Behebt man einen Fehler an der Quelle, kostet er etwa eine Einheit. Fällt er erst im System auf, rund das Zehnfache. Schlägt er ungeprüft bis zur Entscheidung oder zum Kunden durch, bis zum Hundertfachen. Die genauen Werte sind illustrativ, das Muster ist stabil: Prävention an der Quelle ist um Größenordnungen günstiger als jede spätere Korrektur. Eine falsche Lieferadresse kostet bei der Eingabe Sekunden, im Versand eine Retoure und beim Kunden im Zweifel die Beziehung.
Wie viel teurer wird das durch KI?
KI verstärkt jeden dieser Posten, weil fehlerhafte Daten automatisiert und in großem Umfang weiterwirken. Gartner erwartet, dass Organisationen bis 2026 rund 60 Prozent der KI-Projekte aufgeben, die nicht auf KI-tauglichen Daten aufsetzen (Prognose von Februar 2025). In einer Gartner-Umfrage unter 782 Infrastruktur- und Betriebsverantwortlichen von Ende 2025 nannten 38 Prozent schlechte Datenqualität oder fehlende Datenverfügbarkeit als direkten Grund für gescheiterte KI-Projekte.
Warum die Datenbasis und nicht das Modell der häufigste Bruchpunkt ist, behandelt der Beitrag Warum KI-Projekte an der Datenqualität scheitern.
Wie verbreitet ist das Problem im deutschen Mittelstand?
Weit verbreitet. In der Uniserv-Trendstudie zum Kundendatenmanagement (2019, 154 befragte Entscheider in Deutschland) waren 39 Prozent mit der Qualität ihrer Kundendaten unzufrieden. Konkret nannten 88 Prozent unvollständige Daten, 82 Prozent Dubletten und 78 Prozent veraltete Kundeninformationen als Problem. Schon 2015 bezeichneten laut Experian nur 27 Prozent der deutschen Unternehmen ihr Datenmanagement als hoch entwickelt, während 86 Prozent befürchteten, ihre Daten seien ungenau. Beide Studien stammen von Anbietern aus dem Umfeld und sind als solche einzuordnen, das Bild ist über die Jahre aber konsistent.
Was ein einzelner Datenfehler kosten kann
Unity Technologies (2022): Das Einspeisen fehlerhafter Kundendaten verfälschte das Modell des Werbe-Targeting-Tools. Unity bezifferte den entgangenen Umsatz auf rund 110 Millionen US-Dollar, die Aktie verlor in der Folge rund 37 Prozent.
NATS, britische Flugsicherung (2023): Ein einziger fehlerhaft interpretierter Flugplan legte das automatische Verarbeitungssystem lahm. Die britische Luftfahrtbehörde bezifferte die Gesamtkosten im Abschlussbericht (2024) auf 75 bis 100 Millionen Pfund, über 700.000 Passagiere waren betroffen.
Uber (2017): Eine falsch berechnete Provisionsbasis führte dazu, dass Fahrer jahrelang unterbezahlt wurden. Die Nachzahlung bezifferte das Wall Street Journal auf mindestens 45 Millionen US-Dollar.
Public Health England (2020): Eine automatische Auswertung von Corona-Testergebnissen lief in das veraltete Excel-Format XLS, dessen Zeilenlimit von 65.536 erreicht war. Dadurch fielen zwischen dem 25. September und 2. Oktober 2020 rund 15.800 positive Fälle aus der Meldung und damit aus der Kontaktnachverfolgung.
Wie schätzt man die eigenen Kosten?
Nicht über eine Pauschalzahl, sondern über das eigene Geschäft. Eine brauchbare Bandbreite liefert der UK Government Data Quality Hub (2021, gestützt auf das DAMA-Rahmenwerk): Organisationen geben demnach zwischen 10 und 30 Prozent ihres Umsatzes für die Behebung von Datenqualitätsproblemen aus. Genauer wird die Rechnung prozessbezogen: einen konkreten Ablauf nehmen, dort die Fehlerquote messen und mit den Folgekosten je Fehler multiplizieren. Wie Sie diese Fehlerquote erheben, steht im Beitrag zum Bewerten von Datenqualität.
Zur Übersicht: Datenqualität