Scheitern KI-Projekte wirklich an den Daten?
Die Daten sind einer der häufigsten Gründe, wenn auch nicht der einzige. Drei belastbare Gartner-Befunde zeichnen ein konsistentes Bild. Bis 2026 werden Organisationen voraussichtlich rund 60 Prozent der KI-Projekte aufgeben, die nicht auf KI-tauglichen Daten aufsetzen (Prognose von Februar 2025). Schon bis Ende 2025 sollten mindestens 30 Prozent der generativen KI-Projekte nach dem Proof of Concept abgebrochen werden, unter anderem wegen schlechter Datenqualität (Prognose von Juli 2024). Und in einer Gartner-Umfrage unter 782 Infrastruktur- und Betriebsverantwortlichen von Ende 2025 nannten 38 Prozent schlechte Datenqualität oder fehlende Datenverfügbarkeit als direkten Grund für gescheiterte KI-Projekte.
Die ebenfalls kursierende Aussage, 85 Prozent der KI-Projekte scheiterten an schlechten Daten, gibt eine ältere Gartner-Prognose verzerrt wieder und ist auf 2022 datiert. Belastbar ist die nüchternere Lesart: Die Datenbasis ist nicht der einzige, aber ein durchgängig führender Grund, und meist nicht das Modell.
Wie genau ruinieren schlechte Daten ein KI-Projekt?
Schlechte Daten schlagen an mehreren Stellen durch. Im Training lernt ein Modell die Fehler mit, denn lückenhafte oder verzerrte Trainingsdaten erzeugen verzerrte Vorhersagen, und niemand sieht es dem fertigen Modell an. Im Betrieb trifft das Modell dann auf reale, ungepflegte Daten statt auf den kuratierten Demo-Datensatz, und genau an dieser Lücke zwischen sauberer Demo und echter Produktion brechen viele Piloten ab. Beim Wissensabruf über RAG liefert eine inkonsistente oder veraltete Wissensbasis falsche Belege, mit denen das Modell überzeugend falsche Antworten begründet. Der eigentliche Unterschied zur klassischen Analytik liegt im Tempo: Ein Agent handelt automatisch und in großem Umfang, sodass ein Datenfehler, der früher einen Bericht verfälscht hätte, jetzt eine Kette automatischer Entscheidungen auslöst, bevor ein Mensch eingreift.
Dass dieses Risiko bekannt ist, ändert wenig an der Praxis: In einer von Monte Carlo beauftragten Befragung (Wakefield Research, 200 Datenfachleute, 2024) bauten 91 Prozent bereits KI-Anwendungen, aber zwei von drei trauten den Daten darunter nicht vollständig.
Reicht es, die Daten zu bereinigen?
Nein. Saubere Daten sind die Voraussetzung, aber nicht dasselbe wie KI-taugliche Daten. Gartner fasst KI-taugliche Daten enger: ausgerichtet auf den konkreten Anwendungsfall, auf Asset-Ebene geregelt, über automatisierte Pipelines mit Qualitäts-Gates versorgt und fortlaufend auf Qualität geprüft, nicht im Quartalsrhythmus. Wie groß die Lücke ist, zeigt eine Gartner-Umfrage aus dem dritten Quartal 2024 unter 248 Datenmanagement-Verantwortlichen: 63 Prozent verfügten nicht über die passenden Datenmanagement-Praktiken für KI oder waren sich unsicher, ob sie sie haben.
Klassische Datenqualität ist also notwendig, genügt aber allein nicht. Was zusätzlich nötig ist, behandelt die nächste Stufe: AI Foundation: wann Daten KI-tauglich sind.
Was tun, bevor das KI-Projekt startet?
Drei Schritte gehören vor das erste Modell: den Ist-Zustand der Daten ehrlich bewerten, Verantwortlichkeiten klären und die Lücke zur KI-Tauglichkeit gezielt schließen. Wer damit beginnt, vermeidet den häufigsten Grund für abgebrochene KI-Piloten.
Zur KI-Tauglichkeit gehört dabei mehr als Sauberkeit, nämlich Kontext. Daten können vollständig, korrekt und konsistent sein und trotzdem für KI unbrauchbar, weil ihnen die Bedeutung fehlt. Ein Feld namens „Status" mit den Werten 1, 2 und 3 ist technisch sauber, aber wertlos, solange nirgends hinterlegt ist, wofür diese Werte stehen, welche Geschäftsregel dahinter liegt und wie der Datensatz mit anderen zusammenhängt. Ein Mensch ergänzt diesen Kontext aus Erfahrung, ein Modell oder ein Agent kann das nicht. Sorgen Sie deshalb vor dem ersten Modell dafür, dass die kritischen Daten ihren Kontext mitbringen, also Metadaten, klare Definitionen und sichtbare Beziehungen.
Wie Sie den Ist-Zustand erheben, steht im Beitrag Datenqualität bewerten, wie Sie Verantwortung regeln, im Beitrag zur Data Governance.
Zur Übersicht: Datenqualität