Warum passieren die meisten KI-Produktionsfehler auf der Governance-Ebene und nicht auf der Modellebene?

Modelle erzeugen von Natur aus plausibel klingende Ausgaben – einschließlich falscher. Ohne Überprüfungsebenen, Umfangsgrenzen und Prüfpfade im umgebenden System eskalieren einzelne Modellfehler zu rechtlichen, finanziellen und rufschädigenden Schäden. MITREs Forschung betrachtet KI-Systeme als Ökosysteme und nicht als eigenständige Werkzeuge.

Welche Forschungslücke gibt es bei der KI-Sicherheit für bereitgestellte Systeme?

Eine arXiv-Studie aus dem Jahr 2025, die fast 9.500 generative KI-Artikel analysierte, ergab, dass sich die KI-Unternehmensforschung zunehmend auf die Ausrichtung und Bewertung vor der Bereitstellung konzentriert, während die Aufmerksamkeit für Probleme nach der Bereitstellung wie Modellverzerrungen, Halluzinationen und reale Sicherheit erheblich nachgelassen hat.

Was sollten Teams tun, bevor sie ein kundenseitiges KI-System einsetzen?

Vor der Inbetriebnahme sollte jedes Team festlegen, wozu das System im Namen der Organisation Zusagen machen darf, einen menschlichen Überprüfungsschritt für hochriskante Ausgaben einrichten und einen klaren Eskalationspfad für den Fall dokumentieren, dass das Modell falsch liegt. MITREs Rahmenwerk ergänzt: Fehlermodi frühzeitig einplanen, organisatorische Resilienz aufbauen und die Auswirkungen über reine Genauigkeitsmetriken hinaus bewerten.

1 / 1

KI-Governance KI-Produktionsfehler KI-Bereitstellung Große Sprachmodelle KI-Risikomanagement breaking-news

Hallucination Free Jun 15, 2026

In this article (4)

Künstliche-Intelligenz-Governance

Air Canadas Chatbot verlor vor Gericht. Das Modell war in Ordnung. Die Governance nicht.

Key Takeaways

KI-Produktionsfehler sind fast immer Governance-Fehler: Fehlende Überprüfungsebenen, unklare Zuständigkeiten und keine menschliche Aufsicht im Prozess lassen normale Modellfehler zu rechtlichen und finanziellen Schäden eskalieren.
Bevor eine kundenseitige KI eingesetzt wird, sollte explizit definiert werden, wozu das System Zusagen machen darf, wer hochriskante Ausgaben prüft und was passiert, wenn das Modell falsch liegt.
Die KI-Forschung von Unternehmen konzentriert sich zunehmend auf die Arbeit vor der Bereitstellung, während Risiken in der Bereitstellungsphase wie Halluzinationen und Voreingenommenheit kaum untersucht werden – Praktiker können daher nicht darauf warten, dass die Wissenschaft dieses Problem für sie löst.

Wenn das Modell ei…Die Taxonomie dess…Die Forschungslück…Was Praktizierende…

Hallucination Free · Jun 15, 2026

Fünf reale KI-Pannen zeigen, dass bei fehlgeschlagenen Einsätzen der Schuldige fast nie das Modell selbst ist.

Fünf reale KI-Fehlschläge zeigen, dass wenn Einsätze schiefgehen, der Schuldige fast nie das Modell selbst ist.

Stell dir eine Fluggesellschaft vor, die einen Chatbot für Kundenanfragen einsetzt und dabei zusieht, wie er selbstsicher eine Rabattrichtlinie erfindet, die gar nicht existiert – um anschließend vor einem Gericht zu argumentieren, der Chatbot sei im Grunde eine eigenständige Einheit und daher eigentlich nicht das Problem der Fluggesellschaft. Dieses Argument zog nicht. Air Canada wurde zur Erstattung eines Betrags verurteilt, den sein Chatbot im Rahmen einer Trauerfall-Tarifrichtlinie versprochen hatte, die der Chatbot schlicht erfunden hatte. Der technische Fachbegriff dafür lautet Halluzination. Der rechtliche und betriebliche Fachbegriff für das, was folgte, lautet: vollständig vermeidbar. Und die tiefere Lektion – jene, die für jedes Team gilt, das KI in einer kundenzugewandten Rolle einsetzt – ist, dass der Chatbot genau das getan hat, was Sprachmodelle eben tun. Das Versagen geschah eine Ebene höher, in Abwesenheit jeglicher Governance-Struktur, die es hätte auffangen können.

Wenn das Modell einwandfrei funktioniert und trotzdem alles schiefläuft

Der Fall Air Canada veranschaulicht ein Muster, das NineTwoThrees Analyse großer KI-Misserfolge direkt dokumentiert: Genau in der Lücke zwischen KI-Hype und KI-Implementierung entsteht echter Schaden. Laut dieser Analyse scheiterte die große Mehrheit der unternehmensweiten KI-Initiativen im Jahr 2025 daran, in die Produktion zu gelangen oder positiven Cashflow zu erzeugen. Air Canadas Chatbot hat es – fairerweise gesagt – tatsächlich in die Produktion geschafft. Er hat nur negativen Cashflow erzeugt, indem er ein Gerichtsverfahren verlor, was ihn in die aufschlussreichere Kategorie von Misserfolgen einreiht: jene, die etwas Konkretes lehren.

Der Bericht der MITRE Corporation „Five AI Fails" bietet eine Einordnung, die Praktikerinnen und Praktiker an einem Ort ablegen sollten, wo sie sie auch wirklich lesen. KI-Systeme seien keine unabhängigen Einzelkomponenten, so MITRE, sondern Teile eines komplexen Ökosystems, das mit menschlichem Verhalten und Entscheidungsprozessen interagiert und diese beeinflusst. Wer das System nur auf Modellebene misst, übersieht die umfassenderen Auswirkungen auf die Menschen und Institutionen in seinem Umfeld.

Ein Chatbot, der selbstsichere, falsche Antworten liefert, ist eine Beobachtung auf Modellebene. Ein Unternehmen, das vor Gericht erscheint, weil niemand überprüft hat, was der Chatbot versprechen darf, ist ein Versagen auf Governance-Ebene. Das sind grundlegend verschiedene Probleme – und wer sie vermischt, wundert sich am Ende zu Recht.

Die Taxonomie dessen, was tatsächlich schiefgeht

Forschende der Universität Ss. Kyrill und Method sowie des Metropolitan College der Boston University haben kürzlich eine datengestützte Taxonomie realer KI-Misserfolge veröffentlicht. Sie stützen sich auf ein Korpus von 9.705 medienberichteten KI-Vorfallsartikeln und haben aus 6.893 dieser Texte explizite Abhilfemaßnahmen extrahiert. Ihr arXiv-Paper stellt fest, dass LLM-Fehler in risikoreichen Arbeitsabläufen über isolierte Modellfehler hinaus in systemische Zusammenbrüche eskalieren, die rechtliche Haftung, Reputationsschäden und materielle finanzielle Verluste verursachen.

Das entscheidende Wort dabei ist systemisch. Das Modell hat einen Fehler gemacht; das System hatte keinen Sicherungsschalter.

Eine separate arXiv-Studie über nachgelagerte Entwicklerinnen und Entwickler, durchgeführt mittels gemischter Methoden aus Interviews und Befragungen, ergab, dass Praktizierende, die auf vortrainierten Modellen aufbauen, Fehlermodi wie Datenlecks und voreingenommene Ausgaben häufig unterschätzen und dass diese Risiken in realen Deployments manchmal unbeabsichtigt übersehen statt aktiv gemindert werden.

Dieses „unbeabsichtigt" trägt eine erhebliche Last. Es ist keine Böswilligkeit. Es ist das natürliche Ergebnis von Teams, die auf Liefergeschwindigkeit optimieren und Governance als Nachproduktionsthema behandeln.

Die Forschungslücke, die alles noch schlimmer macht

Hier ist eine unbequeme strukturelle Tatsache. Ein arXiv-Paper, das 9.439 zwischen Januar 2020 und März 2025 veröffentlichte Forschungsarbeiten zu generativer KI analysiert und dabei Ergebnisse führender KI-Unternehmen (Anthropic, Google DeepMind, Meta, Microsoft und OpenAI) mit jenen führender Universitäten (CMU, MIT, NYU, Stanford, UC Berkeley und University of Washington) vergleicht, stellt fest, dass die unternehmenseigene KI-Forschung sich zunehmend auf Pre-Deployment-Arbeit konzentriert – konkret auf Modell-Alignment sowie Testen und Evaluieren. Die Aufmerksamkeit für Probleme in der Deploymentphase, etwa Modellverzerrungen, hat tatsächlich nachgelassen.

Das Paper identifiziert erhebliche Forschungslücken in risikoreichen Einsatzbereichen wie Gesundheitswesen, Finanzen, Halluzinationen und Urheberrecht und empfiehlt, externen Forschenden den Zugang zu Deploymentdaten zu erweitern und In-Markt-KI-Verhalten systematisch beobachtbar zu machen.

Die Menschen, die die leistungsfähigsten Modelle entwickeln, schenken also – gemessen an ihren eigenen Forschungsergebnissen – dem, was nach dem Deployment dieser Modelle passiert, immer weniger Aufmerksamkeit.

Das Harvard Safra Center for Ethics beschreibt dies als ein übergreifendes Muster: KI-Misserfolge sind mahnende Erinnerungen an die praktischen Gefahren von KI-Entwicklung und -Einsatz, und ihre Untersuchung dient als wichtiger Orientierungspunkt für Politikerinnen und Politiker, Technologinnen und Technologen sowie Interessengruppen, um Risiken zu erkennen, die andere KI-Initiativen beeinflussen sollten.

Das lässt sich als akademische Beobachtung lesen oder als direkte Handlungsanweisung für das nächste Sprint-Planning-Meeting. Beide Lesarten sind berechtigt.

Was Praktizierende konkret tun können

Das Lessons-Learned-Framework von MITRE schlägt vier konkrete Maßnahmen vor, die als Checkliste für Praktizierende gut funktionieren: Frühe Projektüberlegungen ausweiten, um Fehlermodi einzubeziehen, bevor die erste Zeile Produktionscode geschrieben wird; Resilienz sowohl in die KI als auch in die Organisation drum herum einbauen; das Vertrauen in die KI und die Daten, auf die sie sich stützt, kalibrieren; und die Art und Weise, wie die Auswirkungen des Systems bewertet werden, über reine Genauigkeitsmetriken hinaus erweitern.

Keines davon erfordert ein neues Modell. Sie erfordern, Deployment als Ingenieurdisziplin mit eigenen Anforderungen zu behandeln – nicht als Siegesrunde nach dem Training.

Die AIMutiple-Analyse der Grundursachen von KI-Misserfolgen ergänzt dies um eine weitere Perspektive: Viele Misserfolge lassen sich auf falsch ausgerichtete Zielsetzungen, schlechte Datenqualität und unzureichende menschliche Aufsicht im Prozess zurückführen – nicht auf die Architektur des Modells selbst.

Wenn dein Chatbot Kunden gegenüber verbindliche Zusagen machen kann, ohne dass ein menschlicher Überprüfungsschritt vorgesehen ist, hast du kein KI-System deployed. Du hast eine Haftung deployed.

Für Lernende, die auf Produktionsrollen hinarbeiten, lohnt es sich, den Fall Air Canada als Lesezeichen zu speichern – nicht weil er skandalös ist, sondern weil er klarstellend wirkt. Jedes kundenzugewandte KI-Deployment braucht vor dem Go-live eine explizite Antwort auf drei Fragen: Wozu kann dieses System im Namen der Organisation Zusagen machen, wer überprüft risikoträchtige Ausgaben, bevor sie Nutzende erreichen, und wie sieht der Eskalationspfad aus, wenn das Modell falsch liegt? Teams, die diese Fragen im Design beantworten, müssen sie nicht vor Gericht beantworten.

Behalte die sich entwickelnden Governance-Frameworks im Blick – sowohl den Umsetzungszeitplan des EU AI Act als auch freiwillige Verpflichtungen großer KI-Entwickler: Die nächste Welle von Produktionsversagen wird wahrscheinlich agentische Systeme mit noch autonomerer Entscheidungsfindung betreffen, was die Governance-Schicht nicht zu einem Nice-to-have macht, sondern zur zentralen ingenieurtechnischen Herausforderung.

Der Air Canada-Chatbot hat lediglich schlechten Rat gegeben. Die nächste Generation von Systemen wird danach handeln.

Quellen

Questions & answers

Air Canada wurde für eine Rückerstattung haftbar gemacht, die ihr Chatbot im Rahmen einer Trauer-Tarifrichtlinie versprochen hatte, die nicht existierte. Der Chatbot halluzinierte die Richtlinie, ein Kunde verließ sich darauf, und ein Gericht befand die Fluggesellschaft für die Ausgaben ihres eigenen Systems verantwortlich.