Lügen aus Logik: Warum KI nicht anders kann

Die neue OpenAI-Studie »Why Language Models Hallucinate« (Kalai et al., 2025) liefert erstmals eine systematische, theoretisch fundierte Erklärung dafür, warum große Sprachmodelle (LLMs) wie ChatGPT falsche, aber plausibel klingende Aussagen erzeugen – sogenannte Halluzinationen. Dabei zeigt sie: Halluzinationen sind kein mysteriöses Phänomen, sondern ein statistisch erwartbares Nebenprodukt ihrer Trainings- und Bewertungspraxis.

Warum Halluzinationen unvermeidlich scheinen

Die Forscher zeigen, dass Halluzinationen schon während des Pretrainings unvermeidbar entstehen, selbst wenn die Trainingsdaten fehlerfrei wären. Der Grund liegt im statistischen Lernprozess: LLMs lernen, eine Wahrscheinlichkeitsverteilung über Sprache zu approximieren. Dieses Generieren ist komplexer als einfache Klassifikation – und wie bei jeder Klassifikationsaufgabe treten Fehler auf. Besonders bei »arbiträren Fakten« ohne erkennbare Muster (z.B. Geburtstage oder Dissertationstitel) lässt sich das korrekte Wissen aus einmalig vorkommenden Datenpunkten nicht zuverlässig generalisieren. Solche »Singletons« führen laut Theorie zwangsläufig zu einer Grundrate von Halluzinationen.

Warum sich Halluzinationen nach dem Training erhalten

Selbst nach aufwendigem Feintuning verschwinden Halluzinationen nicht – im Gegenteil: Sie werden oft durch die Art der Modellbewertung verstärkt. Wie Schüler bei einer Multiple-Choice-Prüfung, die bei Unsicherheit raten, neigen auch LLMs zum »Raten«, weil gängige Benchmarks Unsicherheit bestrafen. In Tests, die nur »richtig« oder »falsch« kennen, ist ein falsches, aber plausibles Statement immer besser bewertet als ein ehrliches »Ich weiß es nicht«. So optimieren Modelle darauf, selbst bei Unsicherheit zu antworten – und halluzinieren häufiger.

Wege aus der Halluzinationsfalle

Die Studie plädiert für eine sozio-technische Lösung: Nicht mehr Halluzinations-Tests seien nötig, sondern eine grundlegende Reform der Bewertungsmaßstäbe. Evaluierungen sollten etwa Teilgutschriften für Unsicherheitsäußerungen oder explizite Konfidenzschwellen einführen (»Antworte nur, wenn du zu 75 % sicher bist«). Solche Verfahren würden Modelle belohnen, wenn sie Unsicherheit angemessen ausdrücken, und sie dazu bringen, verantwortungsvoller zu antworten.

Die OpenAI-Studie macht deutlich: Halluzinationen sind keine Fehlfunktion, sondern ein statistischer Nebeneffekt der heutigen Trainings- und Bewertungspraxis. Solange Benchmarks das »Raten« belohnen und Unsicherheit bestrafen, bleiben falsche Antworten ein strukturelles Problem. Erst wenn Bewertungsverfahren neu gedacht und Unsicherheitskommunikation belohnt wird, können Sprachmodelle lernen, zu schweigen, wenn sie nichts wissen – und damit deutlich vertrauenswürdiger werden.

© ›Infodienst futūrum‹. Alle Rechte vorbehalten, all rights reserved. Nachdruck und Weitergabe an Dritte untersagt.

Diese Seite ist kopiergeschützt!

×