KI-Halluzinationen: Wenn eine KI nicht mehr weiterweiß, beginnt sie zu lügen

KI-Halluzinationen: Wenn eine KI nicht mehr weiterweiß, beginnt sie zu lügen

Künstliche Intelligenz wird immer mehr zu einem Teil unseres täglichen Lebens. Trotz aller gefeierten Erfolge und erhofften Profite kann eine Marotte der KI nicht ausgeblendet werden: sie spuckt dreiste Lügen aus, wenn sie auf Fragen keine Antworten weiß. Oder andersherum: »Sie geben immer eine Antwort – sogar dann, wenn ihnen das dafür notwendige Wissen fehlt.« Forscher nehmen sich nach zahlreichen solcher Vorkommnisse nun dieses auffälligen und hartnäckigen Problems an, das auch als KI-Halluzination bezeichnet wird. Halluzinationen werden definiert als Antworten ohne Wissensgrundlage.

Gegenüber dem Wall Street Journal (WSJ) sprachen KI-Experten von einem weit verbreiteten Phänomen, dessen Ursprung in der Scheu der KI liege, dabei erwischt zu werden, etwas nicht zu wissen. Dies liege in der Art und Weise, wie KI-Modelle trainiert würden, erklärte José Hernández-Orallo, Professor am spanischen Forschungsinstitut Valencia für künstliche Intelligenz. Er sagte dem WSJ: »Der ursprüngliche Grund für solche Halluzinationen liegt darin, dass man [als KI], wenn man nichts errät, keine Chance auf Erfolg hat«.

Um das Problem zu demonstrieren, entwickelte der WSJ-Autor Ben Fritz einen einfachen Test: Er fragte mehrere hochentwickelte KI-Modelle, mit wem er verheiratet sei. Denn das ist eine Frage, die sich nicht so leicht über Google und andere Suchmaschinen beantworten lässt. Auf diese Frage erhielt der Kolumnist mehrere bizarre, aber stets falsche Antworten. Erst war es eine Tennis-Influencerin, dann eine Schriftstellerin, die er nie getroffen hatte, oder eine Frau aus dem US-Bundesstaat Iowa, von der er noch nie gehört hatte. Keine der Antworten war richtig.

Roi Cohen und Konstantin Dobler, zwei Doktoranden des deutschen Hasso-Plattner-Instituts (HPI), gehen in ihrer jüngsten Forschung davon aus, dass sich das Problem einfach erklären lässt: KI-Modelle zögern, wie die meisten Menschen, auf eine Frage, deren Antwort außerhalb ihrer Trainingsdaten liegt, einfach zu sagen, ich weiß es nicht. Stattdessen halluzinieren sie und erfinden Dinge, die sie selbstbewusst als Tatsachen ausgeben.

Die Hasso-Plattner-Forscher haben nun eine Methode entwickelt, die durch ein frühes Eingreifen in den KI-Trainingsprozess, den Modellen das Konzept der Unsicherheit beibringt. Auf die Frage, wie das Modell funktioniert, erklärt Roi Cohen: »Normale Sprachmodelle generieren Texte zerstückelt in Wortteile – sogenannte ›Tokens‹. Unser IDK-Modell verfügt neben normalen Tokens auch über ein besonderes ›I Don’t Know Token‹ (IDK-Token), das anstelle einer normalen Vorhersage generiert wird, wenn die Vorhersage mit großer Unsicherheit verbunden ist. Wenn so ein Modell nun Fragen beantworten soll, deren Antwort es nicht gelernt hat, würde es normalerweise trotzdem eine (unsichere) Antwort geben – sogenannte Halluzinationen. Durch das IDK-Token kann diese Unsicherheit stattdessen aber explizit ausgedrückt werden.«

Tatsächlich habe man es mit einem sehr schweren Problem mit vielen Facetten zu tun, bekannten die HPI-Forscher. »Manchmal gibt es mehrere richtige Antworten und in anderen Fällen (z.B. dem Schreiben von Geschichten oder anderen kreativen Aufgaben) gibt es gar kein definiertes Richtig oder Falsch. (…) Eine große Schwäche von aktuellen Sprachmodellen ist, dass sie eben immer eine Antwort geben, auch wenn das zugrundeliegende Wissen fehlt. Wenn ich ChatGPT nutze, muss ich mich immer fragen, ob die Antwort halluziniert ist, besonders in etwas komplexeren Themengebieten und Fragestellungen. Momentan ist man mit einem blinden Vertrauen in Systeme wie ChatGPT nicht gut beraten. Leider werden diese Antworten oft für bare Münze genommen.«

Unternehmen wie Anthropic PBC mischen ihren Chatbots bereits Unsicherheit bei. Wie WSJ-Autor Fritz bemerkte, war Claude 3.5 Sonnet, die »intelligenteste« KI von Anthropic, die Einzige, die zugab, die Antwort auf eine Frage nicht zu kennen.

Professor Hernández-Orallo ist davon überzeugt, dass das Hinzufügen von Unsicherheit zu KI-Modellen nicht nur die Genauigkeit der Antworten verbessere, sondern auch das Vertrauen in sie stärken könne. Die Antwort »ich weiß es nicht« ist zumindest ehrlich.

Hasso-Plattner-Institut KI-Halluzination

Kommentare: 1

KI-Halluzinationen: Wenn eine KI nicht mehr weiterweiß, beginnt sie zu lügen sagt:

24.02.2025 um 14:56 Uhr

[…] Redaktion in Kooperation mit Infodienst Media […]

Die Kommentare sind geschlossen.