Ein KI-Modell hat offiziell den Turing-Test bestanden

Wahrscheinlich zum ersten Mal haben branchenweit führende sog. »große Sprachmodelle« (Large Language Models, kurz: LLMs) den Turing-Test bestanden, der seit langem als etablierte Methode des Nachweises gilt, ob Maschinen menschenähnliche Intelligenz entwickelt haben.

In der neuen Vorabstudie »Large Language Models Pass the Turing Test«, die noch kein Peer Review durchlaufen hat, berichten die Forscher am Language and Cognition Lab der UC San Diego, Cameron R. Jones und Benjamin K. Bergen, von ihren Ergebnissen mit den vier Systemen ELIZA, GPT-4o, LLaMa-3.1-405B und GPT-4.5. In einer »Drei-Parteien-Version« des Turing-Tests, bei dem die Teilnehmer gleichzeitig mit einem Menschen und einer KI chatten und anschließend beurteilen, wer von beiden der Mensch ist, wurde das GPT-4.5-Modell von OpenAI in 73 Prozent der Fälle als Mensch angesehen. Das ist deutlich höher als die Zufallswahrscheinlichkeit von 50 Prozent und deutet darauf hin, dass der Turing-Test eindeutig bestanden wurde.

Konkret führten die Teilnehmer gleichzeitig fünfminütige Gespräche mit einem anderen menschlichen Teilnehmer und einem dieser KI-Systeme, bevor sie entschieden, welchen Gesprächspartner sie für einen Menschen hielten. Als GPT-4.5 aufgefordert wurde, eine menschenähnliche Rolle einzunehmen, wurde es in 73 Prozent der Fälle als Mensch eingestuft: signifikant häufiger, als die Befrager auf die echten menschlichen Teilnehmer tippten. LLaMa-3.1 wurde bei gleicher Aufforderung in 56 Prozent der Fälle als Mensch eingestuft – nicht signifikant häufiger oder seltener als die Menschen, mit denen sie verglichen wurden –, während die Basismodelle (ELIZA und GPT-4o) Zustimmungsraten erzielten, die deutlich unter dem Zufallswert lagen (23 % bzw. 21 %). Die Ergebnisse stellen den ersten empirischen Beweis dafür dar, dass ein künstliches System einen standardmäßigen Drei-Parteien-Turing-Test bestehen kann. Die Ergebnisse haben Auswirkungen auf die Debatten darüber, welche Art von Intelligenz große Sprachmodelle (LLMs) aufweisen und welche sozialen und wirtschaftlichen Auswirkungen diese Systeme wahrscheinlich haben werden.

Der Turing-Test ist nach dem britischen Mathematiker und Informatiker Alan Turing benannt. Turing schlug 1950 vor, die Intelligenz einer Maschine zu testen, indem man sie textbasierte Gespräche mit einem menschlichen Fragesteller führen lässt, der gleichzeitig – außer Sichtweite – ein weiteres Gespräch mit einem anderen Menschen führt. Konnte der Fragesteller nicht korrekt bestimmen, welcher Befragte der Computer und welcher der Mensch war, deutete dies ganz allgemein darauf hin, dass die Maschine wie ein Mensch denken könnte.

In dieser neuesten Studie führten die Forscher das berühmte Experiment auf einem Online-Portal durch. Acht Runden lang wurden knapp 300 Teilnehmer nach dem Zufallsprinzip entweder als Befrager oder als einer der beiden verhörten »Zeugen« ausgewählt, wobei der andere »Zeuge« ein Chatbot war.

Die Ergebnisse sind faszinierend. Doch so hochgelobt der Turing-Test in KI- und Philosophiekreisen auch ist, er ist kein eindeutiger Beweis dafür, dass eine KI menschlich denkt. Trotz all ihrer Schwächen sind LLMs Meister der Konversation, trainiert mit unfassbar großen Mengen von menschlich verfasstem Text. Selbst auf eine Frage, die sie nicht verstehen, finden LLMs eine plausibel klingende Antwort.

Zwar deutet immer mehr darauf hin, dass KI-Chatbots Menschen hervorragend nachahmen können. Doch Forschungsleiter Cameron R. Jones glaubt nicht, dass die Implikationen seiner Forschung – ob LLMs so intelligent wie Menschen sind – eindeutig sei. »Ich denke, das ist eine sehr komplizierte Frage …«, twitterte er. »Aber im Großen und Ganzen denke ich, dass dies als ein Beweis unter vielen anderen für die Art von Intelligenz gewertet werden sollte, die LLMs an den Tag legen. (…) Die Ergebnisse liefern meiner Meinung nach weitere Belege dafür, dass LLMs in kurzen Interaktionen Menschen ersetzen könnten, ohne dass es jemand merkt«, fügte er hinzu. »Dies könnte möglicherweise zur weiteren Automatisierung von Arbeitsplätzen, raffinierteren Social-Engineering-Angriffen und sonstigen allgemein-gesellschaftlichen Umbrüchen führen.«

Jones betonte abschließend, dass der Turing-Test nicht nur hilft, Maschinen unter die Lupe zu nehmen, sondern auch die sich ständig weiterentwickelnde Art und Weise der menschlichen Wahrnehmung von Technologie. Die Ergebnisse seien also nicht statisch: Möglicherweise werde die Öffentlichkeit mit zunehmender Vertrautheit im interaktiven Umgang mit KIs auch besser darin, diese aufzuspüren, zu erkennen und sich nicht mehr so leicht blenden zu lassen.

© Infodienst Futurmedia/ÆON-Z Thinktank. Alle Rechte vorbehalten, all rights reserved. Nachdruck und Weitergabe an Dritte untersagt.

 

Diese Seite ist kopiergeschützt!