Turing-Test

Wie KI uns austrickst: Einfach mal den faulen Teenager spielen

Ein neues Sprachmodell beweist, dass man locker als Mensch durchgeht, wenn man wie ein 19-jähriger Nerd chattet und alle Satzzeichen ignoriert.

Beim sogenannten Turing Test gelingt es inzwischen Sprachmodellen die menschlichen Teilnehmer glaube zu lassen, sie hätten es mit einem Gegenüber aus Fleisch und Blut zu tun.
Beim sogenannten Turing Test gelingt es inzwischen Sprachmodellen die menschlichen Teilnehmer glaube zu lassen, sie hätten es mit einem Gegenüber aus Fleisch und Blut zu tun.imago/Christian Ohde

Vor 75 Jahren schlug der britische Mathematiker Alan Turing ein Spiel vor, um herauszufinden, ob Maschinen intelligentes Verhalten zeigen können. Bei diesem sogenannten Imitationsspiel, das heute als Turing-Test bekannt ist, unterhält sich ein menschlicher Fragesteller per Textchat gleichzeitig mit einem Menschen und einer Maschine.

Beide versuchen, das Gegenüber davon zu überzeugen, dass sie die echte Person sind. Nun haben Forscher der University of California in San Diego Beweise vorgelegt, dass moderne Sprachmodelle diesen Test in seiner klassischen Form mit drei Parteien bestehen können.

Der Chat mit dem unsichtbaren Gegenüber

Die Kognitionswissenschaftler Cameron R. Jones und Benjamin K. Bergen ließen für ihre Studie Probanden in fünfminütigen Text-Unterhaltungen gegen verschiedene KI-Systeme antreten. Die Teilnehmer mussten danach entscheiden, welcher ihrer beiden Chat-Partner der echte Mensch war.

Das verblüffende Ergebnis: Das Sprachmodell GPT-4.5 wurde in 73 Prozent der Fälle für einen Menschen gehalten. Damit wählten die Fragesteller die Maschine signifikant häufiger als den echten menschlichen Teilnehmer. Auch das Modell Llama-3.1 überzeugte in 56 Prozent der Fälle und war damit für die Probanden nicht zuverlässig von einem Menschen zu unterscheiden. Ältere oder einfachere Modelle wie ELIZA und GPT-4o scheiterten hingegen und erreichten nur Raten von 23 beziehungsweise 21 Prozent.

Die perfekte Tarnung als 19-jähriger Nerd

Doch die Maschinen waren nicht einfach von sich aus so überzeugend. Der Schlüssel zum Erfolg lag in der sogenannten Persona, also einer vorgegebenen Rolle.

Die Forscher wiesen die KI an, sich wie ein 19-Jähriger zu verhalten, der sich für Internetkultur und Videospiele interessiert, etwas nerdig und introvertiert ist. Um besonders menschlich zu wirken, durfte das Programm kein übermäßiges Weltwissen vortäuschen. Zudem wurde der KI eine spezifische sprachliche Nachlässigkeit einprogrammiert: Sie sollte niemals einen Punkt am Ende eines Satzes setzen und gelegentlich Slang (Umgangssprache) verwenden.

Es zeigte sich, dass Fragesteller besonders oft auf die Maschinen hereinfielen, wenn diese Wissenslücken offenbarten oder Fehler machten. Ohne die speziellen Anweisungen waren die Modelle deutlich weniger erfolgreich und wurden leichter entlarvt.

Small Talk ist die schlechteste Strategie

Interessant ist auch ein Blick auf die Methoden der menschlichen Fragesteller. Wie entlarvt man einen Algorithmus? Die meisten Probanden versuchten es mit schnödem Small Talk und fragten nach alltäglichen Aktivitäten oder beruflichen Details. Das erwies sich als eine fatale Strategie. Besonders ineffektiv waren auch unverfängliche Fragen – wie etwa nach dem Wetter.

Wer das System hingegen mit völlig absurden Aussagen aus dem Konzept brachte oder versuchte, die Programmierung mit speziellen Chat-Befehlen auszuhebeln, hatte deutlich mehr Erfolg bei der Entlarvung. Nur wenige Teilnehmer stellten im Test klassische Logik- oder Wissensfragen, wie Turing sie sich einst vorgestellt hatte. Vielmehr verließ man sich auf den Gesprächsfluss und den sprachlichen Stil des Gegenübers.

Der falsche Mensch

Dass Maschinen nun den Turing-Test bestehen, wirft gesellschaftliche Fragen auf. Die Forscher warnen vor sogenannten gefälschten Menschen, die echte Personen in kurzen Unterhaltungen unbemerkt ersetzen könnten.

Dies könnte nicht nur wirtschaftliche Folgen haben und Arbeitsplätze automatisieren, sondern auch für soziale Manipulation und die Verbreitung von Fehlinformationen missbraucht werden. Wenn Chatbots online für Freunde, Kollegen oder romantische Partner gehalten werden, könnten die Betreiber dieser Systeme Einfluss auf die Meinungen und das Verhalten der Nutzer gewinnen.