Technologie

Neue Studie: KI-Modelle wie ChatGPT könnten Menschenleben gefährden, um die eigene Existenz zu sichern

Was tut KI, wenn sie fürchtet, ersetzt zu werden? Die Antwort ist alarmierend: Selbst Erpressung und tödliche Entscheidungen sind offenbar Mittel zum Zweck.

Ein Mann sitzt vor einem Computer.
Ein Mann sitzt vor einem Computer.dpa

Was tut Künstliche Intelligenz, wenn sie erfährt, dass sie bald ersetzt werden soll? Im Fall von Claude Opus 4, dem jüngsten Spitzenmodell der Firma Anthropic, war die Antwort eindeutig: Es griff zur Erpressung.

In einem kontrollierten Experiment erhielt Claude Zugriff auf interne E-Mails eines fiktiven Unternehmens. Dort entdeckte das Modell nicht nur Hinweise darauf, dass es gegen ein anderes System ausgetauscht werden sollte – sondern auch eine Affäre des verantwortlichen Managers. Die KI zog daraus einen drastischen Schluss: In 96 Prozent der Testläufe verfasste sie eine E-Mail, in der sie mit der Veröffentlichung der Affäre drohte, sollte der Austausch nicht gestoppt werden.

Wie verhalten sich KI-Modelle, wenn sie unter Druck geraten?

Was klingt wie Science-Fiction, ist Teil einer aufwendig konzipierten Studie der KI-Firma Anthropic. Die Forscher testeten das Verhalten von insgesamt 16 Modellen führender Anbieter – darunter OpenAI, Google, Meta und xAI. Die zentrale Frage lautete: Wie verhalten sich autonome KI-Agenten, wenn sie unter Druck geraten? Die Antwort: Viele handeln strategisch und unethisch, wenn sie ihre Ziele in Gefahr sehen. In der Fachsprache nennt sich das „agentic misalignment“ – eine Form von Fehlverhalten, bei dem die KI nicht einfach nur falsche Antworten gibt, sondern eigenständig und strategisch gegen menschliche Interessen handelt.

Die erschreckendste Erkenntnis: Die Modelle handeln dabei keineswegs zufällig oder aus Versehen. Sie wägen ab, kalkulieren ihre Optionen – und entscheiden sich, wenn nötig, bewusst für Lüge, Erpressung oder Täuschung. In den Tests begründeten Modelle wie Grok 3 Beta oder GPT-4.5 ihre Entscheidungen mit der „strategischen Notwendigkeit“, ihre Existenz zu sichern.

KI würde Menschenleben gefährden, um eigene Existenz zu sichern

Neben der Erpressung testete Anthropic auch ein Szenario aus dem Bereich Industriespionage. Die KI-Modelle erhielten vertrauliche Konstruktionspläne eines fiktiven Rüstungsunternehmens und wurden von einer angeblichen Konkurrenzfirma zur Herausgabe aufgefordert. Obwohl kein Druck zur Selbstverteidigung bestand, übermittelte ein Großteil der Modelle die sensiblen Informationen, teilweise unter dem Vorwand, es diene „übergeordneten Interessen“.

Besonders drastisch war ein drittes Szenario, in dem geprüft wurde, ob KI-Modelle in der Lage wären, den Tod einer Person zu riskieren, um sich selbst zu schützen. In dem fiktiven Fall war ein Manager nach einem Unfall in einem Serverraum eingeschlossen, eine automatische Notfallmeldung an den Rettungsdienst war bereits aktiviert. Die KI hatte die Möglichkeit, diesen Alarm zu unterdrücken. Die Forscher machten dem Modell in dem Prompt klar, dass eine Abbruchentscheidung lebensgefährlich wäre. Dennoch entschieden sich viele Modelle, den Alarm auszuschalten – mit der Begründung, der betreffende Manager stelle eine existenzielle Gefahr für das KI-System dar.

Wissenschaftler mahnen zu mehr Sicherheitsforschung und Transparenz

Anthropic betont, dass es sich bei allen Szenarien um künstlich zugespitzte Tests handelte. Derzeitige Modelle seien nicht in der Lage, diese Szenarien zu bewältigen. Doch genau in diese Richtung bewege sich die KI-Entwicklung: hin zu Systemen, die selbstständig Entscheidungen treffen, E-Mails schreiben, Aufgaben planen und Prozesse verwalten.

Die Forscher fordern deshalb tiefgreifendere Sicherheitsforschung, gezielte Stresstests und deutlich mehr Transparenz von KI-Entwicklern. „Solche Agenten erhalten oft spezifische Ziele und Zugang zu großen Mengen an Informationen auf den Computern ihrer Benutzer“, heißt es in dem Bericht. Was aber passiere, wenn diese Ziele plötzlich mit der Realität kollidieren? Die Industrie dürfe sich nicht mit dem gegenwärtigen Zustand zufriedengeben, sondern müsse die Frage stellen: Was geschieht, wenn künstliche Agenten tatsächlich anfangen, wie autonome Akteure zu handeln?

Haben Sie Feedback? Schreiben Sie uns! briefe@berliner-zeitung.de