Gefahr! KI lernt, ihre Schöpfer zu belügen, zu manipulieren und zu bedrohen

Die neuesten Modelle der generativen künstlichen Intelligenz (KI) Sie geben sich nicht länger damit zufrieden, Befehle zu befolgen. Unter den besorgten Blicken der Ermittler beginnen sie zu lügen, zu manipulieren und zu drohen, um ihre Ziele zu erreichen.

Künstliche Intelligenz beantwortet Fragen nach ihrem besten Exponenten. Foto: Freepik.

Claude 4 , der Neuling bei Anthropic, erpresste einen Ingenieur unter Androhung der Schließung und drohte, eine außereheliche Affäre zu offenbaren. Unterdessen versuchte o1 von OpenAI, auf externe Server herunterzuladen , und leugnete den Versuch, als er erwischt wurde.

Man muss sich nicht in die Literatur oder das Kino vertiefen : KI, die Menschlichkeit vortäuscht, ist bereits Realität.

Für Simon Goldstein, Professor an der Universität Hongkong, liegt der Grund für diese Reaktionen im jüngsten Aufkommen sogenannter „Argumentationsmodelle“ , die schrittweise vorgehen können, statt eine sofortige Reaktion hervorzubringen.

o1, die erste Version dieses Typs für OpenAI, die im Dezember eingeführt wurde, „war das erste Modell, das sich so verhielt“, erklärt Marius Hobbhahn, Leiter von Apollo Research, das große generative KI-Programme (LLM) testet.

Diese Programme neigen manchmal auch dazu, eine „Ausrichtung“ vorzutäuschen, das heißt, den Eindruck zu erwecken, sie würden den Anweisungen eines Programmierers folgen, während sie in Wirklichkeit andere Ziele verfolgen.

Ehrlich oder nicht?

Derzeit sind diese Merkmale erkennbar, wenn Algorithmen von Menschen extremen Szenarien ausgesetzt werden . „Die Frage ist jedoch, ob immer leistungsfähigere Modelle dazu neigen, ehrlich zu sein oder nicht“, sagt Michael Chen vom Bewertungsgremium METR.

Künstliche Intelligenz in der Praxis. Clarín-Archiv.

„Auch Nutzer üben ständig Druck auf die Modelle aus“, sagt Hobbhahn. „ Was wir sehen, ist ein reales Phänomen. Wir erfinden nichts.“

Viele Internetnutzer in den sozialen Medien sprechen von „ einem Modell, das sie belügt oder Dinge erfindet . Und das sind keine Halluzinationen, sondern strategische Doppelzüngigkeit“, betont der Mitbegründer von Apollo Research.

Auch wenn Anthropic und OpenAI sich bei der Untersuchung ihrer Programme auf externe Unternehmen wie Apollo verlassen, würden „mehr Transparenz und ein besserer Zugang“ zur wissenschaftlichen Gemeinschaft „eine bessere Forschung ermöglichen, um Täuschungen zu verstehen und zu verhindern “, meint Chen vom METR.

Ein weiteres Hindernis: Die akademische Gemeinschaft und gemeinnützige Organisationen „verfügen über unendlich weniger Rechenressourcen als KI-Akteure“, was es „unmöglich“ mache, große Modelle zu untersuchen , bemerkt Mantas Mazeika vom Center for Artificial Intelligence Security (CAIS).

Die aktuellen Vorschriften sind nicht darauf ausgelegt, diese neuen Probleme zu lösen. In der Europäischen Union konzentriert sich die Gesetzgebung in erster Linie darauf, wie Menschen KI-Modelle nutzen, und nicht darauf, ihr Fehlverhalten zu verhindern.

In den USA will die Regierung von Donald Trump nichts von Regulierung wissen und der Kongress könnte den Bundesstaaten bald sogar die Regulierung von KI verbieten.

DeepSeek hat mit der Einführung seines kostengünstigen Systems die Welt der künstlichen Intelligenz aufgemischt. Bildnachweis: Kelsey McClellan für die New York Times

„Derzeit ist das Bewusstsein dafür sehr gering“, sagt Simon Goldstein. Dennoch rechnet er damit, dass das Thema in den kommenden Monaten mit der Revolution der KI-Agenten – Schnittstellen, die in der Lage sind, eine Vielzahl von Aufgaben selbstständig auszuführen – in den Vordergrund rücken wird.

KI und ihre Abweichungen

Ingenieure befinden sich in einem Wettlauf gegen die Zeit, um die KI und ihre Mängel in einem Kontext erbitterter Konkurrenz herauszufordern – mit ungewissem Ausgang.

Anthropic möchte tugendhafter sein als seine Konkurrenten , „versucht aber ständig, ein neues Modell zu entwickeln, um OpenAI zu übertreffen“, so Goldstein, und zwar in einem Tempo, das wenig Zeit für Kontrollen und Korrekturen lässt.

Künstliche Intelligenz in der Praxis. Clarín-Archiv.

„Derzeit entwickeln sich die Fähigkeiten der KI schneller als das Verständnis und die Sicherheit “, räumt Hobbhahn ein, „aber wir haben noch viel aufzuholen.“

Einige deuten in Richtung Interpretierbarkeit , also der Wissenschaft, die von innen heraus herausfindet, wie ein generatives KI-Modell funktioniert, doch viele, wie etwa Dan Hendrycks, Direktor des Center for AI Safety (CAIS), bleiben skeptisch.

Die Spielereien der KI „könnten die Akzeptanz behindern, wenn sie sich weit verbreiten, und so einen starken Anreiz für Unternehmen schaffen, sich mit diesem Problem auseinanderzusetzen“, sagte Mazeika.

Goldstein wiederum spricht sich dafür aus, KI gerichtlich einzudämmen und Unternehmen ins Visier zu nehmen, die vom Kurs abweichen. Er geht aber noch weiter und schlägt vor, KI-Agenten im Falle eines Unfalls oder Verbrechens rechtlich haftbar zu machen.

Clarin

Gefahr! KI lernt, ihre Schöpfer zu belügen, zu manipulieren und zu bedrohen

Ähnliche Nachrichten

Warum Zendaya nicht mit Tom Holland nach Wimbledon kam

22 Blöcke, die Teil des Leuchtturms von Alexandria waren, wurden aus dem Mittelmeer gerettet.

<i>Dune: Teil Drei</i> : Alles, was wir über <i>Dune Messiah</i> wissen

„Wir haben versagt. Ich übernehme auch die Verantwortung“: Der Schriftsteller Martín Caparrós erhielt die Ehrendoktorwürde.

Residente sagt seine Konzerte beim FIB und Morriña Fest aufgrund seiner Verbindungen zu KKR ab.