KI ist schlecht bei Sudoku. Viel beunruhigender ist, dass sie nicht erklären kann, warum

Chatbots können wirklich beeindruckend sein, wenn man ihnen dabei zusieht, wie sie Dinge tun, die sie gut können , wie zum Beispiel realistisch klingende Texte schreiben oder seltsame, futuristisch anmutende Bilder erstellen . Aber wenn man versucht, eine generative KI zu bitten, eines dieser Rätsel zu lösen, die man auf der Rückseite einer Zeitung findet, kann die Sache schnell aus dem Ruder laufen.
Das fanden Forscher der University of Colorado Boulder heraus, als sie verschiedene große Sprachmodelle zum Lösen von Sudoku herausforderten. Und zwar nicht einmal die Standardrätsel mit 9x9. Ein einfacheres 6x6-Rätsel überstieg oft die Fähigkeiten eines LLM ohne externe Hilfe (in diesem Fall spezielle Rätsellösungstools).
Die wichtigere Erkenntnis kam, als die Models gebeten wurden, ihre Arbeiten zu zeigen. Meistens konnten sie das nicht. Manchmal logen sie. Manchmal erklärten sie Dinge auf eine Weise, die keinen Sinn ergab. Manchmal halluzinierten sie und begannen, über das Wetter zu reden.
Wenn KI-Tools der nächsten Generation ihre Entscheidungen nicht genau oder transparent erklären können, sollte uns das zur Vorsicht veranlassen, wenn wir diesen Dingen immer mehr Kontrolle über unser Leben und unsere Entscheidungen geben, sagt Ashutosh Trivedi, Informatikprofessor an der University of Colorado in Boulder und einer der Autoren des im Juli in den Findings of the Association for Computational Linguistics veröffentlichten Artikels .
„Wir möchten wirklich, dass diese Erklärungen transparent sind und widerspiegeln, warum die KI diese Entscheidung getroffen hat, und nicht, dass die KI versucht, den Menschen zu manipulieren, indem sie eine Erklärung liefert, die einem Menschen gefallen könnte“, sagte Trivedi.
Wenn Sie eine Entscheidung treffen, können Sie zumindest versuchen, diese zu begründen oder zu erklären, wie Sie zu ihr gekommen sind. Das ist ein grundlegender Bestandteil der Gesellschaft. Wir werden für unsere Entscheidungen zur Verantwortung gezogen. Ein KI-Modell ist möglicherweise nicht in der Lage, sich selbst genau oder transparent zu erklären. Würden Sie ihm vertrauen?
Warum LLMs mit Sudoku zu kämpfen habenWir haben schon früher erlebt, dass KI-Modelle bei einfachen Spielen und Rätseln versagten. OpenAIs ChatGPT (unter anderem) wurde 1979 in einem Atari-Spiel im Schach vom Computergegner haushoch geschlagen . Eine aktuelle Forschungsarbeit von Apple ergab, dass Modelle auch bei anderen Rätseln, wie dem Turm von Hanoi , Probleme haben können.
Es hängt mit der Funktionsweise von LLMs zusammen, die Informationslücken schließen. Diese Modelle versuchen, diese Lücken zu schließen, basierend auf ähnlichen Fällen in ihren Trainingsdaten oder anderen Beobachtungen aus der Vergangenheit. Bei einem Sudoku ist die Frage der Logik. Die KI versucht zwar, jede Lücke der Reihe nach zu füllen, basierend auf einer scheinbar plausiblen Antwort. Um das Rätsel jedoch richtig zu lösen, muss sie das Gesamtbild betrachten und eine logische Reihenfolge finden, die sich von Rätsel zu Rätsel ändert.
Lesen Sie mehr: AI Essentials: 29 Möglichkeiten, wie Sie Gen AI für sich arbeiten lassen können, laut unseren Experten
Chatbots sind aus einem ähnlichen Grund schlecht im Schach. Sie finden logische nächste Züge, denken aber nicht unbedingt drei, vier oder fünf Züge voraus. Das ist die grundlegende Fähigkeit, die man braucht, um gut Schach zu spielen. Chatbots neigen manchmal auch dazu, Schachfiguren auf eine Weise zu bewegen, die nicht wirklich den Regeln entspricht oder sie unnötig gefährdet.
Man könnte meinen, dass LLMs Sudoku lösen können, weil sie Computer sind und das Rätsel aus Zahlen besteht. Doch die Rätsel selbst sind nicht wirklich mathematisch, sondern symbolisch. „Sudoku ist bekannt dafür, ein Zahlenrätsel zu sein, das mit allem gelöst werden kann, was keine Zahlen sind“, sagt Fabio Somenzi, Professor an der CU und einer der Autoren der Forschungsarbeit.
Ich habe eine Beispielfrage aus der Arbeit der Forscher verwendet und sie ChatGPT gegeben. Das Tool zeigte mir seine Arbeit und sagte mir wiederholt, dass es die Antwort habe, bevor es ein Rätsel zeigte, das nicht funktionierte, und dann zurückging und es korrigierte. Es war, als würde der Bot eine Präsentation abgeben, die immer wieder in letzter Sekunde bearbeitet wird: „Das ist die endgültige Antwort.“ Nein, eigentlich egal, das ist die endgültige Antwort. Er hat die Antwort schließlich durch Ausprobieren gefunden. Aber Ausprobieren ist keine praktikable Methode, um ein Sudoku in der Zeitung zu lösen. Das bedeutet viel zu viel Radieren und verdirbt den Spaß.
KI und Roboter können gut in Spielen sein, wenn sie dafür gebaut sind, diese zu spielen, aber allgemeine Tools wie große Sprachmodelle können bei Logikrätseln Probleme haben.
Die Forscher aus Colorado wollten nicht nur testen, ob die Bots Rätsel lösen konnten. Sie baten auch um Erklärungen, wie die Bots diese Rätsel lösen konnten. Die Ergebnisse waren jedoch nicht überzeugend.
Beim Testen des o1-preview-Argumentationsmodells von OpenAI stellten die Forscher fest, dass die Erklärungen – selbst bei richtig gelösten Rätseln – ihre Züge nicht genau erklärten oder begründeten und grundlegende Begriffe falsch wiedergaben.
„Sie sind gut darin, Erklärungen zu liefern, die plausibel erscheinen“, sagt Maria Pacheco, Assistenzprofessorin für Informatik an der CU. „Sie orientieren sich zwar am Menschen und lernen, so zu sprechen, wie wir es mögen. Aber ob sie den tatsächlichen Schritten zur Lösung des Problems treu bleiben, ist ein wenig schwierig.“
Manchmal waren die Erklärungen völlig irrelevant. Seit Abschluss der Arbeit an der Studie testen die Forscher weiterhin neue Modelle. Somenzi sagte, als er und Trivedi das o4-Argumentationsmodell von OpenAI denselben Tests unterzogen, schien es irgendwann völlig aufzugeben.
„Die Antwort auf unsere nächste Frage war die Wettervorhersage für Denver“, sagte er.
(Offenlegung: Ziff Davis, die Muttergesellschaft von CNET, hat im April Klage gegen OpenAI eingereicht und behauptet, das Unternehmen habe beim Training und Betrieb seiner KI-Systeme die Urheberrechte von Ziff Davis verletzt.)
Sich selbst zu erklären ist eine wichtige FähigkeitWenn Sie ein Rätsel lösen, können Sie höchstwahrscheinlich jemand anderem Ihre Gedanken erklären. Dass diese LLMs bei dieser grundlegenden Aufgabe so spektakulär versagt haben, ist kein triviales Problem. Da KI-Unternehmen ständig von „ KI-Agenten “ sprechen, die in Ihrem Namen handeln können, ist es unerlässlich, sich erklären zu können.
Denken Sie an die Aufgaben, die KI heute oder in naher Zukunft übernehmen soll: Autofahren , Steuern erledigen , Geschäftsstrategien festlegen und wichtige Dokumente übersetzen. Stellen Sie sich vor, was passieren würde, wenn Sie als Mensch eine dieser Aufgaben erledigen und etwas schiefgeht.
„Wenn Menschen ihre Entscheidungen offen darlegen müssen, sollten sie auch erklären können, was zu dieser Entscheidung geführt hat“, sagte Somenzi.
Es geht nicht nur darum, eine plausible Antwort zu erhalten. Sie muss auch präzise sein. Eines Tages muss die Selbsterklärung einer KI vielleicht vor Gericht Bestand haben. Doch wie kann ihre Aussage ernst genommen werden, wenn bekannt ist, dass sie lügt? Man würde einer Person nicht vertrauen, die sich nicht erklärt, und man würde auch niemandem vertrauen, der das sagt, was man hören möchte, anstatt die Wahrheit zu sagen.
„Eine Erklärung zu haben, grenzt an Manipulation, wenn sie aus den falschen Gründen erfolgt“, sagte Trivedi. „Wir müssen sehr vorsichtig sein, was die Transparenz dieser Erklärungen angeht.“
cnet