De illusie van denken: wat gebeurt er nu werkelijk als we kunstmatige intelligentie als reden aanhalen?

De afgelopen maanden zijn verschillende taalmodellen schijnbaar 'intelligenter' gedrag gaan vertonen. Ze geven niet langer simpelweg een antwoord, maar tonen hun redenering stap voor stap. Deze zogenaamde Large Reasoning Models (LRM) worden gepresenteerd als een stap naar een capabelere, transparantere kunstmatige intelligentie die dichter bij de wereld van het menselijk denken staat. Maar wat gebeurt er nu echt als deze modellen complexe problemen aanpakken?
Een groep Apple-onderzoekers heeft geprobeerd deze vraag op een rigoureuze manier te beantwoorden. De studie, getiteld The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity , analyseert het gedrag van modellen zoals OpenAI's o1 en o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking en Gemini Thinking, en test deze op logische puzzels van toenemende complexiteit. Apple's paper toont de stand van zaken van het bedrijf, dat de resultaten van de studies van zijn wetenschappers al lang publiceert, en laat zien hoe de theoretische reflectie op kunstmatige intelligentie in Cupertino misschien zelfs superieur is aan de concrete toepassing ervan in producten en diensten.
De testenIn plaats van standaard wiskundetests zoals MATH500 of AIME te gebruiken, die vaak vervuild zijn met trainingsdata, creëerden de onderzoekers gecontroleerde omgevingen: eenvoudige logische puzzels waarmee ze de moeilijkheidsgraad nauwkeurig konden aanpassen. Elke puzzel heeft duidelijke, begrijpelijke regels, maar wordt steeds moeilijker naarmate er meer elementen worden toegevoegd.
Een van de meest gebruikte puzzels is de Toren van Hanoi, waarbij je schijven van de ene naar de andere paal moet verplaatsen zonder ooit een grotere schijf op een kleinere te leggen. Een andere is de Rivieroversteek , waarbij acteurs en agenten een rivier moeten oversteken zonder de veiligheidsregels te overtreden (een acteur kan nooit alleen zijn met de verkeerde agent). Dan zijn er nog de puzzels van de blokken die gestapeld moeten worden en de puzzel van de rode en blauwe pionnen die van plaats moeten worden gewisseld .
Het doel was niet alleen om te zien of het model tot het juiste antwoord kwam, maar ook om het redeneerproces te bestuderen. Voor elke stap observeerden de onderzoekers wanneer de juiste oplossingen verschenen en of deze werden behouden of weggelaten.
Drie fasenUit het onderzoek blijkt dat LRM's drie verschillende fasen doorlopen. In het begin, wanneer de problemen eenvoudig zijn, zijn modellen die niet expliciet redeneren (d.w.z. geen gebruik maken van de 'denkketen') sneller en nauwkeuriger. De 'denk'-modellen zijn trager en maken vaak fouten: "Modellen zonder expliciete redenering kunnen vergelijkbare, zo niet betere, prestaties leveren dan modellen die wel redeneren."
Naarmate de moeilijkheidsgraad toeneemt, nemen de redeneermodellen het over en laten ze betere prestaties zien. Maar voorbij een bepaalde grens verandert de situatie weer : "Beide typen modellen laten een volledige ineenstorting van de prestaties zien."
De meest verrassende bevinding is dat modellen, net zoals problemen complexer worden, stoppen met diepgaand redeneren : in plaats van meer woorden te gebruiken om zichzelf beter uit te leggen, beginnen ze minder te schrijven. "LRM's beginnen hun redeneerinspanning (gemeten in tokens die tijdens de inferentie worden gebruikt) te verminderen naarmate de complexiteit van het probleem toeneemt." Het is alsof het model het opgeeft.
“Houd je gedachten ergens anders op gericht”Bij het analyseren van de gedachteketen die door modellen wordt gegenereerd, ontstaat inefficiënt gedrag. Bij eenvoudige problemen vinden modellen vaak al vroeg de juiste oplossing, maar blijven ze zoeken naar verkeerde alternatieven. Dit fenomeen staat bekend als overdenken , oftewel te veel redeneren zonder reden : "Bij de eenvoudigste problemen vinden modellen met expliciete redenering vaak al vroeg in hun gedachten de juiste oplossing, maar blijven ze zoeken naar verkeerde oplossingen."
Bij problemen van gemiddelde moeilijkheidsgraad is de situatie omgekeerd. De modellen beginnen met verkeerde oplossingen en vinden pas aan het eind de juiste. Wanneer het probleem te moeilijk wordt, vinden ze uiteindelijk niets correct, zelfs geen kladversie: "De modellen slagen er totaal niet in de juiste oplossingen te vinden."
GebruiksaanwijzingDe onderzoekers voerden nog een experiment uit. Ze vertelden het model precies wat het moest doen, stap voor stap, door het algoritme te gebruiken om de puzzel op te lossen. Het idee was simpel: als je de instructies volgt, zou je de oplossing moeten vinden. Dit verliep niet zoals verwacht: "Zelfs als we het algoritme in de aanvraag vermelden, verbetert de prestatie niet." De modellen falen nog steeds. Dit toont aan dat ze zelfs geen volledig begeleide taken kunnen uitvoeren , en dat het probleem niet alleen zit in het vinden van de oplossing, maar in het nauwkeurig volgen van de instructies. De resultaten, zo benadrukken de onderzoekers, "werpen talloze vragen op voor toekomstig onderzoek", maar onderstrepen tegelijkertijd opnieuw de geringe betrouwbaarheid van huidige AI-platforms voor kritieke taken.
In sommige gevallen slagen de modellen er zelfs in om tientallen zetten goed te doen op de puzzel van de Toren van Hanoi, maar falen ze bij de derde zet op de puzzel van de rivieroversteek, waarvoor veel minder handelingen nodig zijn. Zoals de onderzoekers uitleggen, zou dit te wijten kunnen zijn aan het feit dat bepaalde soorten puzzels zeer zeldzaam zijn in de trainingsdata, waardoor de modellen niet weten hoe ze die moeten aanpakken.
Illusie en teleurstellingHet artikel laat dus zien dat Large Reasoning Models nog niet in staat zijn tot coherent redeneren. Ze lijken op het eerste gezicht misschien briljant, maar als je kijkt naar wat ze daadwerkelijk doen, komen er grote beperkingen naar voren: "Huidige benaderingen kunnen fundamentele beperkingen ondervinden in hun generaliseerbare redeneringsvermogen", schrijven de onderzoekers.
Deze modellen begrijpen problemen niet echt: ze leren patronen herkennen, redeneringen imiteren, maar ze redeneren niet in de menselijke zin van het woord. Als problemen te complex worden, lopen ze vast. Als ze instructies krijgen, volgen ze die slecht op. En als ze te veel nadenken, raken ze de weg kwijt. Paradoxaal genoeg is het juist dit soort ontmoediging dat menselijk gedrag lijkt.
Het werk van Apple-onderzoekers is zowel een impliciete kritiek op de beweringen van concurrerende modellen als een uitnodiging om nieuwe methoden te ontwerpen om de mogelijkheden van AI te evalueren en de beperkingen van traditionele benchmarks te overwinnen. Het is een waarschuwing om altijd in gedachten te houden: welsprekendheid is niet hetzelfde als intelligentie. Om echte systemen te bouwen die in staat zijn om te redeneren, hebben we nieuwe ideeën, nieuwe benaderingen en misschien een nieuwe manier van denken over kunstmatige intelligentie zelf nodig. Maar voorlopig is modeldenken slechts een illusie.
La Repubblica