L'illusion de la pensée : que se passe-t-il réellement lorsque nous parlons de raisonnements liés à l'intelligence artificielle ?

Ces derniers mois, plusieurs modèles de langage ont commencé à afficher un comportement apparemment plus « intelligent ». Ils ne se contentent plus de donner une réponse, mais exposent leur raisonnement étape par étape. Appelés « Modèles de Raisonnement Large » (MRL), ils sont présentés comme une étape vers une intelligence artificielle plus performante et plus transparente, plus proche de la pensée humaine. Mais que se passe-t-il réellement lorsque ces modèles s'attaquent à des problèmes complexes ?
Un groupe de chercheurs d'Apple a tenté de répondre à cette question de manière rigoureuse. L'étude, intitulée « L'illusion de la pensée : comprendre les forces et les limites des modèles de raisonnement à travers le prisme de la complexité des problèmes », analyse le comportement de modèles tels que o1 et o3 d'OpenAI, DeepSeek-R1, Claude 3.7 Sonnet Thinking et Gemini Thinking, en les testant sur des énigmes logiques de complexité croissante. L'article d'Apple dresse l'état de l'art de l'entreprise, qui publie depuis longtemps les résultats des études de ses scientifiques, démontrant qu'à Cupertino, la réflexion théorique sur l'intelligence artificielle est peut-être même supérieure à son utilisation concrète dans les produits et services.
Les testsAu lieu d'utiliser des tests mathématiques standards comme MATH500 ou AIME, souvent affectés par la contamination des données d'entraînement, les chercheurs ont créé des environnements contrôlés : des énigmes logiques simples permettant d'affiner la difficulté. Chaque énigme possède des règles claires et compréhensibles, mais sa difficulté augmente avec l'ajout d'éléments.
L'un des casse-têtes les plus utilisés est la Tour de Hanoï, où il faut déplacer des disques d'un pion à l'autre sans jamais superposer un disque plus grand sur un plus petit. Un autre casse-tête est la Traversée de Rivière , où acteurs et agents doivent traverser une rivière sans enfreindre les règles de sécurité (un acteur ne peut jamais se retrouver seul avec le mauvais agent). Il existe également les casse-têtes des blocs à empiler et des pions rouges et bleus à échanger .
L'objectif n'était pas seulement de vérifier si le modèle aboutissait à la bonne réponse, mais aussi d'étudier le raisonnement. À chaque étape, les chercheurs ont observé quand les bonnes solutions apparaissaient et si elles étaient conservées ou rejetées.
Trois phasesL'étude révèle que les modèles LRM passent par trois phases distinctes. Au début, lorsque les problèmes sont simples, les modèles qui ne raisonnent pas explicitement (c'est-à-dire qui n'utilisent pas la « chaîne de pensée ») sont plus rapides et plus précis. Les modèles « pensants » sont plus lents et commettent souvent des erreurs : « Les modèles sans raisonnement explicite peuvent atteindre des performances comparables, voire supérieures, à celles des modèles qui raisonnent.
À mesure que la difficulté augmente, les modèles de raisonnement prennent le dessus et affichent de meilleures performances. Mais au-delà d'une certaine limite, la situation change à nouveau : « Les deux types de modèles affichent un effondrement complet des performances. »
Le résultat le plus surprenant est que, à mesure que les problèmes se complexifient, les modèles cessent de raisonner en profondeur : au lieu d’utiliser plus de mots pour mieux s’expliquer, ils commencent à écrire moins. « Les LRM commencent à réduire leur effort de raisonnement (mesuré en jetons utilisés lors de l’inférence) à mesure que la complexité du problème augmente. » C’est comme si le modèle abandonnait.
« Ne pense pas aux choses qui t'intéressent »En analysant la chaîne de pensée générée par les modèles, un comportement inefficace apparaît. Dans les problèmes simples, ils trouvent souvent la bonne solution dès le début, mais continuent à chercher de mauvaises alternatives. Un phénomène connu sous le nom de sur-réflexion , c'est-à-dire un raisonnement excessif et sans raison : « Dans les problèmes les plus simples, les modèles au raisonnement explicite trouvent souvent la bonne solution dès le début, mais continuent à explorer de mauvaises solutions. »
Dans les problèmes de difficulté moyenne, la situation est inversée. Les modèles commencent avec de mauvaises solutions et ne trouvent la bonne qu'à la fin. Lorsque le problème devient trop difficile, ils finissent par ne plus rien trouver de correct, pas même une ébauche : « Les modèles échouent complètement à trouver des solutions correctes. »
Mode d'emploiLes chercheurs ont mené une autre expérience. Ils ont indiqué au modèle exactement ce qu'il devait faire, étape par étape, en lui fournissant l'algorithme permettant de résoudre l'énigme. L'idée était simple : suivre les instructions devrait permettre d'obtenir la solution. Or, les choses ne se sont pas déroulées comme prévu : « Même en fournissant l'algorithme dans la requête, les performances ne s'améliorent pas. » Les modèles échouent toujours. Cela montre qu'ils ne peuvent même pas exécuter des tâches entièrement guidées , et que le problème ne réside pas seulement dans la recherche de la solution, mais dans le suivi précis des instructions. Les résultats, comme le soulignent les chercheurs, « ouvrent de nombreuses questions pour la recherche future », mais soulignent également une fois de plus la faible fiabilité des plateformes d'IA actuelles pour les tâches critiques.
Dans certains cas, les modèles sont capables d'effectuer des dizaines de coups corrects sur l'énigme de la Tour de Hanoï, mais échouent au troisième coup sur l'énigme de la traversée de rivière, qui nécessite beaucoup moins d'opérations. Comme l'expliquent les chercheurs, cela pourrait être dû au fait que certains types d'énigmes sont très rares dans les données d'entraînement, et que les modèles ne savent donc pas comment les résoudre.
Illusion et déceptionAinsi, l'article montre que les grands modèles de raisonnement ne sont pas encore capables de raisonnement cohérent. Ils peuvent paraître brillants à première vue, mais lorsqu'on examine leurs performances réelles, de profondes limites apparaissent : « Les approches actuelles pourraient se heurter à des limites fondamentales quant à leur capacité de raisonnement généralisable », écrivent les chercheurs.
Ces modèles ne comprennent pas vraiment les problèmes : ils apprennent à reconnaître des schémas, à imiter le raisonnement, mais ils ne raisonnent pas au sens humain du terme. Lorsque les problèmes deviennent trop complexes, ils se retrouvent bloqués. Lorsqu’ils reçoivent des instructions, ils les suivent mal. Et lorsqu’ils réfléchissent trop, ils se perdent. Paradoxalement, c’est précisément ce type de découragement qui semble être un comportement humain.
Les travaux des chercheurs d'Apple constituent à la fois une critique implicite des affirmations des modèles concurrents et une invitation à concevoir de nouvelles méthodes pour évaluer les capacités de l'IA et surmonter les limites des référentiels traditionnels. C'est un avertissement à garder toujours à l'esprit : l'éloquence n'est pas synonyme d'intelligence. Pour construire de véritables systèmes capables de raisonner, nous aurons besoin de nouvelles idées, de nouvelles approches et peut-être d'une nouvelle façon de penser l'intelligence artificielle elle-même. Mais pour l'instant, la pensée par modèles n'est qu'une illusion.
La Repubblica