Une étude révèle la principale faiblesse de l’IA : seulement 26 % d’entre eux pouvaient lire correctement

La recherche, présentée à la Conférence internationale sur les représentations de l'apprentissage (ICLR) 2025 et publiée sur la plateforme arXiv le 18 mars, a montré que l'IA est étonnamment mauvaise pour lire les horloges analogiques et les dates du calendrier. Les résultats n’ont pas encore été évalués par des pairs.
« La plupart des gens apprennent à lire l'heure et à utiliser les calendriers dès leur plus jeune âge. Cette étude met en évidence les faibles performances des systèmes d'IA dans les tâches concrètes et urgentes », a déclaré Rohit Saxena, de l'Université d'Édimbourg, qui a dirigé la recherche.
Dans le cadre de l'étude, des images d'horloge et de calendrier spécialement préparées ont été présentées pour les modèles Llama 3.2-Vision de Meta, Claude-3.5 Sonnet d'Anthropic, Gemini 2.0 de Google et GPT-4o d'OpenAI. Cependant, les modèles n'ont pu lire correctement l'heure que dans 38,7 % des cas et les dates du calendrier dans 26,3 % des cas.
Saxena affirme que la base de cet échec réside dans l’inadéquation de l’intelligence artificielle dans la perception visuelle et le raisonnement spatial. « Lire des montres analogiques ne se résume pas à la reconnaissance d’images ; il s’agit de mesurer des angles, de distinguer les aiguilles des heures et des minutes qui se chevauchent et de gérer différents designs », explique Saxena.
Les calculs de calendrier ont donné des résultats tout aussi médiocres. Par exemple, « Quel jour est le 153e jour de l'année ? » Les réponses des systèmes d’IA à des questions comme celles-ci étaient pour la plupart erronées. Parce que de telles questions reposent non seulement sur des connaissances, mais aussi sur des capacités de traitement logique cohérentes.
Saxena souligne que si l’arithmétique est simple pour les ordinateurs traditionnels, les grands modèles de langage ne fonctionnent pas de manière algorithmique, ils font simplement des suppositions basées sur des modèles. Cela conduit à de mauvaises performances dans des domaines qui nécessitent une réflexion cohérente et fondée sur des règles.
En fin de compte, la recherche montre clairement que les systèmes d’IA ne sont toujours pas capables d’agir avec une intuition, une abstraction et une logique humaines, et que les humains sont toujours nécessaires, en particulier pour des tâches de base telles que la perception du temps.
SÖZCÜ