Anthropic a utilisé Pokémon pour évaluer son nouveau modèle d'IA

Anthropic a utilisé Pokémon pour évaluer son nouveau modèle d'IA. Oui, vraiment.
Dans un article de blog publié lundi, Anthropic a déclaré avoir testé son dernier modèle, Claude 3.7 Sonnet , sur la console classique Pokémon Red de Game Boy. La société a équipé le modèle d'une mémoire de base, d'une entrée de pixels à l'écran et d'appels de fonction pour appuyer sur des boutons et naviguer sur l'écran, ce qui lui permet de jouer à Pokémon en continu.
L'une des caractéristiques uniques de Claude 3.7 Sonnet est sa capacité à s'engager dans une « réflexion approfondie ». Comme o3-mini d'OpenAI et R1 de DeepSeek, Claude 3.7 Sonnet peut « raisonner » sur des problèmes complexes en appliquant davantage de calculs et en prenant plus de temps.
Cela s'est avéré utile dans Pokémon Rouge, apparemment.
Comparé à une version précédente de Claude, Claude 3.0 Sonnet, qui n'a pas réussi à quitter la maison de Bourg Palette où l'histoire commence, Claude 3.7 Sonnet a combattu avec succès trois champions de gymnase Pokémon et a remporté leurs badges.

On ne sait pas exactement quelle quantité de calcul a été nécessaire pour que Claude 3.7 Sonnet atteigne ces objectifs, ni combien de temps il a fallu à chaque fois. Anthropic a seulement indiqué que le modèle avait effectué 35 000 actions pour atteindre le dernier leader du gymnase, Surge.
Il ne faudra sûrement pas longtemps avant qu’un développeur entreprenant le découvre.
Pokémon Rouge est plus un jouet qu'un autre jeu. Cependant, les jeux vidéo sont depuis longtemps utilisés à des fins de comparaison d'IA. Rien qu'au cours des derniers mois, un certain nombre de nouvelles applications et plateformes ont fait leur apparition pour tester les capacités de jeu des modèles sur des titres allant de Street Fighter à Pictionary .
techcrunch