Anthropic, en yeni yapay zeka modelini kıyaslamak için Pokémon'u kullandı

Anthropic, en yeni AI modelini kıyaslamak için Pokémon'u kullandı. Evet, gerçekten.

Pazartesi günü yayınlanan bir blog yazısında Anthropic, en son modeli Claude 3.7 Sonnet'i Game Boy klasiği Pokémon Red'de test ettiğini söyledi. Şirket, modeli temel bellek, ekran piksel girişi ve düğmelere basmak ve ekranda gezinmek için işlev çağrılarıyla donattı ve bu sayede Pokémon'u sürekli olarak oynayabildi.

Claude 3.7 Sonnet'in benzersiz bir özelliği, "genişletilmiş düşünme" becerisidir. OpenAI'nin o3-mini'si ve DeepSeek'in R1'i gibi Claude 3.7 Sonnet de daha fazla hesaplama uygulayarak ve daha fazla zaman harcayarak zorlu problemler üzerinde "akıl yürütebilir".

Görünüşe göre bu Pokémon Red'de işe yaramış.

Hikayenin başladığı Pallet Kasabası'ndaki evi terk etmeyi başaramayan Claude'un önceki versiyonu Claude 3.0 Sonnet'e kıyasla Claude 3.7 Sonnet, üç Pokémon spor salonu lideriyle başarılı bir şekilde savaşmış ve rozetlerini kazanmıştır.

Antropik Pokemon Kırmızı — **Resim Kredisi:** Anthropic

Şimdi, Claude 3.7 Sonnet'in bu kilometre taşlarına ulaşması için ne kadar hesaplama gerektiği ve her birinin ne kadar sürdüğü açık değil. Anthropic, modelin son spor salonu lideri Surge'e ulaşmak için yalnızca 35.000 eylem gerçekleştirdiğini söyledi.

Girişimci bir geliştiricinin bunu öğrenmesi uzun sürmeyecektir.

Pokémon Red, her şeyden çok bir oyuncak kıyaslamasıdır. Ancak, oyunların yapay zeka kıyaslama amaçları için kullanılmasının uzun bir geçmişi vardır . Sadece son birkaç ayda, Street Fighter'dan Pictionary'ye kadar uzanan oyunlarda modellerin oyun oynama yeteneklerini test etmek için bir dizi yeni uygulama ve platform ortaya çıktı.