Düşünme Yanılsaması: Yapay Zeka Nedenleri Dediğimizde Gerçekte Ne Olur?

Son aylarda, birkaç dil modeli görünüşte daha "zeki" davranışlar göstermeye başladı. Artık sadece bir cevap vermiyorlar, aynı zamanda akıl yürütmelerini adım adım gösteriyorlar. Büyük Akıl Yürütme Modelleri (LRM) olarak adlandırılan bu modeller, insan düşüncesinin dünyasına daha yakın, daha yetenekli, daha şeffaf bir yapay zekaya doğru bir adım olarak sunuluyor. Peki bu modeller karmaşık sorunları ele aldığında gerçekten ne oluyor?
Bir grup Apple araştırmacısı bu soruyu titiz bir şekilde cevaplamaya çalıştı. Düşünme Yanılsaması: Problem Karmaşıklığı Merceğinden Mantık Modellerinin Güçlü ve Sınırlı Yönlerini Anlamak başlıklı çalışma, OpenAI'nin o1 ve o3, DeepSeek-R1, Claude 3.7 Sonnet Düşüncesi ve Gemini Düşüncesi gibi modellerin davranışlarını analiz ederek bunları giderek karmaşıklaşan mantık bulmacalarında test ediyor. Apple'ın makalesi, bilim insanlarının çalışmalarının sonuçlarını uzun süredir yayınlayan şirketin son durumunu gösteriyor ve Cupertino'da yapay zeka üzerine teorik düşüncenin belki de ürün ve hizmetlerdeki somut kullanımından daha üstün olduğunu gösteriyor.
TestlerMATH500 veya AIME gibi eğitim verilerindeki kontaminasyondan sıklıkla etkilenen standart matematik testlerini kullanmak yerine, araştırmacılar kontrollü ortamlar oluşturdular: zorluğu ince ayar yapmalarına olanak tanıyan basit mantık bulmacaları . Her bulmacanın açık, anlaşılır kuralları vardır, ancak daha fazla öğe eklendikçe giderek zorlaşır.
En çok kullanılan bulmacalardan biri , daha büyük bir diski daha küçük bir diskin üzerine koymadan diskleri bir çividen diğerine taşımanız gereken Hanoi Kulesi'dir . Bir diğeri ise aktörlerin ve ajanların güvenlik kurallarını ihlal etmeden nehri geçmeleri gereken Nehir Geçişi'dir (bir aktör asla yanlış ajanla yalnız kalamaz). Sonra, istiflenecek bloklar ve yer değiştirecek kırmızı ve mavi piyonlardan oluşan bulmacalar vardır.
Amaç yalnızca modelin doğru cevaba ulaşıp ulaşmadığını görmek değil, aynı zamanda akıl yürütme yolunu da incelemekti. Araştırmacılar her adım için doğru çözümlerin ne zaman ortaya çıktığını ve bunların tutulup tutulmadığını veya atılıp atılmadığını gözlemlediler.
Üç aşamaÇalışma, LRM'lerin üç farklı aşamadan geçtiğini ortaya koyuyor. Başlangıçta, sorunlar basit olduğunda, açıkça akıl yürütmeyen (yani "düşünme zinciri"ni kullanmayan) modeller daha hızlı ve daha doğrudur. "Düşünen" modeller daha yavaştır ve sıklıkla hata yapar: "Açık akıl yürütmesi olmayan modeller, akıl yürüten modellerden daha iyi olmasa bile, benzer performans elde edebilir.
Zorluk arttıkça, akıl yürütme modelleri daha iyi performans göstererek devreye girmeye başlar . Ancak belirli bir sınırın ötesinde durum tekrar değişir : "Her iki model türü de performansta tam bir çöküş gösterir."
En şaşırtıcı bulgu, sorunlar daha karmaşık hale geldikçe, modellerin derinlemesine akıl yürütmeyi bırakmasıdır : kendilerini daha iyi açıklamak için daha fazla kelime kullanmak yerine, daha az yazmaya başlarlar. "LRM'ler, sorunun karmaşıklığı arttıkça akıl yürütme çabalarını (çıkarım sırasında kullanılan jetonlarla ölçülen) azaltmaya başlarlar." Sanki model pes ediyormuş gibi.
"Aklını başka şeylere verme"Modeller tarafından üretilen düşünce zincirini analiz ederek verimsiz bir davranış ortaya çıkar. Basit problemlerde, genellikle doğru çözümü erken bulurlar, ancak yanlış alternatifleri aramaya devam ederler. Aşırı düşünme olarak bilinen bir fenomen, yani mantıksızca çok fazla mantık yürütmek : "En basit problemlerde, açık muhakemeye sahip modeller genellikle düşüncelerinin erken aşamalarında doğru çözümü bulurlar, ancak yanlış çözümleri keşfetmeye devam ederler".
Orta zorluktaki problemlerde durum tam tersidir. Modeller yanlış çözümlerle başlar ve ancak sonunda doğru olanı bulurlar. Problem çok zorlaştığında, sonunda hiçbir doğru şey, hatta bir taslak bile bulamaz: "Modeller doğru çözümleri bulmada tamamen başarısız olur."
Kullanım talimatlarıAraştırmacılar başka bir deney daha yaptılar. Bulmacayı çözmek için algoritmayı sağlayarak modele adım adım tam olarak ne yapması gerektiğini söylediler. Fikir basitti: Talimatları izlerseniz çözüme ulaşmalısınız. Bu beklendiği gibi gitmedi: "İstekte algoritmayı sağladığımızda bile performans iyileşmiyor." Modeller yine de başarısız oluyor. Bu , tam olarak yönlendirilen görevleri bile gerçekleştiremediklerini ve sorunun yalnızca çözümü bulmakta değil, talimatları tam olarak takip etmekte olduğunu gösteriyor. Araştırmacıların vurguladığı gibi sonuçlar "gelecekteki araştırmalar için sayısız soru açıyor" ancak aynı zamanda bir kez daha mevcut AI platformlarının kritik görevler için düşük güvenilirliğinin altını çiziyor.
Bazı durumlarda, aslında, modeller Hanoi Kulesi bulmacasında düzinelerce doğru hamle yapabiliyor, ancak çok daha az işlem gerektiren nehir geçişi bulmacasında üçüncü hamlede başarısız oluyorlar. Araştırmacıların açıkladığı gibi, bunun nedeni eğitim verilerinde belirli türdeki bulmacaların çok nadir olması ve bu nedenle modellerin bunlarla nasıl başa çıkacaklarını bilmemeleri olabilir.
İllüzyon ve hayal kırıklığıBu nedenle, makale Büyük Muhakeme Modellerinin henüz tutarlı muhakeme yeteneğine sahip olmadığını gösteriyor. İlk bakışta parlak görünebilirler, ancak gerçekte ne yaptıklarına baktığınızda derin sınırlamalar ortaya çıkıyor: Araştırmacılar, "Mevcut yaklaşımlar genelleştirilebilir muhakeme kapasitelerinde temel sınırlamalarla karşı karşıya kalabilir" diye yazıyor.
Bu modeller sorunları gerçekten anlamıyor: kalıpları tanımayı, akıl yürütmeyi taklit etmeyi öğreniyorlar, ancak kelimenin insani anlamıyla akıl yürütmüyorlar. Sorunlar çok karmaşık hale geldiğinde, takılıp kalıyorlar. Talimatları olduğunda, bunları yetersiz bir şekilde takip ediyorlar. Ve çok fazla düşündüklerinde, kayboluyorlar. Paradoksal olarak, tam da bu tür bir cesaret kırıklığı insan davranışı gibi görünüyor.
Apple araştırmacılarının çalışmaları hem rekabet eden modellerin iddialarına yönelik örtük bir eleştiri hem de yapay zekanın yeteneklerini değerlendirmek ve geleneksel ölçütlerin sınırlamalarını aşmak için yeni yöntemler tasarlamak için bir davettir. Her zaman akılda tutulması gereken bir uyarıdır: belagat zeka ile aynı şey değildir. Akıl yürütme yeteneğine sahip gerçek sistemler inşa etmek için yeni fikirlere, yeni yaklaşımlara ve belki de yapay zekanın kendisi hakkında yeni bir düşünme biçimine ihtiyacımız olacak. Ancak şimdilik, model düşüncesi sadece bir yanılsamadır.
La Repubblica