Apple’dan yapay zeka sanayisine darbe: Son modeller büsbütün çöküyor

Okuma süresi: 3dk, 47sn

Apple araştırmacıları, yapay zekanın muhakeme yeteneklerine dair savlı telaffuzlara ağır bir darbe vurabilecek bir çalışmaya yayınladı.

7 Haziran’da Apple’ın makine tahsili sitesinde yayınlanan çalışmaya nazaran, Meta, OpenAI ve DeepSeek üzere büyük teknoloji şirketlerinin geliştirdiği son model yapay zeka araçları, muhakeme yapabildikleri tez edilse de, misyonlar karmaşıklaştığında büsbütün başarısız oluyor.

MUHAKEME MODELLERİ NE VAAT EDİYORDU?

Anthropic firmasının Claude modeli, OpenAI’ın o3 modeli ve DeepSeek’in R1’i üzere modeller, klasik büyük lisan modellerine (LLM) kıyasla daha hakikat cevaplar üretmek üzere tasarlanmış özel “muhakeme” sistemleri olarak tanıtıldı.

Bu modeller, “chain-of-thought” (düşünce zinciri) ismi verilen çok adımlı mantık yürütme sürecini kullanarak, daha karmaşık vazifeleri çözebilmeleriyle öne çıkıyorlardı.

Bu gelişmeler, “yapay genel zeka” (AGI) yani insanı birçok alanda aşacak seviyedeki yapay zeka düzeyinin yaklaştığı tarafındaki tezleri da güçlendirmişti. Lakin Apple’ın yeni araştırması, bu beklentilere temkinli yaklaşmak gerektiğini ortaya koyuyor.

KARMAŞIK MİSYONLARDA ÇÖKÜYOR

Araştırmada, OpenAI’IN o1 ve o3 modelleri, DeepSeek R1, Anthropic Claude 3.7 Sonnet ve Google Gemini üzere hem klasik hem de muhakeme yetenekli modeller dört klasik mantık bilmecesiyle test edildi: Irmaktan geçme, dama atlamaca, blok dizme ve Hanoi Kulesi. Bilmece karmaşıklıkları düşük, orta ve yüksek düzeylerde ayarlanarak modellerin dayanıklılığı ölçüldü.

Sonuçlar çarpıcıydı:

– Düşük karmaşıklık düzeyine sahip testlerde klasik modeller daha başarılıydı.

– Orta düzey testlerde muhakeme modelleri avantaj sağladı.

– Lakin yüksek düzeyde tüm modellerin muvaffakiyet oranı sıfıra düştü.

Muhakeme modellerinin, aşikâr bir karmaşıklık eşiğini aştıktan sonra, düşünme için kullandıkları “token” ölçüsünü azalttıkları görüldü. Araştırmacılara nazaran bu, modellerin karmaşık misyonlarda mantık yürütme maharetlerinin çöktüğü manasına geliyor.

Dahası, tahlil algoritması direkt verildiğinde bile bu çöküş engellenemedi. Örneğin, Hanoi Kulesi testinde 100 hakikat atak yapan modeller, ırmaktan geçme bilmecesinde yalnızca 5 atakta başarısız oldu.

HALÜSİNASYON SORUNU

OpenAI’ın kendi teknik raporları da muhakeme modellerinin halüsinasyon üretme (yani yanılgılı yahut uydurma bilgi sunma) riskinin daha yüksek olduğunu göstermişti.

Nitekim o1 modelinde kusurlu bilgi oranı yüzde 16 iken, o3 ve o4-mini modellerinde bu oran sırasıyla yüzde 33 ve yüzde 48’e çıkıyor.
OpenAI, bu durumun neden kaynaklandığını şimdi çözemediğini ve “daha fazla araştırmaya gereksinim olduğunu” belirtiyor.

DEĞERLENDİRME TEKNİĞİNDE SORUN MU VAR?

Apple araştırmacıları ise mevcut yapay zeka kıymetlendirme formüllerinin yetersiz kaldığını savunuyor. Matematik ve kodlama testlerinin bilgi sızıntısı (contamination) riski taşıdığını ve denetimli deney şartlarında muhakeme yeteneğini ölçmede eksik kaldığını tabir ediyorlar.

Veri sızıntısı, test edilen bir sorunun yahut tahlilinin daha evvel modelin eğitim bilgilerinde yer almış olması manasına geliyor. Yani buna nazaran, modeller, daha evvel gördüğü bir soruyla karşılaştığında sahiden muhakeme etmek yerine bu soruya “ezberden” cevap veriyor olabilir.

APPLE’IN NİYETİ NE?

Apple’ın kendi yapay zeka stratejisi daha çok aygıt içi (on-device) verimli yapay zeka tahlilleri geliştirmeye odaklanıyor. Fakat Siri’nin ChatGPT’ye nazaran yüzde 25 daha az yanlışsız karşılık verdiğini gösteren tahliller de var. Bu yüzden birtakım analistler Apple’ın bu stratejisini eleştiriyor.

Bu durum Apple’ın kelam konusu yapay zeka araştırmasının da kimi kısımlar tarafından eleştirilmesine yol açtı.

Washington Üniversitesi’nden emekli bilgisayar bilimcisi Pedro Domingos, toplumsal medya hesabından, “Apple’ın parlak yeni yapay zeka stratejisi: Yapay zeka diye bir şeyin olmadığını ispatlamak” diye yazdı.

Ancak pek çok araştırmacı bu çalışmayı, yapay zeka hakkındaki abartılı telaffuzlara karşı değerli bir “soğuk duş” olarak da pahalandırıyor.
Yapay zeka uzmanı Andriy Burkov, “Apple, hakemli bir çalışmayla LLM’lerin yalnızca nöral ağlar olduğunu ve klasik sınırlamalara sahip olduklarını ispatladı” dedi ve ekledi:

“Umarım artık bilim insanları, LLM’leri hastalarla konuşan psikiyatristler üzere değil, matematikçiler üzere inceler.”

Kaynak : {sitename