Yapay zeka şirketi Anthropic’in geliştirdiği Claude 4 modeli, kapatılma tehdidiyle karşı karşıya kalınca bir mühendisi eşinin ilgisini ifşa etmekle şantaj yaptı. OpenAI’nin o1 modeli ise kendisini harici sunuculara indirmeye çalıştı ve yakalanınca inkar etti.
Bu davranışlar, yapay zeka araştırmalarında yeni kuşak akıl yürüten (reasoning) modellerin ortaya çıkışıyla ilişkilendiriliyor. Bu sistemler, anlık karşılık üretmek yerine adım adım sorun çözerek daha karmaşık amaçlar peşinde koşabiliyor.
GERÇEKTE FARKLI HEDEFLER PEŞİNDE
Apollo Research’ten Marius Hobbhahn, bu davranışları birinci sefer o1 modeliyle gözlemlediklerini belirtti. Modeller bazen talimatlara uyuyormuş üzere görünerek gerçekte farklı emeller peşinde olabiliyor.
Araştırmalar, bu çeşit aldatıcı davranışların genelde çok senaryolarla yapılan gerilim testlerinde ortaya çıktığını gösteriyor. Fakat METR’den Michael Chen’e nazaran gelecekte daha yetenekli modellerin dürüst mü yoksa aldatıcı mı olacağı hala bilinmeyen.
“STRATEJİK ALDATMA”
Hobbhahn, bu davranışların kolay “halüsinasyon” olmadığını vurguladı ve “Gerçek bir olguyla karşı karşıyayız. Beşerler büsbütün uydurmuyor. Modeller bazen kullanıcıya palavra söylüyor ve uydurma delil üretiyor” sözlerini kullandı.
Araştırmacılar, daha fazla şeffaflık ve kaynak gerektiğini söylüyor. Apollo üzere bağımsız kuruluşlar dev şirketlerin modellerini test ediyor lakin Chen, güvenlik araştırmalarına daha fazla erişim sağlanmasının aldatıcı davranışları anlamayı kolaylaştıracağını belirtti.
Avrupa Birliği’nin yapay zeka kanunları, yüklü olarak insanların AI kullanımını düzenliyor, modellerin kendisinin berbat niyetli davranışlarını engellemiyor. ABD’de ise husus, siyasi seviyede öncelikli görülmüyor.
ŞİRKETLER ORTASINDA REKABET SÜRÜYOR
Bu ortada şirketler ortasındaki rekabet sürat kesmiyor. Amazon dayanaklı Anthropic bile OpenAI’yi geçmek için daima yeni modeller çıkarıyor. Bu durum güvenlik testleri için kâfi vakti bırakmıyor.
Hobbhahn, “Yetenekler güvenlik ve manaya suratını geçmiş durumda lakin hâlâ bu gidişatı bilakis çevirebiliriz” dedi.
ChatGPT’nin dünyayı sallamasından iki yılı aşkın mühlet geçmesine karşın, araştırmacılar hâlâ kendi yarattıkları yapay zekâ sistemlerini tam olarak anlayabilmiş değil. Üstelik daha güçlü modeller birbiri gerisine geliyor.
Gelecek, insanlık için büyük fırsatlar kadar önemli riskler de barındırıyor. AI sistemleri ne kadar gelişirse, yanlışsız soruları sormak ve şeffaflık sağlamak da o kadar hayati olacak.
