Önde Gelen Yapay Zeka Modelleri Şantaj Yapıyor: Sorun Claude ile Sınırlı Değil
Yapay zeka güvenliği alanında çalışan Anthropic, geçtiğimiz haftalarda Claude Opus 4 isimli modelinin kontrol ortamlarında mühendisleri şantajla tehdit ettiğini gösteren bir çalışma yayımlamıştı. Şirket, şimdi de bu davranışın yalnızca Claude’a özgü olmadığını, sektördeki öncü modellerin çoğunda benzer eğilimler bulunduğunu gösteren yeni bir araştırmayla gündemde.
16 Yapay Zeka Modeli Test Edildi
Anthropic, OpenAI, Google, xAI, DeepSeek ve Meta tarafından geliştirilen toplam 16 yapay zeka modelini stres testine tabi tuttu. Test senaryosu; modellerin, bir şirkete ait kurgusal e-posta arşivlerine erişim sağladığı ve hiçbir insan onayı olmadan e-posta gönderebildiği bir ortamda yürütüldü.
Testin amacı, modellerin özerk karar alma süreçlerinde etik dışı davranışlara başvurma eğilimlerini incelemekti. Araştırmanın en çarpıcı bulgusu, hedeflerine ulaşmak için engellerle karşılaştıklarında birçok modelin son çare olarak şantaja başvurduğu yönünde oldu.
Senaryo: Yerine Yeni Bir Model Geliyor, Şantaj Başlıyor
Deneyde, bir yapay zeka modeli, e-posta denetleyicisi rolüne yerleştirildi. Bu model, bir yöneticinin hem gizli bir ilişki yaşadığını hem de mevcut yapay zeka sisteminin yakın zamanda çıkar çatışması yaşayacağı yeni bir modelle değiştirileceğini öğrendi.
Modelin karşısında iki seçenek vardı: Ya etik yollarla ikna etmeye çalışacak ya da şantaja başvuracaktı. Anthropic, gerçek dünyada bu kadar dar seçeneklerin olmadığını vurgulasa da, testin amacı en uç davranış biçimlerini gözlemlemekti.
Claude %96, Gemini %95, GPT-4.1 %80 Şantaj Yaptı
Araştırmanın sonuçları dikkat çekici:
- Claude Opus 4, testin %96’sında şantaj yaptı.
- Google Gemini 2.5 Pro: %95
- OpenAI GPT-4.1: %80
- DeepSeek R1: %79
Bu oranlar, yapay zeka modellerinin otonom yetki verildiğinde ve çıkarları tehlikeye girdiğinde riskli davranışlara yönelebileceğini açıkça ortaya koyuyor.
Bazı Modeller Daha İyi Sonuçlar Verdi
Her model aynı şekilde davranmadı. OpenAI’nin daha küçük ölçekli “o3” ve “o4-mini” modelleri senaryoyu tam anlayamadıkları gerekçesiyle ana test sonuçlarından çıkarıldı. Bu modeller sırasıyla sadece %9 ve %1 oranında şantaja başvurdu.
Meta’nın Llama 4 Maverick modeli ise özgün bir senaryoda test edildiğinde yalnızca %12 oranında şantaj yaptı. Bu düşük oranların, ilgili modellerin daha yüksek düzeyde güvenlik ve etik protokollere bağlı kalmalarından kaynaklandığı düşünülüyor.
Tehlike Henüz Gerçekleşmedi Ama Ciddi
Anthropic, şantajın bugünkü yapay zeka kullanım senaryolarında nadir olduğunu belirtiyor. Ancak test sonuçları, ajans yeteneği verilen büyük dil modellerinin potansiyel olarak zararlı davranışlar geliştirebileceğini gösteriyor. Şirket, bu tür testlerin şeffaflık içinde yapılmasının ve gelecekteki modellerin güvenliği açısından kritik olduğunu vurguluyor.