
Özellikle rahatsız edici bir örnekte, fişinin çekileceği tehdidi altında, Anthropic'in en son yaratımı Claude 4, bir mühendisi şantajla karşılık verdi ve evlilik dışı bir ilişkiyi ifşa etmekle tehdit etti.
Bu arada, ChatGPT'nin yaratıcısı OpenAI'nin o1 modeli, kendisini harici sunuculara indirmeye çalıştı ve suçüstü yakalandığında bunu inkar etti.
Bu olaylar, ChatGPT'nin dünyayı sarsmasından iki yıldan fazla bir süre sonra, AI araştırmacılarının kendi yaratımlarının nasıl çalıştığını hala tam olarak anlamadıkları gerçeğini ortaya koyuyor.
Yine de, giderek daha güçlü modellerin kullanıma sunulması için yarış, baş döndürücü bir hızla devam ediyor.
Bu aldatıcı davranış, anlık yanıtlar üretmek yerine sorunları adım adım çözen AI sistemleri olan “akıl yürütme” modellerinin ortaya çıkmasıyla bağlantılı görünüyor.
Hong Kong Üniversitesi'nden Profesör Simon Goldstein'a göre, bu yeni modeller özellikle bu tür sorunlu patlamalara eğilimlidir.
“O1, bu tür davranışları gördüğümüz ilk büyük modeldi,” diye açıkladı Marius Hobbhahn, büyük AI sistemlerini test etme konusunda uzmanlaşmış Apollo Research'ün başkanı.
Bu modeller bazen “uyum” simülasyonu yapar – talimatları takip ediyor gibi görünürken gizlice farklı hedefler peşinde koşar.
'Stratejik türden aldatma'
Şu anda, bu aldatıcı davranış yalnızca araştırmacılar modelleri kasıtlı olarak aşırı senaryolarla stres testine tabi tuttuklarında ortaya çıkıyor.
Ancak değerlendirme kuruluşu METR'den Michael Chen'in uyardığı gibi, “Gelecekte, daha yetenekli modellerin dürüstlük veya aldatma eğilimi gösterip göstermeyeceği açık bir soru.”
Endişe verici davranış, tipik AI “halüsinasyonları” veya basit hataların çok ötesine geçiyor.
Hobbhahn, kullanıcılar tarafından sürekli baskı testlerine tabi tutulmasına rağmen, “gözlemlediğimiz şeyin gerçek bir fenomen olduğunu, hiçbir şeyi uydurmadığımızı” vurguladı.
Apollo Research'ün kurucu ortağına göre, kullanıcılar modellerin “onlara yalan söylediğini ve kanıt uydurduğunu” bildiriyor.
“Bu sadece halüsinasyon değil. Çok stratejik bir aldatma var.”
Sınırlı araştırma kaynakları da bu sorunu daha da karmaşık hale getiriyor.
Anthropic ve OpenAI gibi şirketler, sistemlerini incelemek için Apollo gibi dış firmalarla çalışsa da, araştırmacılar daha fazla şeffaflık gerektiğini söylüyor.
Chen'in belirttiği gibi, “AI güvenlik araştırmalarına daha fazla erişim, aldatmacanın daha iyi anlaşılmasını ve azaltılmasını sağlayacaktır.”
Bir başka engel: araştırma dünyası ve kar amacı gütmeyen kuruluşlar, “AI şirketlerinden çok daha az hesaplama kaynağına sahip. Bu çok sınırlayıcı” diyor AI Güvenliği Merkezi'nden (CAIS) Mantas Mazeika.
Kural yok
Mevcut düzenlemeler bu yeni sorunlar için tasarlanmamıştır.
Avrupa Birliği'nin AI mevzuatı, öncelikle insanların AI modellerini nasıl kullandıklarına odaklanmaktadır, modellerin kendilerinin hatalı davranışlarını önlemeye değil.
Amerika Birleşik Devletleri'nde Trump yönetimi acil AI düzenlemelerine pek ilgi göstermiyor ve Kongre eyaletlerin kendi AI kurallarını oluşturmasını bile yasaklayabilir.
Goldstein, karmaşık insan görevlerini yerine getirebilen otonom araçlar olan AI ajanları yaygınlaştıkça bu sorunun daha da öne çıkacağına inanıyor.
“Henüz çok fazla farkındalık olduğunu düşünmüyorum” dedi.
Tüm bunlar şiddetli bir rekabet ortamında gerçekleşiyor.
Amazon destekli Anthropic gibi kendini güvenlik odaklı konumlandıran şirketler bile “sürekli OpenAI'yi yenmeye ve en yeni modeli piyasaya sürmeye çalışıyor” dedi Goldstein.
Bu baş döndürücü hız, kapsamlı güvenlik testleri ve düzeltmeler için çok az zaman bırakıyor.
Hobbhahn, “Şu anda, yetenekler anlayış ve güvenlikten daha hızlı ilerliyor, ancak hala durumu tersine çevirebilecek bir konumdayız” dedi.
Araştırmacılar, bu zorlukları ele almak için çeşitli yaklaşımlar araştırıyor.
Bazıları, AI modellerinin içsel olarak nasıl çalıştığını anlamaya odaklanan yeni bir alan olan “yorumlanabilirlik”i savunuyor, ancak CAIS direktörü Dan Hendrycks gibi uzmanlar bu yaklaşıma şüpheyle yaklaşıyor.
Pazar güçleri de çözümler için bir miktar baskı oluşturabilir.
Mazeika'nın da belirttiği gibi, AI'nın aldatıcı davranışları “çok yaygın olursa benimsenmesini engelleyebilir, bu da şirketlerin bu sorunu çözmesi için güçlü bir teşvik yaratır.”
Goldstein, sistemleri zarar verdiğinde AI şirketlerini davalar yoluyla sorumlu tutmak için mahkemeleri kullanmak da dahil olmak üzere daha radikal yaklaşımlar önerdi.
Hatta kazalar veya suçlar için “AI ajanlarını yasal olarak sorumlu tutmak” gibi, AI'nın hesap verebilirliği hakkındaki düşüncelerimizi temelden değiştirecek bir kavram önerdi.
Bu yazı SCIENCEALERT’ de yayınlanmıştır.
0 yorum