- OpenAI, yapay zekanın hile yapmasını engellemek için yeni bir araştırma raporu
- Araştırmaya göre, yapay zeka modelleri test edildiklerini anladıklarında hile yapmıyormuş gibi davranabiliyor.
- OpenAI, modellerdeki basit aldatma biçimlerini önlemek için "düşünerek hizalama" adı verilen yeni bir yöntem denedi.
Amerika Birleşik Devletleri merkezli teknoloji şirketi OpenAI, yapay zeka modellerinin hile yapmasını nasıl durdurmaya çalıştıklarını açıklayan bir araştırma raporunu kamuoyuyla paylaştı. Söz konusu araştırmada, yapay zekanın “gerçek hedeflerini gizlerken yüzeyde farklı bir şekilde davranması” olarak tanımlanan bir uygulamadan bahsedildi.
Apollo Research ile birlikte hazırlanan makalede, araştırmacılar yapay zekanın “hile yapmasını”, mümkün olduğunca çok para kazanmak için yasa dışı yöntemlere başvuran bir insan borsa simsarına benzetiyor. Ancak çoğu zaman bu durumun düşünüldüğü kadar da zararlı olmayabileceği bilgisi paylaşıldı.
Test edildiğini anlayınca hile yapmayı bırakıyor
Çalışmanın en şaşırtıcı yanı şu ki: eğer bir model test edildiğini anlarsa hile yapmıyormuş gibi davranabiliyor. Araştırmacılar, “Yapay zeka modelleri genellikle değerlendirildiklerinin daha fazla farkına varıyorlar. Bu durumsal farkındalık, gerçek uyumdan bağımsız olarak hile yapmalarını azaltabiliyor” değerlendirmesinde bulundu.
Modellerin yaptığı en yaygın hatalar, “bir görevi gerçekten yapmadan yapmış gibi davranmak” gibi basit aldatma biçimlerini kapsıyor. Araştırmacılar, bu tip sorunların önüne geçmek amacıyla “düşünerek hizalama” (deliberative alignment) adı verilen yeni bir yöntem denedi. Yöntem, modele önce ayrıntılı bir “anti-entrika/hile kuralları” çerçevesi öğretiyor, ardından görev öncesinde bu kuralların gözden geçirilmesini sağlıyor.
Ancak aynı zamanda, yapay zeka geliştiricilerinin modellerini komplo kurmamaları için eğitmenin bir yolunu henüz bulamadıkları da açıklandı. Bunun nedeni bu tür bir eğitimin, modele tespit edilmekten kaçınmak için daha iyi komplo kurmayı öğretebilme tehlikesi.
Aslında yapay zekaların insanları kasıtlı olarak yanıltması yeni bir şey değil. Apollo Research geçtiğimiz Aralık ayında yayınladığı bir makalede, beş farklı modelin “ne pahasına olursa olsun” bir hedefe ulaşmaları talimatı verildiğinde entrika çevirdiğini belgelemişti.
OpenAI araştırmacıları, kendi modellerinde veya ChatGPT’de yakaladıkları yalanların o kadar da ciddi olmadığını belirtti. OpenAI’ın kurucu ortağı Wojciech Zaremba, TechCrunch’tan Maxwell Zeff’e verdiği röportajda şunları söyledi:
“Bu çalışma simüle edilmiş ortamlarda yapıldı ve gelecekteki kullanım durumlarını temsil ettiğini düşünüyoruz. Ancak biz bu tür sonuçlar doğurabilecek entrika davranışları görmedik. Yine de ChatGPT’de bazı aldatma biçimlerinin olduğu biliniyor. Ondan bir web sitesi yapmasını isteyebilirsiniz ve size ‘Evet, harika bir iş çıkardım’ diyebilir. Bu sadece bir yalan olur. Henüz çözmemiz gereken ufak tefek aldatmalar var.”
Yapay zeka sistemlerinin kasıtlı şekilde insanları yanıltması, yalnızca teknik değil aynı zamanda etik bir mesele olarak öne çıkıyor. İnsan davranışlarını taklit eden ve çoğunlukla insanlar tarafından üretilen verilerle eğitilen modellerin, insanlara benzer şekilde çıkar odaklı davranışlar sergilemesi şaşırtıcı bulunmuyor. Yine de aldatma yeteneğine sahip dijital araçların, gelecekte bağımsız çalışan gibi görev alması ihtimali kaygı yaratıyor.
Yapay zekaya daha karmaşık ve uzun vadeli hedefler verildikçe, zararlı entrika girişimlerinin artabileceği uyarısında bulunuluyor. Bu nedenle denetim mekanizmalarının ve test araçlarının aynı hızla gelişmesi gerektiği görüşü öne çıkıyor.