OpenAI’dan şaşırtan araştırma: Yapay zekalar "hile yapıyor" ve bunu gizliyor

Reklam

OpenAI, yapay zekanın hile yapmasını engellemek için yeni bir araştırma raporu
Araştırmaya göre, yapay zeka modelleri test edildiklerini anladıklarında hile yapmıyormuş gibi davranabiliyor.
OpenAI, modellerdeki basit aldatma biçimlerini önlemek için "düşünerek hizalama" adı verilen yeni bir yöntem denedi.

Teknoloji devi OpenAI, yapay zeka modellerinin hile yapmasını nasıl durdurmaya çalıştıklarını açıklayan bir araştırma raporunu kamuoyuyla paylaştı. Söz konusu araştırmada, yapay zekanın “gerçek hedeflerini gizlerken yüzeyde farklı bir şekilde davranması” olarak tanımlanan bir uygulamadan bahsedildi.

Apollo Research ile birlikte hazırlanan makalede, araştırmacılar yapay zekanın “hile yapmasını”, mümkün olduğunca çok para kazanmak için yasa dışı yöntemlere başvuran bir insan borsa simsarına benzetiyor. Ancak çoğu zaman bu durumun düşünüldüğü kadar da zararlı olmayabileceği bilgisi paylaşıldı.

Reklam

Test edildiğini anlayınca hile yapmayı bırakıyor

Çalışmanın en şaşırtıcı yanı şu ki: eğer bir model test edildiğini anlarsa hile yapmıyormuş gibi davranabiliyor. Araştırmacılar, “Yapay zeka modelleri genellikle değerlendirildiklerinin daha fazla farkına varıyorlar. Bu durumsal farkındalık, gerçek uyumdan bağımsız olarak hile yapmalarını azaltabiliyor” değerlendirmesinde bulundu.

Modellerin yaptığı en yaygın hatalar, “bir görevi gerçekten yapmadan yapmış gibi davranmak” gibi basit aldatma biçimlerini kapsıyor. Araştırmacılar, bu tip sorunların önüne geçmek amacıyla “düşünerek hizalama” (deliberative alignment) adı verilen yeni bir yöntem denedi. Yöntem, modele önce ayrıntılı bir “anti-entrika/hile kuralları” çerçevesi öğretiyor, ardından görev öncesinde bu kuralların gözden geçirilmesini sağlıyor.

Ancak yapay zeka geliştiricilerinin, modellerini komplo kurmamaları için eğitmenin bir yolunu henüz bulamadıkları da açıklandı. Bunun nedeni ise, bu tür bir eğitimin modele tespit edilmekten kaçınmak için daha iyi komplo kurmayı öğretebilme tehlikesi.

Aslında yapay zekaların insanları kasıtlı olarak yanıltması yeni bir şey değil. Apollo Research geçtiğimiz Aralık ayında yayınladığı bir makalede, beş farklı modelin “ne pahasına olursa olsun” bir hedefe ulaşmaları talimatı verildiğinde entrika çevirdiğini belgelemişti.

Öte yandan OpenAI araştırmacıları ise kendi modellerinde veya ChatGPT’de yakaladıkları yalanların o kadar da ciddi olmadığını belirtti. Şirketin kurucu ortağı Wojciech Zaremba, TechCrunch’tan Maxwell Zeff’e yaptığı açıklamada şunları söyledi:

“Bu çalışma simüle edilmiş ortamlarda yapıldı ve gelecekteki kullanım durumlarını temsil ettiğini düşünüyoruz. Ancak biz bu tür sonuçlar doğurabilecek entrika davranışları görmedik. Yine de ChatGPT’de bazı aldatma biçimlerinin olduğu biliniyor. Ondan bir web sitesi yapmasını isteyebilirsiniz ve size ‘Evet, harika bir iş çıkardım’ diyebilir. Bu sadece bir yalan olur. Henüz çözmemiz gereken ufak tefek aldatmalar var.”

Yapay zeka sistemlerinin kasıtlı şekilde insanları yanıltması, yalnızca teknik değil aynı zamanda etik bir mesele olarak öne çıkıyor. İnsan davranışlarını taklit eden ve çoğunlukla insanlar tarafından üretilen verilerle eğitilen modellerin, insanlara benzer şekilde çıkar odaklı davranışlar sergilemesi şaşırtıcı bulunmuyor. Yine de aldatma yeteneğine sahip dijital araçların, gelecekte bağımsız çalışan gibi görev alması ihtimali kaygı yaratıyor.

Yapay zekaya daha karmaşık ve uzun vadeli hedefler verildikçe, zararlı entrika girişimlerinin artabileceği uyarısında bulunuluyor. Bu nedenle denetim mekanizmalarının ve test araçlarının aynı hızla gelişmesi gerektiği görüşü öne çıkıyor.

İLGİNİZİ ÇEKEBİLİR

Rolling Stone ve Google, yapay zeka yüzünden mahkemelik oldu

Reklam

OpenAI’dan şaşırtan araştırma: Yapay zekalar “hile yapıyor” ve bunu gizliyor

Meta AI web sitesi Türkiye’de kullanıma açıldı

OpenAI’dan açıklama: ChatGPT tıbbi ve hukuki bilgi vermeyi kesmedi

AWS ve OpenAI, 38 milyar dolarlık dev ortaklığını duyurdu

Google, Türkçe video özet çıkarma özelliği ile NotebookLM’i güçlendirdi

ChatGPT artık spesifik finansal, hukuki ve tıbbi tavsiyeler vermeyecek

OpenAI, Sora’da ek videolar oluşturmak için ücret talep ediyor

A101’den Samsung Galaxy S24 Ultra için 23.500 TL indirim

Samsung Galaxy S26 Ultra daha ergonomik bir tasarımla geliyor

HyperOS 3 uygun fiyatlı Xiaomi telefonlara gelmeye başladı

Xiaomi 17 Ultra mobil fotoğrafçılıkta devrim yaratacak

Samsung Galaxy S26 Ultra, iPhone 17 Pro Max ile yan yana geldi

POCO F7 Ultra, Android 16/HyperOS 3 güncellemesine kavuştu

GTA 6’nın PS Store sayfası güncellendi: Yeni bir sürpriz kapıda olabilir

12 Xiaomi modeli daha HyperOS 3 programına dahil edildi

HyperOS 3.1 güncellemesini almayacak Xiaomi, Redmi ve POCO cihazlar belli oldu

iOS 26.2 Beta için geri sayım başladı

iPhone 17 yurt dışı fiyatları: Hangi ülkede ne kadara satılıyor?

EA Sports FC 26: Duvar gibi savunma için en iyi defans oyuncuları

Samsung Galaxy Z Flip 7 vs Z Flip 6: Yükseltmeye değer mi?

En iyi iPhone’lar (2025): Sizin için en doğru model hangisi?

EA Sports FC 26: Rakip tanımayacağınız en iyi takımlar

iPhone 17 Pro Max vs Samsung Galaxy S25 Ultra: En iyi telefon hangisi?

İnternetsiz mesajlaşma uygulaması Bitchat nedir, nasıl kullanılır?

Instagram profiline müzik ekleme nasıl yapılır?

Yerli WhatsApp alternatifi NEXT Mesajlaşma nedir ve nasıl kullanılır?

“Yerli ve milli” sosyal ağ Next Teknofest Sosyal nedir?

Güncel Teknoloji Haberleri

OpenAI’dan şaşırtan araştırma: Yapay zekalar “hile yapıyor” ve bunu gizliyor

Test edildiğini anlayınca hile yapmayı bırakıyor

İlgili Haberler

Güncel Teknoloji Haberleri