- Google, hafif ve yüksek performanslı yeni yapay zeka modeli Gemma 4 12B'yi tanıttı.
- 12 milyar parametreye sahip olan bu model, çok modlu yapısı sayesinde hem metinleri hem de görselleri analiz edebiliyor.
- Cihaz içi çalışma odaklı tasarlanan modelin standart dizüstü bilgisayarlarda internet bağlantısı olmadan yerel olarak çalışabildiği vurgulanıyor.
Google DeepMind yüksek performanslı çok modlu deneyimi doğrudan dizüstü bilgisayarlara getirmek üzere tasarlanmış yeni modelini duyurdu. Bulut altyapılarına ihtiyacı ortadan kaldıran Gemma 4 12B modeli resmen tanıtıldı.
Google’ın resmi açıklamasına göre bu yeni model, azaltılmış bellek kullanımıyla çok modlu ajansal zeka sunmak için tasarlandı. Bu da geliştiricilerin ve kullanıcıların karmaşık yapay zeka görevlerini günlük donanımlarda çalıştırabileceği anlamına geliyor.
Google ayrıca bunun yerleşik ses girişlerine sahip ilk orta boyutlu modeli olduğunu da vurguladı. Bu özellik metin, görüntü ve sesin aynı sistem içinde işlenmesi gereken asistanlar, yerel otomasyon, ses arayüzleri, multimedya analizi ve iş akışlarında kullanım potansiyelini genişletiyor.
Google Gemma 4 12B modeli neler sunuyor?
Gemma 4 12B’nin en önemli özelliklerinden biri, birleşik çok modlu mimarisi olarak öne çkıyor. Mevcut birçok modelin aksine bu bilgileri ana dil modeline göndermeden önce görüntü ve sesi işlemek için ayrı kodlayıcılara dayanmıyor.
Google geleneksel çok modlu sistemler genellikle her giriş türü için ayrı modüller kullanıyor. Bu bileşenler, görüntüleri ya da ses sinyallerini ara temsillerine dönüştürüyor. Bunlar daha sonra dil modelinin çekirdeği tarafından yorumlanıyor.
Google, Gemma 4 12B’yi ses ve görüntü girişini doğrudan entegre etmek için kodlayıcı içermeyen bir mimariyle eğittiğini iddia ediyor. Şirket, işlem yolunu basitleştirmeyi ve aynı zamanda kaynak kısıtlı sistemlerde verimliliği artırmayı amaçlıyor.
Şirket, görsel işleme için Gemma 4’ün önceki sürümlerinde bulunan görsel kodlayıcıyı hafif bir gömme modülüyle değiştiriyor. Bu modül, tek bir matris çarpımı, konumsal gömme ve normalleştirme işlemlerinden oluşarak LLM çekirdeğinin görsel işlemeyi üstlenmesini sağlıyor.
Ses alanında ise daha da agresif bir basitleştirme uygulanıyor. Google, ses kodlayıcısını tamamen kaldırıyor ve ham ses sinyalini metin belirteçleriyle aynı boyutlu alana yansıtıyor. Bu da karmaşıklığı azaltmaya ve farklı yöntemler arasında daha sıkı bir entegrasyon sağlamaya yardımcı oluyor.
Google ayrıca Gemma 4 ailesinin 150 milyon indirme sayısını aştığını bildirdi. Şirkete göre geliştirici topluluğu bu modelleri, fiziksel yardım için giyilebilir robotik kollardan kurumsal düzeyde yapay zeka güvenlik çözümlerine kadar çeşitli projelerde kullandı.


