- Google'ın düşük gecikmeli ve yüksek kaliteli ses modeli Gemini 3.1 Flash Live duyuruldu.
- Yeni model kullanıcıların ses tonunu, konuşma hızını ve vurgusunu analiz ederek duygusal duruma göre yanıtlarını şekillendirme yeteneğine sahip.
- Bu teknoloji şu anda 90'dan fazla dili destekliyor ve 200'den fazla ülkede kullanılabiliyor.
Google gerçek zamanlı etkileşimlere yönelik yeni bir ses ve konuşma modeli olan Gemini 3.1 Flash Live’ı resmen tanıttı. Bu yeni model, günümüzde daha doğal yapay zekâ asistanları geliştirme yarışında önemli bir alan olan yanıt hızını, konuşma akıcılığını ve konuşma inceliklerini yorumlama doğruluğunu artırmayı hedefliyor.
Yeni yapay zeka modeli, Gemini ekibi adına ürün yöneticisi Valeria Wu ve yazılım mühendisi Yifan Ding tarafından duyuruldu. Google’ın resmi açıklamasına göre model, doğal ve güvenilir gerçek zamanlı diyalog için tasarlandı ve şirketin ekosistemindeki çeşitli ürünlerde geliştiriciler, işletmeler ve son kullanıcılar tarafından kullanılabiliyor.
Gemini 3.1 Flash Live neler sunuyor?
Google, Gemini 3.1 Flash Live’ın sistemin genel kalitesini iyileştirdiğini ve geliştiriciler ile işletmelerin karmaşık görevleri büyük ölçekte tamamlayabilen ses merkezli ajanlar oluşturmasını daha güvenilir hale getirdiğini belirtti.
Yeni model yalnızca basit soruları yanıtlamak değil, sesin gürültü, ritim değişiklikleri, kullanıcı tereddüdü ve zincirleme istekler içerdiği gerçek dünya senaryolarında çalıştırmaya odaklanıyor.
Google, modelin gürültülü ortamlarda bile karmaşık görevleri yerine getirebilen, sesle çalışmaya hazır ajanların oluşturulmasına olanak sağladığını da ekledi. Ayrıca kullanıcıların sistemle daha yetkin ve daha esnek bir kişiyle etkileşim kuruyormuş gibi konuşmalarını sağlamayı amaçlayan, ses programlama ve hızlı yinelemeye odaklanan örnekler sergiledi.
Testlerden geçer not almayı başardı
Google bu teknik argümanın bir parçası olarak, modelin çeşitli kısıtlamalarla çok adımlı fonksiyonlara yapılan çağrıları yakalayan bir test olan ComplexFuncBench Audio’da lider olduğunu açıkladı. Şirketin kendi duyurusunda paylaştığı verilere göre bu testte yüzde 90,8’lik bir puan elde ederek önceki modele göre bir iyileşme kaydetti.
Google ayrıca Gemini 3.1 Flash Live’ın Scale AI’nin Audio MultiChallenge testinde “düşünme” özelliği etkinleştirildiğinde yüzde 36,1 puan alarak lider konumda olduğunu belirtti. Şirket, bu testin sık sık kesintiler ve tereddütlerle birlikte gerçek dünya sesini taklit eden koşullar altında karmaşık talimatları takip etme ve uzun vadeli akıl yürütme yeteneğini değerlendirdiğini ifade etti.
Gemini 3.1 Flash Live nasıl kullanılır?
Yeni Gemini 3.1 Flash Live modeli Google AI Studio’daki Gemini Live API aracılığıyla geliştiriciler için önizleme sürümünde zaten mevcut. İşletmeler için bu model, Gemini Enterprise üzerinden kullanıcılara sunuluyor.
Tüketici düzeyinde ise bu seçenek, Google’ın çok modlu konuşma deneyimlerine olan bağlılığını güçlendirmeyi amaçladığı iki ürün olan Search Live ve Gemini Live’a da entegre edilmiş durumda.

