Google, Gemma 3n ismi ile açık yapay zeka modellerinin yeni jenerasyonunu duyurdu. Geçtiğimiz ay Google I/O 2025 etkinliğinde yapılan bir ön izlemenin akabinde, tam sürüm artık direkt donanımlarla çalışmaya hazır.
Bilmeyenler için, Gemma bir açık yapay zeka modelleri ailesi. Gemini’den farkı ise geliştiricilerin indirip değiştirebilmesi için tasarlanmış olması. Gemini ise Google’ın kapalı, tescilli güç merkezi.
Model artık metin tabanlı bir model olmaktan çıkarak metin oluşturmak için imaj, ses ve görüntü üzere girdileri lokal olarak işleyebiliyor. Ek olarak, 2 GB kadar az belleğe sahip donanımlarda da çalışabiliyor ve kodlama yahut akıl yürütme üzere vazifelerde daha âlâ olduğu varsayılıyor.
Google tarafından özetlenen iyileştirmelerin tam listesi şu halde:
- Tasarım gereği çok modlu: Gemma 3n lokal olarak imaj, ses, görüntü ve metin girdilerini ve metin çıktılarını takviyeler.
- Cihazda kullanım için optimize edildi: Verimliliğe odaklanılarak tasarlanan Gemma 3n modelleri, tesirli parametrelere nazaran iki boyutta mevcuttur: E2B ve E4B. Ham parametre sayıları sırasıyla 5B ve 8B olsa da, mimari yenilikler, klasik 2B ve 4B modellerine misal bir bellek ayak izinde, 2 GB (E2B) ve 3 GB (E4B) kadar az bellekle çalışmasını sağlar.
- Çığır açan mimari: Gemma 3n, özünde hesaplama esnekliği için MatFormer mimarisi, bellek verimliliği için Katman Başına Gömme (PLE) ve aygıtta kullanım durumları için optimize edilmiş yeni ses ve MobileNet-v5 tabanlı imaj kodlayıcılar üzere yenilikçi bileşenlere sahiptir.
- Gelişmiş kalite: Gemma 3n, çok dillilik (metin için 140 lisanı ve 35 lisanın çok modlu anlaşılmasını destekler), matematik, kodlama ve muhakeme alanlarında kalite iyileştirmeleri sunar.
Verimliliğinin özü, Google’ın MatFormer ismini verdiği yeni bir mimari olarak karşımıza çıkıyor. Google, bunu tanımlamak için Rus Matruşka bebeği benzetmesini kullanıyor: daha büyük bir model, içinde daha küçük ve büsbütün fonksiyonel bir versiyon barındırıyor.
Bu, tek bir modelin farklı vazifeler için farklı boyutlarda çalışmasını sağlıyor. Karşılaştırmalar tarafında daha büyük E4B modeli, 10B parametreleri altında 1300’lük bir LMArena puanını aşan birinci model oldu.
Modelin ses yetenekleri artık konuşmayı detaylı bir biçimde işleyebilen bir kodlayıcı kullanarak aygıt içi konuşmayı metne dönüştürme ve çeviriyi destekliyor. İşin görme tarafı, selefinden çok daha süratli ve daha verimli olan MobileNet-V5 isimli yeni bir kodlayıcı tarafından destekleniyor. Bir Google Pixel aygıtında 60 FPS’ye kadar görüntü işleyebiliyor.
Modeller artık Hugging Face ve Kaggle üzere bilindik platformlar aracılığıyla mevcut olduğundan çabucak kullanmaya başlayabilir ve hatta direkt Google AI Studio’da deneyebilirsiniz.