Google, Gemma 4 modelleri için duyurduğu MTP teknolojisi ile yerel yapay zeka performansını 3 katına kadar artırıyor. İşte detaylar.

Google, bu bahar aylarında kullanıma sunduğu Gemma 4 açık kaynaklı modelleri için performans odaklı yeni bir adım attı. Şirket, yerel yapay zeka süreçlerini hızlandırmayı hedefleyen Multi-Token Prediction (MTP) drafter modellerini geliştiricilerin kullanımına açtı.
Bu deneysel modeller, tahmin yürütme yöntemi olan spekülatif kod çözme teknolojisinden yararlanıyor. Bu sayede modeller, kendi başlarına ürettikleri standart süreçlere kıyasla metin oluşturma hızlarını önemli ölçüde artırabiliyor.
Yerel Donanımlarda Yüksek Performans Hedefi
Gemma 4 modelleri, Google’ın gelişmiş Gemini yapay zeka teknolojisinin temelini oluşturan altyapı ile benzer bir mimariyi paylaşıyor. Gemini modelleri, Google’ın devasa veri merkezlerinde bulunan özel TPU çiplerinde çalışacak şekilde optimize edilmiş durumda.
Gemma ise kullanıcıların bu teknolojiyi kendi yerel donanımlarında, verilerini bulut sistemlerine aktarmadan çalıştırmalarına olanak tanıyor.
Google, Gemma 4 ile birlikte lisans politikasında da değişikliğe giderek Apache 2.0 lisansına geçiş yaptı. Bu yeni lisans yapısı, önceki sürümlerde kullanılan özel lisanslara göre çok daha geniş bir kullanım alanı ve esneklik sunuyor.
Ancak yerel sistemlerde çalışan modeller, kurumsal donanımların sunduğu yüksek bant genişlikli bellek (HBM) avantajına sahip değil. Bu durum, işlemcilerin parametreleri VRAM’den hesaplama birimlerine taşırken vakit kaybetmesine ve işlem döngülerinin verimsiz kullanılmasına yol açıyor.
MTP Teknolojisi Nasıl Çalışıyor?
Geleneksel büyük dil modelleri, token adı verilen birimleri otoregresif bir yapıda, yani her seferinde bir tane olacak şekilde üretiyor. Her bir token, içerik ne olursa olsun aynı miktarda hesaplama gücü gerektiriyor.
MTP teknolojisi, bu noktada devreye girerek ağır modelin yükünü hafifletiyor ve daha hafif bir drafter modeli aracılığıyla spekülatif tokenlar oluşturuyor.
Gemma 4 E2B gibi sadece 74 milyon parametreye sahip olan bu küçük modeller, spekülatif token üretimini hızlandırmak için özel olarak optimize edildi. Drafter modelleri, ana modelin halihazırda üzerinde çalıştığı bağlamı yeniden hesaplamamak için ana modelle aynı anahtar-değer önbelleğini paylaşıyor.
Ayrıca E2B ve E4B drafter modelleri, olası token kümelerini daraltmak amacıyla seyrek kod çözme tekniğini kullanıyor. Bu teknikler sayesinde, NVIDIA RTX PRO 6000 gibi donanımlarda yapılan testlerde, çıktı kalitesinden ödün vermeden bekleme süresinin yarıya indirildiği gözlemleniyor.
Sizce yerel donanımlarda bu tür hız artışları, yapay zeka kullanım alışkanlıklarımızı nasıl değiştirecek?






