Microsoft, Phi-4-reasoning-vision-15B adı verilen yeni bir akıl yürütme modelini tanıttı. Bu model, donanım açısından yüksek verimlilik sunarak dikkat çekiyor. Özellikle, çok modlu dosyaları işleyebilen bu sistem, bilimsel grafikler gibi karmaşık verileri de anlama yeteneğine sahip.
Bu model, mevcut SigLIP-2 ve Phi-4 Reasoning algoritmalarına dayanıyor. SigLIP-2, görüntüleri sinir ağlarının anlayabileceği bir biçime dönüştürürken; Phi-4 Reasoning ise akıl yürütme süreçlerini yönetiyor. Microsoft’un araştırmacıları, bu iki algoritmayı orta füzyon yaklaşımıyla bir araya getirerek, modelin verimliliğini artırdı.
İlk olarak, modelin 15 milyar parametreye sahip olduğu belirtildi. Bu sayede, hem görüntüleri hem de metinleri işleyebiliyor. Karmaşık matematik ve fen sorunlarını çözme yeteneği de dikkat çekiyor. Bunun yanı sıra, grafik kullanıcı arayüzlerinde gezinmekte, fotoğraflara altyazı eklemek veya makbuzları okumak gibi günlük görevleri de başarıyla yerine getirebiliyor.
Geliştiriciler, Phi-4-reasoning-vision-15B modelini kullanarak, kullanıcı arayüzleri aracılığıyla etkileşimde bulunan yapay zeka ajanları oluşturma imkânına sahip. Bu sayede, uygulamalar daha akıllı hale geliyor. Üstelik, modelin bazı katmanları çok modlu işlemeyi destekleyerek, donanım kullanımını azaltma fırsatı sunuyor.
Microsoft, kullanıcıların akıl yürütme özelliğini komutlar aracılığıyla devre dışı bırakabileceğini, böylece modelin altyapı ayak izinin daha da azalabileceğini belirtti. Bu özellik, kullanıcıların donanım kaynaklarını daha verimli kullanmalarını sağlayacak.
Phi-4-reasoning-vision-15B, açık kaynaklı verilerle eğitildi. Eğitme sürecinde, model görüntülerdeki nesnelerin fotoğraflarını ve metin tabanlı açıklamalarını kullandı. Microsoft, eğitim sürecinden önce dosyaları iyileştiren çok adımlı bir yöntem uyguladı. Ayrıca algoritmayı, benzer boyuttaki birkaç akıl yürütme modeli ile karşılaştırdı.
Bu karşılaştırmalarda, Phi-4-reasoning-vision-15B, MathVista_Mini ölçütünde Google’ın gemma-3-12b-it modelinden yüzde 17 daha yüksek bir puan aldı. Sonuç olarak, modelin performansı oldukça etkileyici bulundu. Örneğin, bilimsel diyagramlara odaklanan AI2D testinde 84.8 puan, ChartQA üzerinde 83.3 puan, MathVista testinde 75.2 puan ve ScreenSpot v2‘de 88.2 puan elde etti.
Bununla birlikte, genel performans açısından Phi-4-reasoning-vision-15B, çok daha büyük olan Qwen3-VL-32B gibi modellerin gerisinde kalsa da; Qwen3-VL-8B ve Kimi-VL-A3B gibi benzer boyuttaki sistemlerle rekabet edebilme kapasitesine sahip.
Sonuç olarak, Microsoft’un bu yeni modeli, yapay zeka ve donanım verimliliği açısından önemli bir adım olarak öne çıkıyor. Geliştiriciler ve kullanıcılar için sunduğu olanaklarla, gelecekteki teknolojik gelişmelerde önemli bir rol oynayacağı öngörülüyor.