Tavus’tan gerçek zamanlı insan render modeli: Phoenix-4

Tavus’tan gerçek zamanlı insan render modeli: Phoenix-4
Batmantv.net
Yayınlama: 20.02.2026
1
A+
A-

Yapay zeka ile kişiselleştirilmiş videolar oluşturan girişim Tavus‘u sizlere daha önce tanıtmıştık. Bu hafta Tavus, gerçek zamanlı bir insan render modeli olan Phoenix-4’ü tanıttı. Model, bütünsel yüz ifadeleri olan, konuşma sırasında duygular arasında geçiş yapabilen ve bağlamsal tepkilerle aktif olarak dinleyebilen yapay zeka avatarları oluşturabiliyor. 

Binlerce saatlik gerçek insan konuşmalarıyla eğitilmiş olan Phoenix-4, her karede yüz ve başın her pikselini sıfırdan oluşturuyor. Model, 10’dan fazla duygusal durumu ve bunlar arasındaki geçişleri gerçek zamanlı olarak işliyor. Böylece konuşmalar sırasında uygunsuz tepkiler veya ifadelerden kaçınıyor. 

Şirket, Phoenix-4’ü, duygusal durumları, aktif dinleme davranışını ve sürekli yüz hareketlerini tek bir birleşik sistem olarak üreten ve kontrol eden ilk gerçek zamanlı model olarak tanımlıyor. Canlı video görüşmelerinin akıcılığına odaklanan Model, 1080p’de 40 fps hızında çalışıyor.

Phoenix-4, binlerce saatlik insan konuşma verisiyle eğitilmiş hibrit Gauss difüzyon mimarisi üzerine inşa edildi. Bu mimaride, yerleşik bir davranış modeli yüz ve başın tüm parçaları arasındaki ilişkiyi öğrenerek bunları dolaylı olarak kontrol ediyor.

Phoenix-4’ün öne çıkan yetenekleri

Phoenix-4, mutluluk, üzüntü, öfke, şaşkınlık, tiksinti, korku, heyecan, merak ve memnuniyet dahil olmak üzere 10’dan fazla duygu durumu arasında kesintisiz geçişlerle gerçek zamanlı olarak duygusal durumlar oluşturuyor ve bunları kontrol ediyor. Duygusal iletimi doğrudan LLM ve komutlarınızla yönlendirebileceğinizi belirtelim. Bunun yerine modelin bağlamsal olarak kendi başına yanıt vermesine müsade etmeniz de mümkün. Şirket, modelin algılama için Raven-1 ile eşleştirildiğinde, duygu tepkilerinin kullanıcının tonu, ifadesi ve niyetinden etkilenerek daha da yüksek doğruluk sağladığını belirtiyor. 

Phoenix-4, konuşma ve dinleme gibi durumlarda doğal ve belirgin ifadelerle duyguyu yansıtmanın ötesinde onaylayarak başını sallayabilir. Aynı şekilde hayal kırıklığına tepki olarak şaşkınlık veya endişe gösterebileceği gibi merakını da ifade edebiliyor. Modelin ürettiği konuşma ve dinleme durumları, enterpolasyon, ani geçişler ve döngüsel görüntüler olmadan geçiş yapıyor. Her karenin tamamen oluşturulduğu bu yaklaşımda kullanıcılar geçişi fark etmiyor. 

Baş hareketi, yanaklar, kaşlar, dudaklar, alın, göz bakışı ve hatta göz kırpmaları, model tarafından bağlamsal olarak kontrol ediliyor. Böylece avatarın kimliği korurunurken hem ince mikro ifadeler hem de cesur makro ifadeler mümkün hale geliyor. Bunlara ek olarak modelin, doğal mikro ifadeler ürettiğini belirtelim. Bu ifadeler, programlanmış durumlardan ziyade, çok sayıda gerçek, duygusal veriden öğrenilen temsillerden ortaya çıkıyor.

Geliştiriciler modeli, Tavus platformu, API’ler, PAL’ler ve 40’tan fazla yeni replika içeren güncellenmiş Stock Replica kütüphanesi aracılığıyla kullanabilir. Bu teknoloji, sağlık, eğitim ve satış kullanım senaryoları için tercih edilebilir. 

Batmantv.net
Bir Yorum Yazın

Ziyaretçi Yorumları - 0 Yorum

Henüz yorum yapılmamış.