Geçtiğimiz haftalarda NVIDIA, yeni çift yönlü konuşma modeli PersonaPlex’i tanıttı. Konuşma yapay zekası için açık sinir ağı olarak tanımlayabileceğimiz PersonaPlex, gerçekçi bir konuşma deneyimi sunarak son günlerde dikkatleri üzerine çekmeyi başardı. PersonaPlex, asistan, öğretmen ve müşteri temsilcisi gibi rollerde kullanıcılara hizmet verebiliyor. Mevcut sürümün, 16 hazır ses profili sunduğu belirtiliyor. Bu profiller, stil ve sunum açısından farklılık gösteriyor.
Nvidia’nın paylaştığı bilgilere göre geleneksel konuşma sistemleri sesi ve rolü özelleştirmenize izin verse de; konuşmalar garip duraklamaların yanı sıra kesintiler ve doğal olmayan konuşma sırası ile robotik bir deneyim sunuyor. Moshi gibi tam çift yönlü modeller ise gerçek zamanlı dinleme ve konuşma ile yapay zeka konuşmalarını doğal hissettirse de; kullanıcıları tek bir sabit ses ve role kilitlemesiyle hareket alanını daraltmaktaydı.
NVIDIA PersonaPlex ile çeşitli sesler arasından seçim yapmak ve metin komutlarıyla herhangi bir rolü tanımlamak mümkün. Seçtiğiniz kişiliği baştan sona koruyan PersonaPlex, doğal konuşmalar sunarken, kesintileri ve özgün konuşma ritmini yönetiyor.
Böylece hem ihtiyacınız olan özelleştirmeye erişebiliyor hem de konuşmaların insan gibi hissettiren doğallıkla gerçekleştirilmesini sağlıyorsunuz. Aynı anda dinleyen ve konuşan PersonaPlex, ne zaman duraklama ya da kesinti yapacağı gibi konuşma ile ilişkili davranışları da öğreniyor. Nvidia, düşük gecikmeli etkileşim için Dinleme (Otomatik Konuşma Tanıma), dil üretimi (Dil Modeli) ve konuşma (Metinden Konuşmaya) için ayrı modeller kullanan basamaklı sistemlerden yararlanıyor.
Nvidia’nın yaklaşımı, kullanıcı konuşurken iç durumunu güncelleyen ve yanıtı hemen geri gönderen tek bir model kullanıyor. Model, konuşma davranışını tanımlamak için ise sesli komut ve metin komutu olmak üzere iki girdi kullanıyor. Bu girdiler, tutarlı bir kişilik oluşturmak için birlikte işleniyor. PersonaPlex’in Kyutai’nin 7 milyar parametreli Moshi mimarisi üzerine geliştirildiğini de eklemekte fayda var.

Şirketin belirttiğine göre; PersonaPlex, soru-cevap asistanı ve müşteri hizmetleri rollerinde konuşma dinamikleri, yanıt ve kesinti gecikmesi ve görev bağlılığı açısından diğer açık kaynaklı ve ticari sistemlerden daha iyi performans gösteriyor. Kod ve model ağırlıkları, MIT Lisansı ve NVIDIA Açık Model Lisansı altında yayınlanmakta. Temel Moshi modelinin ise Kyutai tarafından CC-BY-4.0 lisansıyla lisanslandığını ekleyelim.