Yaklaşık iki hafta önce yeni yapay zeka modeli Claude Opus 4.6’yı duyuran Anthropic, şimdi de Sonnet modelinin yeni bir sürümü olan Sonnet 4.6’yı piyasaya sürdü. Model, kodlama, bilgisayar kullanımı, uzun bağlamlı muhakeme, ajan planlama, bilgi çalışması ve tasarım alanlarında tam bir yükseltme olarak karşımıza çıkıyor. Şirket, paylaştığı gönderide kodlama, talimatları takip etme ve bilgisayar kullanımı alanlarında yapılan iyileştirmelere dikkat çekti.
Sonnet 4.6’nın beta sürümü, 1 milyon tokenlik bir bağlam penceresi içerecek. bu da Sonnet için daha önce mevcut olan en büyük bağlam penceresinin iki katı büyüklüğüne denk geliyor. Anthropic’in belirttiğine göre; yeni bağlam penceresi tek bir istekte tüm kod tabanlarını, uzun sözleşmeleri veya düzinelerce araştırma makalesini barındıracak kadar yeterli.
Sonnet 4.6’nın piyasaya sürülmesiyle birlikte pek çok ölçütte dikkat çekici sonuçlar elde ettiğini söyleyebiliriz. Bunlara bilgisayar kullanımı için OS World ve yazılım mühendisliği için SWE-Bench de dahil. Gerçek dünya yazılım kodlaması için endüstri standardı test olan SWE-bench Verified‘da Sonnet 4.6, yüzde 79,6 puan alarak Opus 4.6’nın yüzde 80,8’ine çok yakın bir performans gösterdi.
Ajan bilgisayar kullanımı ölçütü OSWorld-Verified’da Sonnet 4.6, yüzde 72,5 puan aldı ve Opus 4.6’nın yüzde 72,7’sine neredeyse eşitti. Ofis görevleri ölçütü GDPval-AA Elo’da, Sonnet 4.6, 1633 puan alarak Opus 4.6’nın 1606 puanını aştı. Ajan finansal analizinde Sonnet 4.6 yüzde 63,3’lük bir puan alarak, yüzde 60,1’lik puanla Opus 4.6 dahil olmak üzere karşılaştırmadaki tüm modelleri geride bıraktı.
Ayrıca model, insan zekasına özgü becerileri ölçmek için tasarlanan ARC-AGI-2‘de elde ettiği yüzde 60,4’lük puan ile dikkatleri üzerine çekmeyi başardı. Bu puan, Sonnet 4.6’yı çoğu benzer modelin üzerine çıkarıyor. Öte yandan model, bu ölçütte Opus 4.6, Gemini 3 Deep Think ve GPT 5.2’nin geliştirilmiş bir versiyonu gibi modellerin gerisinde kalıyor. Bununla beraber Sonnet 4.6’nın, işletmelerin en çok önem verdiği birçok kategoride çalıştırılması yaklaşık beş kat daha pahalı olan modelleri yakalamayı başardığını ya da geride bıraktığını söyleyebiliriz.
Sonnet 4.6 ile birlikte Anthropic’in bilgisayar kullanımı konusundaki ilerlemesi de dikkat çekiyor. Bilgisayar kullanımı, bir yapay zekanın bir insan gibi bilgisayarı kullanma, fareye tıklama, klavyeyle yazma ve modern API’lar içermeyen yazılımları kullanma becerisi anlamına geliyor.

Bu özelliği ilk kez Ekim 2024’te tanıtan Anthropic, o dönemde özelliğin hala deneysel, bazen hantal ve hataya açık olduğunu dile getirmişti. O zamandan bu yana bilgisayar kullanımı ölçütünde gösterilen performans dikkate değer bir artış gösterdi. OSWorld ölçütünde Claude Sonnet 3.5, Ekim 2024’te yüzde 14,9 puan aldı. Sonnet 3.7, Şubat 2025’te yüzde 28,0’a ulaştı. Sonnet 4, Haziran ayında yüzde 42,2’ye ulaştı. Sonnet 4.5, Ekim ayında yüzde 61,4’e tırmandı. Şimdi Sonnet 4.6, yüzde 72,5’e ulaşarak 16 ayda neredeyse beş katlık bir gelişme gösteriyor.
Claude Sonnet 4.6, tüm Claude planlarında, Claude Cowork, Claude Code, API ve tüm büyük bulut platformlarında artık kullanılabilir. Sonnet 4.6, Free ve Pro plan kullanıcıları için varsayılan model olacak. Geliştiriciler, claude-sonnet-4-6‘ya Claude API aracılığıyla hemen erişebilir. Anthropic’in güncellenmiş Haiku modelinin ise önümüzdeki haftalarda piyasaya sürülmesi bekleniyor.