
Daha gelişmiş ve daha ucuz
Yeni model, karmaşık talimatları daha düzgün takip edebiliyor, araç çağırmada kusur oranı düşüyor. Birebir vakitte modelin ürettiği seslerin de daha doğal ve söz dolu olduğu belirtiliyor. OpenAI, modelin sistem iletilerini ve geliştirici komutlarını eski modellere nazaran çok daha düzgün yorumlayabildiğini belirtiyor.
Realtime API’nin birinci lansmanında 6 ses seçeneği sunulmuş, sonrasında iki yeni ses daha eklenmişti. Artık Marin ve Cedar isminde iki yeni ses daha duyuruldu. Ek olarak mevcuttaki sekiz ses de daha doğal ve akıcı bir tecrübe sunacak formda güncellendi.
Yeni model tıpkı vakitte performans testlerinde de tezli. Big Bench Audio testinde gpt-realtime yüzde 82,8 doğrulukla, Aralık 2024’teki evvelki modelin yüzde 65,6’lık skorunu geride bırakmış durumda. MultiChallenge Audio Benchmark testinde ise model, evvelki yüzde 20,6’lık skoru geçerek yüzde 30,5 skor elde etti.
Yeni model ve seslerle birlikte Realtime API’de de güncellemeler yapıldı. Artık API, uzaktan MCP sunucularını, görsel girdileri ve Session Initiation Protocol (SIP) üzerinden telefon aramalarını destekliyor. Ayrıyeten geliştiriciler kullandıkları talimatları (prompt) kaydedip yine kullanabiliyor.
Tüm bu gelişmelere karşın OpenAI, Realtime API’nin fiyatını düşürdü. gpt-realtime artık, evvelki gpt-4o-realtime-preview’a kıyasla yüzde 20 daha ucuz. 1M ses girdi tokeni 32 dolar, 1M ses çıktı tokeni ise 64 dolar düzeyinde.