Yandex, müzik akış servisi Yandex Music üzerinden elde ettiği yaklaşık 5 milyar kullanıcı etkileşiminden oluşan bilgi setini araştırmacıların kullanımına açtı. “Yambda” ismi verilen bu set, teklif sistemleri alanında şimdiye kadar yayımlanmış en büyük açık data kaynağı olma özelliği taşıyor.
Yamba bilgi seti, 10 aylık bir süreçte toplanan 4,79 milyar anonimleştirilmiş etkileşim verisini içeriyor. Kullanıcıların müzik dinleme, beğenme ve beğenmeme üzere etkileşimlerinden oluşan data seti, hem örtülü hem açık geri bildirimleri kapsıyor. Tıpkı vakitte tüm bilgiler, vakit damgaları ve içerik teklifinin organik olup olmadığını belirten işaretlerle birlikte sunuluyor.
Farklı boyutlardaki data setleri araştırmacılara açıldı
Veri seti, öneri sistemleri üzerine çalışan araştırmacılar için farklı boyutlarda (50 milyon, 500 milyon ve 5 milyar etkinlik) erişilebilir hale getirildi. Apache Parquet formatında sunulan evraklar, Spark ve Pandas üzere tahlil araçlarıyla uyumlu olarak hazırlanmış durumda. Kıymetlendirme sistemi olarak ise vakit bağını koruyan Küresel Temporal Split tekniği kullanılıyor.
Bu bilgi seti sayesinde araştırmacılar, teklif sistemlerini gerçek dünya senaryolarına daha yakın şartlarda test edebiliyor. Tıpkı vakitte mevcut temel modellerle karşılaştırmalar yapılmasını sağlayan kıymetlendirme metrikleri de sistemle birlikte sunuluyor.