Yandex, müzik akış platformu Yandex Music’teki ses modülleriyle yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren ve teklif sistemleri için dünyanın en büyük açık data seti olan Yambda’yı (Yandex Music Billion-Interactions Dataset) yayınladı.
Yambda, teklif sistemlerini kullanan tüm alan isimlerinde (e-ticaret, toplumsal ağlar ve kısa görüntü platformları) yeni yaklaşım ve algoritmaları test etmek için üniversal bir ölçüt olarak hizmet veriyor.
Veri seti, araştırmacıların yeni teklif algoritmalarını baz modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlayarak inovasyonu hızlandırıyor. Hudutlu dataya sahip startup’lar ölçeklendirmeden evvel Yambda kullanarak sistem oluşturmak ve test etmek için bilgi setinden faydalanabiliyor. Böylelikle, dünya çapında iş gereksinimlerine nazaran uyarlanmış ileri teknolojilerin oluşturulması hızlandırılıyor.
Eğitim datalarının kalitesi ve ölçeği; yayın hizmetleri, toplumsal ağlar, kısa görüntü uygulamaları ve e-ticaret pazaryerleri üzere platformlarda hedefe uygun teklifleri sunabilmek için kritik ehemmiyet taşır. Bununla birlikte, teklif sistemlerine yönelik araştırmalar büyük ölçekli data setlerine hudutlu erişim nedeniyle büyük lisan modelleri üzere süratle ilerleyen alanların gerisinde kalmıştır. Tesirli teklif modelleri, ticari platformların sahip olduğu ama nadiren kamuya açık olarak paylaştığı terabaytlarca davranış verisi gerektiriyor.
Araştırmacılar çoklukla çağdaş kullanımın karmaşıklığını yakalayamayan küçük ve eski bilgi setleriyle baş başa kalıyor:
- Spotify Million Playlists data seti, ticari ölçekli teklif sistemleri için çok küçüktür.
- Netflix Prize data seti, yaklaşık 17.000 öğesi ve sırf tarih damgalarıyla zamansal modelleme ve büyük ölçekli araştırmalar için elverişli değil.
- Criteo 1TB Click Logs bilgi seti, uygun dokümantasyondan ve tanımlayıcılardan mahrum olup, reklam tıklamalarına odaklanıyor.
Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, “Öneri sistemleri, yapısı gereği hassas datalara bağlıdır. Şirketler teklif sistemi bilgi setlerini lakin kapsamlı ve yorucu bir anonimleştirme sürecinden sonra kamuya açık olarak yayınlayabilirler. Bu da açık inovasyonu yavaşlatan, ağır kaynak gerektiren bir süreçtir” diyor.
Bu bilgi kıtlığı bir boşluk yaratıyor: Akademik ortamlarda eksiksiz olan modeller gerçek dünya uygulamalarında ekseriyetle düşük performans sergiliyor. Teklif sistemlerini gelişmiş yapılarla entegre etme gayretleri da uygun eğitim datalarının yokluğu nedeniyle kısıtlanıyor.
Yambda, aylık yaklaşık 28 milyon kullanıcısı olan müzik akışı servisinin büyük ve anonimleştirilmiş data setini sunarak teklif sistemi zorluklarına tahlil getiriyor. Bu bilgi seti, dinleme tecrübesini her bir kullanıcının zevkine nazaran uyarlayan My Wave teklif sistemiyle tanınan Yandex Music servisinin içerikleriyle kullanıcıların nasıl etkileşime girdiğine dair değerli bilgiler sağlıyor. Saklılığı korumak için tüm kullanıcı ve izleme bilgileri, kapalılık standartları doğrultusunda sayısal tanımlayıcılarla anonimleştirilmiş oluyor.
Veri setinin temel özellikleri:
- 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimi.
- 1 milyon kullanıcıdan alınan bilgiler ve 9,39 milyon modül için anonimleştirilmiş tanımlayıcılar.
- İki geri bildirim çeşidi içerir: örtülü etkileşimler (dinleme) ve açık etkileşimler (beğenme, beğenmeme ve bunların iptali).
- Ses katıştırmaları (konvolüsyonel hudut ağları aracılığıyla oluşturulan vektör temsilleri) ve modüller hakkında anonimleştirilmiş bilgiler sunar.
- Kullanıcıların kesimleri bağımsız olarak mı yoksa teklifler yoluyla mı keşfettiğini gösteren bir “is_organic” işareti içerir ve daha derin davranış tahlili sağlar.
- Tüm aktifliklerin vakit damgalı olması, kullanıcı davranışının vakit içinde tahlilini dayanaklar ve modellerin gerçek dünya kullanımına çok benzeyen şartlar altında kıymetlendirilmesine imkan tanır.
Veri seti Spark ve Hadoop üzere dağıtık sürece sistemlerinin yanı sıra Pandas ve Polars üzere tahlil kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor
Nikolai Savushkin “Yambda, araştırmacıların yenilikçi hipotezleri test etmelerini ve işletmelerin daha akıllı teklif sistemleri oluşturmalarına yardımcı oluyor. Sonuçta, kullanıcılar da kusursuz şarkıyı, eseri yahut hizmeti bularak bundan yararlanıyor” diyor.
Yaklaşık 5 milyar, 500 milyon ve 50 milyon aktiflik olmak üzere üç farklı büyüklükte kullanılabilen Yambda bilgi seti, farklı muhtaçlıkları ve hesaplama kapasiteleri olan araştırmacılara ve geliştiricilere hitap ediyor.
Farklı Bilgi Seti Boyutları
Veri seti | Kullanıcı | Öğe | Dinleme | Beğenme | Beğenmeme |
Yambda-50M | 10.000 | 934.057 | 46.467.212 | 881.456 | 107.776 |
Yambda-500M | 100.000 | 3.004.578 | 466.512.103 | 9.033.960 | 1.128.113 |
Yambda-5B | 1.000.000 | 9.390.623 | 4.649.567.411 | 89.334.605 | 11.579.143 |
Veri seti, kıymetlendirme için aktiflik dizilerini korumak maksadıyla dataları vakit damgalarına nazaran bölen bir sistem olan Küresel Temporal Split (GTS) kullanılıyor. Test için her kullanıcının geçmişindeki son müspet etkileşimi kaldıran Leave-One-Out usulünün tersine GTS, eğitim ve test setleri ortasındaki vakit bağlarını koparmıyor. Bu sayede, ileriye dönük bilgilerin olmadığı gerçek dünya şartlarını taklit eden daha gerçekçi bir modelleme elde edilebiliyor.
Yeni teklif sistemi yaklaşımlarını karşılaştırmaya yönelik ölçütler sunan temel uygulamalar ortasında MostPop, DecayPop, ItemKNN, iALS, BPR, TALİHE ve SASRec yer alıyor. Bu temeller, aşağıdakiler de dahil olmak üzere standart metriklerle kıymetlendirilir:
- NDCG@k (sıralama kalitesi)
- Recall@k (geri alım etkililiği)
- Coverage@k (katalog çeşitliliği)
Nikolay Savushkin, “Sektör başkanları sıkıntı kazanılan araçları ve dataları paylaştığında, yükselen bir dalga tesiri yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startup’lar yalnızca teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha âlâ bir kullanım tecrübesinin keyfini çıkarır” diye ekliyor.
Dünyanın en büyük açık teklif sistemi data seti olan Yambda’ya artık Hugging Face’ten erişilebiliyor.