1. Anasayfa
  2. Teknoloji
  3. Yazılım

Fotoğrafları 3D dünyalara dönüştüren yapay zeka: Tencent Voyager


0
fotograflari 3d dunyalara donusturen yapay zeka tencent voyager 0 yZUDW42b Tencent, yapay zeka alanında dikkat cazibeli bir adım atarak tek bir fotoğrafı üç boyutlu bir sahneye dönüştürebilen yeni modeli HunyuanWorld-Voyager’ı tanıttı. Model, klâsik modelleme tekniklerine muhtaçlık duymadan direkt 3D yine yapılandırma sağlamak için RGB görüntü ve derinlik bilgilerini tıpkı anda oluşturuyor. Lakin, görüntü oyunlarının yerini yakın vakitte almayacak.

Örnekler etkileyici

Voyager, bir fotoğrafı kullanıcı tarafından tanımlanan kamera hareketleriyle birleştirerek çalışıyor. Kaydırma, eğim yahut sahneye hakikat ilerleme üzere yönlendirmelerle model, hem renkli görüntüyü hem de eş vakitli derinlik haritalarını üretiyor. Bu derinlik bilgisi, sahnedeki objelerin pozisyonlarının dengeli kalmasını sağlıyor. Sistem, her yeni kareyi üç boyutlu noktalar üzerinden evvelki içerikle karşılaştırarak mekansal bütünlüğü müdafaaya çalışıyor. Lakin uzun periyodik yahut karmaşık kamera hareketlerinde, bilhassa de 360° dönüşlerde bozulmalar ortaya çıkabiliyor.

fotograflari 3d dunyalara donusturen yapay zeka tencent voyager 1 gc9QhQQn Tencent’in teknik raporunda “world cache” ismi verilen ek bir bileşen de öne çıkıyor. Bu yapı, her yeni kare üretildiğinde oluşan dataları saklıyor ve sonraki karelerde tekrar kullanıyor. Böylelikle görüntüler, birkaç dakikalık müddet boyunca geometrik tutarlılığını büyük ölçüde koruyabiliyor.

Sistem, 100 binden fazla gerçek ve yapay video kliple eğitildi. Unreal Engine ortamlarından elde edilen sahneler de dahil olmak üzere geniş bir bilgi seti, Voyager’ın kamera hareketlerini anlamasında kıymetli rol oynadı. Eğitim sürecinde otomatik bir derinlik hesaplama usulü kullanılarak manuel etiketleme gereksinimi ortadan kaldırıldı.

Donanım ihtiyacı yüksek

Teknolojik gücü etkileyici olsa da Voyager’ın önemli bir donanım gereksinimi var. Modeli sırf 540p çözünürlükte çalıştırmak için 60 GB GPU belleğine muhtaçlık duyuyor. En güzel sonuçlara erişmek için ise 80 GB gerekiyor. Çoklu GPU desteği sayesinde performans ölçeklenebiliyor. Örneğin 8 GPU’lu bir sistem, tek GPU’ya nazaran yaklaşık 6,7 kat daha süratli çalışıyor. Modelin yükleri Hugging Face üzerinden araştırmacılara açılmış durumda.

Voyager’ın yaklaşımı, mevcut görüntü üretim modellerinden ayrılıyor. Örneğin OpenAI’nin Sora modeli görsel gerçekçiliğe odaklanırken, Voyager kareler ortasında geometrik bütünlüğü ön planda tutuyor. Bu sayede Stanford’un geliştirdiği WorldScore benchmark testinde 77,62 puanla doruğa oturmayı başarıyor. WonderWorld (72,69) ve CogVideoX-I2V (62,15) üzere rakiplerini geride bıraksa da, kamera denetimi konusunda hâlâ kimi eksiklikler bulunuyor.

Bununla birlikte, Voyager’ın kullanımında birtakım lisans kısıtlamaları mevcut. Modelin Avrupa Birliği, Birleşik Krallık ve Güney Kore’de kullanımı yasak. Ayrıyeten 100 milyonun üzerinde faal kullanıcıya hizmet veren ticari uygulamalar için ek muahedeler talep ediliyor.

  • 0
    harika
    Harika
  • 0
    be_enmedim
    Beğenmedim
  • 0
    bay_ld_m
    Bayıldım
  • 0
    _zg_n_m
    Üzgünüm
  • 0
    _a_k_n_m
    Şaşkınım

Bültenimize Katılın

Hemen ücretsiz üye olun ve yeni güncellemelerden haberdar olan ilk kişi olun.

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir