DeepSeek R1 yenilendi: Tek GPU ile çalışabilen akıl yürütme modeli!

Barış tarafından

31 Mayıs 2025 10:233 kez okunduOkuma süresi: 2dk, 58sn

Çin merkezli DeepSeek şirketi, yapay zekâ alanındaki gelişmelerini sürdürüyor. Şimdi DeepSeek R2 tam manasıyla kullanıma sunulmasa da, şirket DeepSeek R1 isimli mevcut modelini güncelleyerek tek bir GPU üzerinde çalışabilecek biçimde optimize etti. Bu sayede daha az donanım kaynağı ile güçlü yapay zekâ tecrübesi sunmak mümkün hale geliyor.

DeepSeek’in Birinci Adımları ve Başarısı

DeepSeek, 2025’in başlarında DeepSeek R1 modelini piyasaya sürdü ve bu model kısa müddette dikkatleri üzerine çekti. ABD merkezli yapay zekâ firmalarının en son Nvidia donanımlarını kullanmasına karşın DeepSeek, bu düzeye ulaşmayı başardı. Bilhassa donanım kısıtlamalarına yazılım tabanlı yeniliklerle tahlil üreterek dikkat çekti.

Açık Kaynak Siyaseti ve Yaygınlaşma

DeepSeek, yapay zekâ modellerini açık kaynak olarak kullanıma sunarak kullanıcıların kendi aygıtlarına yükleyip internet kontağı olmadan çalıştırmalarına imkan tanıdı. Bu yaklaşım, modellerin süratli yayılmasını sağlarken kullanıcı bilgilerinin Çin sunucularına gönderilmesini de önlemiş oldu. Ayrıyeten, bu açık kaynaklı kullanım araştırmacıların sansürlü içerikleri aşmasına da imkân tanıyor.

Tabii, kullanıcıların Çin üzere ülkelerde kullanıcı datalarını gönderme riskleri nedeniyle dikkatli olması gerekiyor. Fakat hangi modelleri kullanacakları büsbütün kullanıcıların kendi tercihlerine bağlı.

DeepSeek R1’in Yeni Sürümü: Daha Hafif ve Güçlü

DeepSeek R1 modeline yapılan son güncelleme ile birlikte, artık sadece bir GPU üzerinde çalışabilen daha kompakt bir sürüm de sunuldu. Hugging Face platformunda paylaşılan bu yeni sürüm, şimdi test basamağında olan sohbet botları üzere yeni araçlarla birlikte geliyor.

DeepSeek R1’in tam sürümü epey büyük: 685 milyar parametre içeriyor ve bu modelin tam performansla çalıştırılabilmesi için yaklaşık 12 adet 80 GB GPU gerekiyor. Bu da önemli bir donanım yatırımı gerektiriyor.

Performans İyileştirmeleri ve Halüsinasyon Azaltma

Şirket, yeni modelin matematik, programlama ve genel mantık testlerinde üstün performans gösterdiğini açıklarken, halüsinasyon oranlarının da düşürüldüğünü belirtiyor. Bu tez, DeepSeek’in web sitesinde ve WeChat üzerinden yapılan duyurularda da paylaşıldı.

DeepSeek R1: Qwen3-8B ile Güçlendirilmiş

Yeni sürüm, Alibaba’nın Mayıs ayında tanıttığı Qwen3-8B modeline dayanıyor. Model ismi “DeepSeek-R1-0528-Qwen3-8B” olarak geçiyor ve bu sürümle birlikte hem matematik hem de mantıksal akıl yürütme vazifelerinde dikkat cazibeli sonuçlar elde edildi.

Örneğin, bu model AIME 2025 üzere güçlü matematik testlerinde Google’ın Gemini 2.5 Flash modelini geride bıraktı. Ayrıyeten HMMT testlerinde de Microsoft’un Phi 4 modeline yakın sonuçlar elde etti.

Donanım İhtiyaçları ve Lokal Kullanım

Yeni DeepSeek R1 modeli, sadece 40-80 GB RAM’e sahip tek bir GPU ile çalışabiliyor. Bu da Nvidia H100 üzere çağdaş GPU’larla bu modeli konutta yahut ofiste denemeyi mümkün kılıyor. Donanım ihtiyaçlarının bu kadar düşmesi, AI meraklılarının ve geliştiricilerinin ağır maliyetlere katlanmadan DeepSeek R1 tecrübesi yaşamasını sağlıyor.

Ancak, bu küçük modelin kullanımı için aygıtınıza yüklenmesi gerekiyor.

Okunma: 3

0
Alkış
0
Sevdim
0
Şaşırdım
0
Kızdım