9 soruda DeepSeek’in yeni modeli: Dünyayı sarsan yapay zeka nasıl değişti?

Okuma süresi: 8dk, 51sn

Çinli yapay zeka teşebbüsü DeepSeek, teknoloji dünyasında büyük ses getiren düşük maliyetli R1 modelinden sonra artık de DeepSeek-V3.1 sürümünü tanıttı.

Çarşamba akşamı duyurulan yeni model, şirketin bugüne kadar geliştirdiği en argümanlı yapay zeka sistemi olarak öne çıkıyor.

Teknoloji meraklıları heyecanla DeepSeek R-2 modelini bekliyordu. Halihazırda firmanın bu modeli yakında duyurması bekleniyor. Anck R-2 modelinden evvel V3.1 modeli geldi.

Bu modeller R serisinden farklı olarak hibrit bir yaklaşımı benimsiyor.
İşte sorularla yeni DeepSeek modeli ve R serisinden farklılıkları:

1. V3.1 MODELİ NEDİR?

685 milyar parametreye sahip olan V3.1, hem kodlama hem mantıksal akıl yürütme hem de sohbet fonksiyonlarını tek bir çatı altında birleştiriyor.
Önceki jenerasyon modellerde olağan misyonlar ve akıl yürütme için farklı yapılar bulunurken, bu sefer “tek model, iki mod” yaklaşımıyla hem “düşünme” hem de “düşünmeme” modu bir ortada sunuluyor. Kullanıcılar, uygulama yahut web üzerinden yer alan “deep thinking” seçeneğiyle bu modlar ortasında geçiş yapabiliyor.

Teknik açıdan bakıldığında V3.1, sırf 37 milyar parametreyi etkinleştiren Mixture-of-Experts (MoE) mimarisiyle çalışıyor. Bu sayede devasa boyutuna karşın kullanım maliyetleri düşük tutulabiliyor.

2. 685 MİLYAR VE 37 MİLYAR PARAMETRE NE DEMEK?

Normalde bir yapay zekA modelinin parametre sayısı ne kadar fazlaysa, o kadar çok bilgi barındırabilir lakin çalıştırması (inference) o kadar kıymetli ve yavaş olur.

DeepSeek-V3.1’in toplam parametre sayısı 685 milyar. Lakin yeni modelde her bir kullanıcı talebinde bu 685 milyarın hepsi tıpkı anda kullanılmayacak.

İşte burada DeepSeek’in kesimde zelzele tesiri yaratmasını sağlayan faktörlerden biri olan “Mixture-of-Experts” (MoE) mimarisi devreye giriyor. Model, “uzman” (expert) diye isimlendirilen farklı alt-modüllerden oluşuyor. Yani tüm modelin içinde minik uzman yapay zeka casusları var. Her süreç için bu uzmanların hepsi değil, yalnızca mevzuyla ilgilenen küçük bir kısmı faal hale geliyor.

DeepSeek-V3.1’de, toplam 685 milyar parametre içinden her bir token (yazı parçacığı) için sırf yaklaşık 37 milyarı aktive edilecek.

Bu şu manaya geliyor: Eğitimde tüm 685 milyar parametre öğrenmeye katkı sağlıyor, yani model çok güçlü bilgi biriktiriyor. Kullanımda ise birebir anda yalnızca 37 milyarlık kısım çalışıyor. Böylelikle yapay zeka aracınız çok daha süratli ve düşük maliyetli hale geliyor.

Bir şirkette 685 uzman olduğunu düşünelim. Lakin bir sorun çıktığında hepsini tıpkı anda çağırmak yerine, bahisle en alakalı 37 kişiyi görevlendirmek kafidir. Böylelikle hem iş süratli ilerler hem de kaynak boşa harcanmaz. Bu günümüz yapay zeka kesiminde kıymetli bir ilerleme.

3. TEK SEFERDE NE KADAR BÜYÜK BİR METNİ ANLAYABİLECEK?

Model ayrıyeten 128 bin token’lık bağlam penceresi sunuyor.

Bağlam penceresi (context window) bir lisan modelinin “hafızası” üzere çalışır: Model tıpkı anda ne kadar metni görebiliyor, manasını sürdürebiliyor, evvelki kısımlara referans verebiliyor. İşte bu da kapasiteyi belirliyor.

128 bin token’lık bağlam penceresi piyasada oldukça yüksek görülüyor. Yani yeni V3.1 modeli, ir kitap uzunluğunda metni (250-300 sayfa) tek seferde işleyebilir. Uzun raporlar, kod tabanları, mukaveleler yahut bilgi setleri üzerinde bütünlüklü tahliller yapabilir. Ayrıyeten kullanıcıyla yapılan uzun konuşmalarda modelin “unutma” sorunu büyük ölçüde azalmış oluyor.

Kıyaslamak gerekirse; GPT-4 (ilk sürüm): 8 bin 192 token (6-7 bin kelime), GPT-4 Turbo 128 bin token ve Anthropic Claude 3.5 Sonnet modeli ise 200 bin token’lık bağlam pencerelerine sahip.

4. PERFORMANSI NASIL

Şirketin kendi açıklamalarına nazaran, performans açısından da model dikkat cazibeli sonuçlar veriyor.

Erken testlerde Aider kodlama kıyaslamasında yüzde 71,6 muvaffakiyet elde eden DeepSeek-V3.1, böylelikle Anthropic’in en gelişmiş kapalı modeli Claude Opus 4’ü geride bırakırken, maliyet açısından çok daha avantajlı olduğunu gösteriyor.

Örneğin, bir kodlama misyonunu yaklaşık 1 dolar maliyetle tamamlarken, emsal Amerikan sistemlerinde bu sayı 70 dolara kadar çıkabiliyor.
Matematiksel yetenekleri ve karmaşık mantık sorunlarını çözme marifeti de evvelki modellerin üzerine koymuş durumda.

Ancak en net sonucu, şirketle bağı bulunmayan bağımsız uzmanların önümüzdeki günlerde yapacağı denemeler verecek.

5. YENİDEN AÇIK KAYNAKLI MI?

2025 başında yayınlanan birinci model DeepSeek R-1 birebir vakitte açık kaynaklı olduğu için de zelzele tesiri yaratmıştı. Öbür firmalar, geliştirdikleri modellerin tam olarak nasıl işlediğini ve eğitildiğini gösteren kodlarını dışarıya açmazken, DeepSeek bunun aksisini yapmıştı.

Bir teknolojinin açık kaynak kodlu olması, birebir vakitte o kodları alıp kendi bilgisayarınıza kurabileceğiniz, daha da geliştirebileceğiniz ve istekleriniz doğrultusunda özelleştirebileceğiniz manasına geliyor.

V3.1’in en dikkat cazip taraflarından biri de DeepSeek’in açık kaynak stratejisini sürdürmesi oldu. Model, MIT lisansı altında Hugging Face üzerinden indirilebiliyor ve ticari kullanım için de özgür.

Ancak yaklaşık 700 GB’lık dev boyutu, modeli kendi altyapısında çalıştırmak isteyenler için önemli bir teknik mani oluşturuyor. Bu nedenle birçok kullanıcı için asıl avantaj, bulut sağlayıcılar üzerinden uygun maliyetli API erişimi olacak. API’ler sayesinde de belli bir fiyat karşılığında yapay zeka modellerini kendi firmanız için özelleştirmeniz mümkün.

DeepSeek ve yakın vakte kadar Meta’nın da katıldığı bu şeffaflık akımı dalın tamamını etkiledi. O denli ki OpenAI da GPT-5 modelini açık kaynak siyasetini benimseyerek piyasaya sürdü.

6. MERAKLA BEKLENEN R-2 İLE FARKI NEDİR?

Şirketin kurucusu Liang Wenfeng, finans kesimindeki teşebbüslerinden elde ettiği kaynaklarla DeepSeek’i büyütmeye devam ederken, uzun vadeli gayesinin insan düzeyinde bir sistem hayali olan “genel yapay zeka” (AGI) olduğunu vurguluyor.

R1’in devamı olması beklenen R2 modeliyle ilgili belirsizlik sürerken, V3.1’in hibrit yapısı nedeniyle bu projenin büsbütün rafa kalkabileceği de konuşuluyor.

DeepSeek’in R1 modeli “akıl yürütme” odaklı özel bir yapay zekaydı. Daha uzun müddette cevap veriyor fakat karmaşık mantık ve muhakeme gerektiren misyonlarda güçlü performans gösteriyordu. Bu yüzden herkes, daha gelişmiş bir R2 sürümünü bekliyordu.

Ancak R2’nin başka bir model olarak çıkması yerine, DeepSeek “tek model, iki mod” stratejisini benimsemiş üzere görünüyor. V3.1’de hem “düşünme” hem de “düşünmeme” modları bir ortada sunuluyor. Kullanıcılar, gereksinime nazaran bu modlar ortasında geçiş yapabiliyor. Yani R1’in mantıksal derinliği artık V3.1’in içinde, fakat daha süratli karşılık verecek formda optimize edilmiş durumda.

DeepSeek’e nazaran V3.1, R1’e kıyasla karşılıkları yüzde 50’ye kadar daha süratli üretebiliyor. Bu da R2’ye gerek bırakmayabilir zira zati beklenen “gelişmiş muhakeme” kabiliyetinin, hibrit yapının içinde çözüldüğü yorumları yapılmaya başladı.

R2, başka bir “saf akıl yürütme modeli” olacaktı. Ama V3.1 ile DeepSeek istikametini “ajan çağı”na çevirdi. Yani gelecekteki maksat, R2 üzere niş bir model yerine, çok taraflı bir tek modelin üzerine yapay zeka casusları inşa etmek.

7. TÜM BUNLAR KULLANICI AÇISINDAN NE MANAYA GELİYOR?

Bunların son kullanıcı açısından manası ise şu: Evvelce, kullanıcı bir misyon için hangi modeli seçmesi gerektiğini düşünmek zorundaydı. Örneğin olağan sohbet yahut kodlama için V3’ü, sıkıntı mantıksal misyonlar için R1’i seçiyordu.

Şimdi ise tek bir model var (V3.1) ve kullanıcı basitçe “düşünme” ya da “düşün” modunu seçebiliyor. Yani tıpkı sistem hem süratli yanıt verebiliyor, hem de gerektiğinde derin muhakeme yapabiliyor. Bu, kullanıcının baş karışıklığını ortadan kaldırıyor.

Benzer bir yaklaşımı OpenAI da GPT-5 ile benimsedi. Evvelce ChatGPT kullanıcılarının, o3, 4o yahut bunların küçük modelleri ortasından en uygun olanını bulup kendisinin seçmesi gerekiyordu. Lakin artık hepsi GPT-5’in içinde olacaktı ve kullanıcının bunu düşünmesine gerek kalmayacaktı. Öte yandan kullanıcılar GPT-5 modelini, GPT-4 modeline nazaran “soğuk” ve “duygusuz” buldu. Taleplerin akabinde OpenAI GPT-4’ü geri getirdi.

8. DEEPSEEK ARTIK YERLİ ÇİP Mİ KULLANIYOR?

DeepSeek’in yeni modeli farklı donanımlara uyumlu hale gelmesi için BF16, F8_E4M3, FP8 ve F32 üzere çoklu tensör formatlarını da destekliyor. Bilhassa FP8 formatının, yakında piyasaya çıkacak Çin imali yeni jenerasyon çiplerle uyumlu çalışacak biçimde optimize edilmesi dikkat çekiyor.

Bu atak, Pekin’in ABD ihracat kısıtlamaları karşısında kendi yarı iletken ekosistemini güçlendirme siyasetinin bir modülü olarak yorumlanıyor.
Forbes’a nazaran DeepSeek, bilhassa DeepSeek-V3 için model geliştirmenin temel evrelerinde AMD Instinct GPU’larını (grafik süreç birimleri) ve ROCM yazılımını kullandı.

MIT Technology Review dergisi ise ABD’den Çin’e yönelik çip yaptırımlarının gelmesinden çok evvel Liang’ın, şu anda Çin’e ihracatı yasaklanmış bir çeşit olan Nvidia A100 çiplerinden değerli ölçüde stok satın aldığını yazdı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000’den fazla ünite olduğunu kestirim ediyor. Kimileri bu sayının 50.000 olduğunu söylüyor. Bu stokun yapay zeka eğitimi açısından ehemmiyetini fark eden Liang, DeepSeek’i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başlamıştı.

Yeni yaklaşımla birlikte Çin’de uygun çipler üretilirse artık DeepSeek de yerli çiplere geçebilir.

9. İNANÇLI Mİ?

DeepSeek kullanımıyla ilgili bir kıymetli soru başlığı da inançlı olup olmadığı. DeepSeek de tıpkı öteki hizmetlerde olduğu üzere kullanıcının bilgilerini istiyor ve bunlar muhtemelen Çin’deki sunucularda saklanıyor.

Kullanıcıların rastgele bir yapay zeka modelinde olduğu üzere burada da sohbet botuna hassas bilgilerini vermemesi değerli.

DeepSeek’in yeni modeli de açık kaynaklı olduğu için bağımsız araştırmacılar ilerleyen günlerde modelin kodlarına bakıp inançlı olup olmadığını belirlemeye yönelik çalışmalar yapabilir.

Kaynak : {sitename