Kısa bir müddet evvel internette “Nano Banana” ismiyle ortaya çıkan ve yapay zeka kıyaslama platformu LMArena’da doruğa oturan yeni yapay zeka modelinin Google DeepMind tarafından geliştirildiği ortaya çıktı.
Google, modeli Gemini uygulamasına entegre ettiğini duyurdu.
Nano Banana’yı deneyen kullanıcılar, modelin görsel düzenlemede bir ihtilal olabileceğini argüman ediyordu. Kimileri, bu yapay zeka modellerinin Photoshop üzere fotoğraf düzenleme uygulamalarının yerini alabileceği görüşünde.
TUTARLI VE GERÇEKÇİ DÜZENLEMELER
Google, yılın başlarında Gemini’ye temel görsel düzenleme yetenekleri eklemişti. Lakin evvelki sistemlerde, her düzenlemede imajın beklenmedik biçimde değişmesi sık görülen bir sıkıntıydı. Manzaranın kullanıcının istediği üzere düzenlenebilmesi için birçok deneme yapmak ve bir dizi komut girmek gerekiyordu.
Yeni model, resmi ismiyle Gemini 2.5 Flash Image, bu sorunu büyük ölçüde çözüyor. Google’a nazaran model, yapılan düzenlemelerde eşsiz bir tutarlılık sağlıyor ve değişiklikler sırasında yepyeni görselin detaylarını hatırlayabiliyor.
Bu özellik sayesinde kullanıcılar, örneğin bir kişinin fotoğrafını yükleyip kıyafetini değiştirebiliyor ya da farklı tarzlarda tekrar hayal edebiliyor.
Birden fazla düzenleme üst üste yapılsa bile, sonuçlar hâlâ yepyeni fotoğraftaki bireye benziyor.
KOLAJ YETENEĞİ
Yeni model sırf tek bir görsel üzerinde değişiklik yapmakla hudutlu değil. Kullanıcılar birden fazla fotoğrafı birleştirerek yeni kompozit manzaralar oluşturabiliyor. Google’ın verdiği örnekte, başka farklı yüklenen bir bayan ve bir köpek fotoğrafı, köpeğin kucağa alındığı yeni bir sahneye dönüştürüldü.
Ayrıca model, daha soyut kombinasyonlar yaparak kullanıcıların yönlendirmelerine nazaran özgün imajlar üretebiliyor.
Google, yeni düzenleme aracının salı günü prestijiyle tüm Gemini kullanıcılarına sunulduğunu açıkladı. Model ayrıyeten yakın vakitte Gemini API, AI Studio ve Vertex AI üzerinden geliştiricilere de açılacak.
Google DeepMind eser sorumlularından Nicole Brichtova, modelin bilhassa tüketici kullanım senaryoları için tasarlandığını söyledi. Buna mesken ve bahçe projelerini görselleştirmek, birden fazla referansı (örneğin bir kanepe, oturma odası fotoğrafı ve renk paleti) tek bir dizaynda birleştirmek üzere uygulamalar da dahil.
Brichtova, “Bu güncelleme düzenlemeleri çok daha meselesiz hâle getiriyor ve çıktılar, istediğiniz her şey için kullanılabilir” dedi.
NASIL KULLANILIR?
Gemini 2.5 Flash Image kullanıcılara fiyatlı sunuluyor.
Geliştiriciler API üzerinden token bazlı ödeme yağarken (görsel başına 0,039 dolar), ferdî kullanıcılar ise bu modele erişimi sağlayan Google AI Pro üzere abonelik planları kapsamında ödeme yapıyor.
Google AI Pro planını kullanan aboneler, aylık yaklaşık 20 dolar civarında ödüyor. Bu plan, birtakım gelişmiş modellere ve özelliklere erişim sunuyor.
Ancak şunu belirtmek kıymetli: Gemini uygulamasında Flash Image’ın ferdi kullanıcılar için farklı bir fiyatlandırması yok. Modelin dahil olduğu plan kapsamında erişim sağlanıyor.
Yeni modeli denemek isteyenler, Google Play Store yahut App Store’dan “Gemini” uygulamasını indirebilir. Akabinde menüden yahut ayarlardan Gemini Advanced / AI Pro yükseltmesine girerek abone olmak mümkün.
Web sürümüne ise “gemini.google” sitesinden ulaşılıyor. Sol altta yahut profil kısmında “Gemini Advanced’e yükselt” seçeneğinden abonelik başlatılabiliyor.
Uygulamanın akışı ise başka yapay zeka araçlarıyla benzeri. Uygulamada “görsel yükle” seçeneğini seçtikten sonra düzenleme için komut veriliyor. Örneğin: “Bu kişinin kıyafetini 90’lar şekline çevir” yahut “Arka planı sil ve yerine kumsal ekle” üzere komutlar vermek mümkün.
REKABET KIZIŞIYOR
Google’ın atağı, OpenAI’nin mart ayında GPT-4o ile duyurduğu görsel üretim özelliklerinin akabinde geldi. O periyot ChatGPT’nin kullanımında büyük artış yaşanmış, toplumsal medyada “Studio Ghibli” şeklinde üretilen görseller büyük yankı uyandırmıştı.
Meta da geçen hafta Midjourney’den görsel modelleri alacağını duyurmuştu. Almanya merkezli Black Forest Labs’ın FLUX modelleri de hala kesimdeki en yüksek performanslı tahliller ortasında gösteriliyor.
Google, Gemini’nin gelişmiş görsel düzenleme yeteneklerinin, şirketin OpenAI karşısındaki kullanıcı farkını kapatmasına yardımcı olabileceğini düşünüyor. Şu anda ChatGPT haftalık 700 milyon kullanıcıya ulaşırken, Google CEO’su Sundar Pichai, Temmuz’daki kar davetinde Gemini’nin aylık 450 milyon kullanıcıya sahip olduğunu açıklamıştı.
DEEPFAKE RİSKİNE KARŞI ÖNLEMLER
Google’ın öteki yapay zeka manzara modellerinde olduğu üzere, Gemini 2.5 Flash Image ile üretilen her görselin köşesinde “AI” ibaresi bulunuyor. Ayrıyeten görsellerde, düzenlense bile art planda tespit edilebilen görünmez SynthID dijital filigran yer alıyor.
Google bu biçimde deepfake tehdidine karşı tedbir almak istiyor. Lakin şirket, toplumsal medyada süratle paylaşılan ve dezenformasyon için kullanılan görsellerde bu çeşit işaretlerin gözden kaçabileceğini de kabul ediyor.
Geçmişte Gemini’ın manzara üretimindeki meseleler gündeme oturmuştu. Şirket bilhassa tarihî açıdan yanlışlı insan görselleri (örneğin Elon Musk’ı siyahi resmediyordu) nedeniyle özür dileyip sistemi geri çekmek zorunda kalmıştı. Şirket artık daha istikrarlı bir yaklaşım geliştirdiğini belirtiyor.
Google’ın kullanım kaideleri, müsaadesiz mahrem içerik üretimini açıkça yasaklıyor. Bu noktada Google, rakiplerinden farklılaşıyor. Örneğin Elon Musk’ın xAI şirketinin geliştirdiği Grok, ünlülere benzeyen cinsel içerikli yapay görsellerin üretilmesine müsaade vermişti.
