“`html

Yapay zeka dünyasında Claude ve Gemini etkisini hissettirirken, rekabet her zamankinden daha ateşli. Google’ın özellikle iş dünyasını hedef alan ve Nano Banana Pro olarak bilinen yapay zeka modeli, görsel üretim konusundaki yetenekleriyle büyük ilgi topluyordu. Fakat, Çin merkezli Z.ai’nın açık kaynaklı yenilikçi ürünü GLM-Image, dengeleri altüst etmeye aday görünüyor. Google’ın sistemine meydan okuyan bu model, özellikle metin içeren görsellerde dikkat çekici bir performans sergiliyor. İşte detaylar…

16 milyar parametre ile power-packed GLM-Image, endüstride standart haline gelmiş Pure Diffusion mimarisinden uzaklaşıyor. Bu yapı, görüntüleri karmaşık bir ekranda netleştirir gibi rastgele piksellerden meydana getiriyor. GLM-Image, Auto-regressive teknolojisi ile Diffusion özelliklerini birleştirerek yenilikçi bir model oluşturuyor. Bu hibrit yapı, daha önce yalnızca ticari modellerin yetenekleri arasında bulunan bilgi dolu infografik, sunum slaytları ve teknik çizimler gibi içerikleri, açık kaynaklı bir yaklaşımla yaratma imkanı sunuyor. GLM-Image, Nano Banana Pro’yla yarıştığı bazı testlerde rakibini geride bırakmayı başarmış durumda.

GLM-Image’in güçlü yanları arasında görselliğin yanı sıra hassasiyet de yer alıyor. CVTG-2k isimli benchmark testlerinde, metin içeren görsellerin doğruluğunu değerlendirirken, Z.ai’ın yapay zekası 0.9116 puan alarak diğerlerine büyük bir fark attı. Güvenilirliği ile bilinen Google’ın modeli ise daha düşük bir puanda kaldı. Örneğin, bir pazarlama sunumu hazırlarken başlık, üç madde ve bir alt açıklama gerektirdiğinde, Nano Banana Pro metin sayısı arttıkça zorluk çekmeye başlayabilirken; GLM-Image ise karmaşık senaryolar içerisinde %90’ın üzerinde doğruluk oranı sunabiliyor. Halüsinasyon, yapay zekanın gerçek olmayan bilgileri üretme sorununa denir.

Madalyonun diğer yüzü ise kullanıcı deneyimi. Nano Banana Pro, internete bağlı olduğu için “Bana gökyüzündeki takımyıldızlarını çiz” dediğinizde, verileri anında bir arama motorundan çekebilir. Ancak GLM-Image’de, detayları açık ve net bir şekilde anlatmanız gerekiyor. Bu nedenle, “armut piş, ağzıma düş” mantığı bu modelde çok da geçerli değil. Ayrıca estetik açıdan değerlendirildiğinde, Google’ın görselleri hala daha canlı ve göz alıcı bir tasarıma sahip.

GLM-Image’in metinlerdeki başarısının arkasında, problemi çözme yaklaşımındaki köklü değişiklik yatıyor. Standart modeller, resmi doğrudan pikseller kullanarak oluştururken, GLM-Image bu süreci iki uzman arasında paylaşıyor. İlk aşamada, 9 milyar parametre içeren Auto-regressive modül, piksellerle uğraşmadan mantıksal bir tasarım planı sunarak, görselin temel hatlarını oluşturan Visual Tokens üretiyor. İkinci aşamadaysa, bu plan doğrultusunda bir ressam edasıyla doku, ışık ve stil eklemeleri yapılıyor. Böylece metinlerin doğru yazılması sağlanırken, görselin de gerçekçi görünümüne katkıda bulunuluyor.

GLM-Image, kullanıcılara sınırsız bir yazılım deneyimi sunan MIT License ve patent haklarını kapsayan açık yapıdaki Apache 2.0 lisanslarıyla gelmektedir. Bu durum, şirketlerin modeli kendi ticari ürünlerinde özgürce kullanabilmesi, değiştirebilmesi ve dağıtabilmesi anlamına geliyor. Patent davası risklerini en aza indiren bu lisanslar, hassas veri işleyen kuruluşlar için mükemmel bir çözüm sunuyor.

Bununla birlikte, her yeniliğin kendi zorlukları vardır; bu modelin en büyük sorunu ise işlem gücüdür. Çift beyinli bu yapıyı çalıştırmak, bilgisayar sistemlerini oldukça meşgul ediyor. 2048×2048 çözünürlüğünde bir görsel üretmek, yani modelin verileri işleyip sonuçlandırdığı Inference süreci, güçlü bir H100 GPU grafik işlemcisi ile bile yaklaşık dört dakika sürüyor. Daha basit modeller sadece birkaç saniyede sonuç verirken, bu süre uzun görünebilir. Ancak, bir grafik tasarımcısının saatlerce sürecek bir işi dört dakikada tamamlaması göz önüne alındığında, bu bekleme süresi kabul edilebilir hale geliyor.