Yeni Birlik Gazetesi
Yeni Birlik Gazetesi Teknoloji Gemini 3 Flash’te görsel muhakemeyi ajansal sürece taşıyan yeni adım: Agentic Vision

Gemini 3 Flash’te görsel muhakemeyi ajansal sürece taşıyan yeni adım: Agentic Vision

Google, Gemini 3 Flash için tanıttığı Agentic Vision yeteneğiyle görüntü anlamayı tek bakışlık bir analiz olmaktan çıkarıp, kod yürütme destekli dinamik bir sürece dönüştürüyor.

Gelişmiş yapay zeka modelleri bugüne kadar görüntüleri çoğunlukla statik bir çerçevede ele aldı. Bir mikroçip üzerindeki seri numarası ya da uzakta kalan bir sokak levhası gibi detaylar kaçırıldığında, modelin tahmine dayalı sonuçlar üretmesi kaçınılmaz hale geldi. Gemini 3 Flash ile gelen Agentic Vision ise bu yaklaşımı kökten değiştirerek, görsel analiz sürecini adım adım ilerleyen ajansal bir yapıya dönüştürüyor.

Görüntüye bakan değil, görüntüyle çalışan bir model

Agentic Vision, Gemini 3 Flash’ın görüntüyle ilgili görevlerde yanıtlarını doğrudan görsel kanıtlara dayandırmasını amaçlayan yeni bir yetenek olarak konumlanıyor. Bu yaklaşımda model, yalnızca gördüğünü betimlemekle yetinmiyor; görseli işlemek için planlar kuruyor ve bu planları hayata geçiriyor.

Bu sürecin merkezinde, Agentic Vision tarafından desteklenen ilk araçlardan biri olan kod yürütme yer alıyor. Model, görsel muhakemeyi Python kodu ile birleştirerek görüntüyü yakınlaştırıyor, belirli alanları inceliyor ve gerektiğinde yeniden işliyor. Google’ın paylaştığı verilere göre, Gemini 3 Flash’ta kod yürütmenin etkinleştirilmesi, çoğu görsel değerlendirme ölçütünde yüzde 5 ila 10 arasında tutarlı bir kalite artışı sağlıyor.

Düşün, harekete geç, gözlemle döngüsü

Agentic Vision’ın çalışma mantığı “Düşün, Harekete Geç, Gözlemle” döngüsü üzerine kurulu. Düşün aşamasında model, kullanıcı sorgusunu ve ilk görüntüyü analiz ederek çok adımlı bir plan oluşturuyor. Harekete geç aşamasında, görüntüyü aktif biçimde analiz etmek veya dönüştürmek için Python kodu yazıyor ve bu kodu çalıştırıyor. Gözlemle aşamasında ise elde edilen yeni görüntü, modelin bağlam penceresine ekleniyor ve nihai yanıt öncesinde daha zengin bir değerlendirme yapılmasına olanak tanıyor.

Bu yapı sayesinde Gemini 3 Flash, kendisine sunulan bir görüntüyü yalnızca tanımlamakla kalmıyor; kod çalıştırarak doğrudan tuval üzerine çizim yapabiliyor, yakınlaştırma ile ince detayları yakalayabiliyor ve mantıksal çıkarımlarını görsel olarak temellendirebiliyor. Bu da modelin görseli pasif bir veri olarak değil, üzerinde işlem yapılan bir çalışma alanı olarak ele almasını sağlıyor. Böylece karmaşık sahnelerde bile sonuçlar, tahmin yerine gözleme dayalı hale geliyor.

Yakınlaştırma, ayrıştırma ve hesaplama yeteneği

Google’ın aktardığına göre Agentic Vision, yüksek yoğunluklu tabloları ayrıştırabiliyor ve elde ettiği bulguları görselleştirmek için Python kodu çalıştırabiliyor. Model, bir görseldeki elin parmaklarını sayabilen, belirli alanlara zoom yapabilen ve görsel veriler üzerinden aritmetik hesaplamalar gerçekleştirebilen bir yetenek setine sahip.

Bu özellikler, görsel muhakemenin yalnızca tanıma değil, analiz ve doğrulama süreçlerini de kapsayan daha kapsamlı bir yapıya evrildiğini gösteriyor.

Gemini 3 Flash’taki Agentic Vision yeteneği, Thinking modeli ile birlikte Gemini uygulamasında sunulmaya başlanıyor. Geliştiriciler ise bu yeni yeteneğe Google AI Studio ve Vertex AI üzerindeki Gemini API aracılığıyla erişebiliyor.