Ajan (AI Agent), karmaşık görevleri planlayabilen, bu görevleri adım adım yürütebilen ve süreci kendi başına yönetebilen yazılım sistemleri olarak tanımlanıyor. StepFun’un verdiği bilgilere göre Step 3.5 Flash, bu tür ajan yapıları için optimize edilmiş bir mimariye sahip. Modelin özellikle uzun süreli görevlerde ve çok basamaklı iş akışlarında istikrarlı performans sunduğu belirtildi.
Yüksek Hız ve Uzun Bağlam Kapasitesi
Step 3.5 Flash’ın öne çıkan teknik özelliklerinden biri, kodlama ve metin üretimi gibi görevlerde sunduğu hız oldu. Şirketin paylaştığı bilgilere göre model, saniyede 350 token üretim kapasitesine ulaşabiliyor. Bu hız, gerçek zamanlı yanıt gerektiren sistemler için önemli bir eşik olarak değerlendiriliyor.
Modelin bir diğer dikkat çeken özelliği ise 256 bin birimlik bağlam kapasitesi. Bu kapasite sayesinde Step 3.5 Flash, çok uzun belgeleri ve karmaşık veri setlerini tek seferde işleyebiliyor ve görev boyunca bağlam kaybı yaşamadan ilerleyebiliyor.
Mixture-of-Experts (MoE) Mimarisi
StepFun, performans ve maliyet dengesini sağlamak amacıyla mimaride Mixture-of-Experts (MoE) yaklaşımını tercih etti. Step 3.5 Flash, toplamda 196 milyar parametreye sahip olmasına rağmen, her işlem sırasında bu parametrelerin yalnızca 11 milyarını aktif olarak kullanıyor. Bu yapı, işlem gücünden tasarruf sağlarken hız ve verimliliği artırıyor.
Şirket, bu yaklaşımı büyük bir kütüphanede yalnızca gerekli raflara yönelerek ilgili kitapları okumaya benzetiyor. Böylece gereksiz hesaplama yükü azaltılıyor.
Multi-Token Prediction Teknolojisi
Modelde kullanılan bir diğer yenilikçi yaklaşım ise Multi-Token Prediction – MTP-3 teknolojisi oldu. Geleneksel yapay zeka modelleri kelimeleri veya tokenları tek tek tahmin ederek ilerlerken, Step 3.5 Flash her adımda üç tokenı birden öngörebiliyor. Bu yöntem, üretim sürecini hızlandırırken genel verimliliği de artırıyor.
Hibrit Dikkat Mekanizması
Step 3.5 Flash, metnin tamamını ve kritik bölümlerini aynı anda değerlendirebilen hibrit bir dikkat mekanizması kullanıyor. Bu sistem sayesinde model, hem genel bağlamı hem de o anki önemli detayları birlikte işleyebiliyor.
Step 4 Modeli İçin Eğitim Süreci Başladı
StepFun, açıklamasında bir sonraki büyük adım olarak görülen Step 4 modelinin eğitim sürecine başlandığını da duyurdu. Ayrıca geliştiriciler ve araştırmacılar, yeni ekosistemin büyütülmesi amacıyla projeye katkı sunmaya davet edildi.