Görevleri Modeller Arasında Yönlendirmek: GLM, Claude ve MiniMax Her Biri Ne Zaman Kazanır

Uzun bir süre varsayılan bir modelim vardı ve her şeyi ona gönderiyordum. Hızlı bir yeniden adlandırma, geniş çaplı bir mimari sorusu, kullanıp atılacak bir betik, bir ödeme yolunun dikkatli bir yeniden düzenlemesi: hepsi alışkanlıktan aynı yere gidiyordu. O alışkanlık, kolay işlerde bana para kaybettiriyor ve zor işlerde beni eksik bırakıyordu çünkü tek satırlık bir iş için aşırı güçlü olan model, gerçekten derin bir problem için hâlâ yetersiz olabilir. Bir noktada varsayılana gitmeyi bıraktım ve yönlendirmeye (routing) başladım. Artık farklı görevler farklı modellere gidiyor ve görevi modele eşleştirme disiplini, herhangi bir tek en iyi modeli kovalamaktan daha fazla karşılığını verdi. En çok yaslandığım üçü z-ai'den GLM, Opus ve Sonnet biçimlerindeki Claude ve MiniMax. Her birinin bir tatlı noktası (sweet spot) var.

Tek Bir Varsayılana Karşı Argüman

Bir model seçip ona sadık kalma içgüdüsü anlaşılır. Daha basittir. Tuhaflıklarını öğrenir, çıktısına güvenir, onun hakkında düşünmeyi bırakırsınız. Ama o basitlik gerçek bir maliyeti gizler. Yüksek frekanslı, düşük riskli iş — bir günde fırlattığınız onlarca küçük tamamlama ve hızlı düzenleme — en pahalı modelinize ihtiyaç duymaz. Önemsiz bir görev için prim ücretler ödemek ve prim gecikme beklemek, her örnek küçük olduğu için fark etmeyi bıraktığınız bir israftır.

Bu arada gerçekten zor problemler — mimari kararlar ve derin akıl yürütme — tam da daha zayıf veya daha ucuz bir modelin sizi sessizce yüzüstü bırakacağı yerdir. Yük altında dağılan makul bir cevap verir ve bunu sonradan fark edene kadar yakalayamazsınız. Yani tek bir varsayılan, aynı anda her iki yönde de yanlıştır: kolay iş için fazla, zor iş için yetersiz. Yönlendirme, o gözlemi ciddiye almaktan ibaret.

Her Modelin Yerini Nerede Hak Ettiği

Bunu bilinçli olarak genel tutacağım çünkü yeni bir sürüm çıktığı an bayatlayan kesin kıyaslama (benchmark) iddialarına güvenmem. Ama şekli tutarlı. GLM, GLM-5.1 gibi sürümlerinde, hızın ve maliyetin maksimum derinlikten daha önemli olduğu yüksek frekanslı iş için iş atımdır (workhorse). Çok sayıda benzer işlem yapıyorsam ve sayacı izlemeden hızlı, yetkin turlar istiyorsam, oraya gider.

Claude, özellikle Opus, gerçekten düşünmeyi gerektiren işi gönderdiğim yer. Mimari, çetrefilli yeniden düzenlemeler, ince bir hatayı akıl yürütme, yanlış olmanın pahalı ve titiz olmanın karşılığını verdiği herhangi bir şey. Sonnet benim için ortada oturur, güçlü ama daha hafif; en ağır akıl yürütmeye ihtiyaç duymayan önemli iş için iyi. MiniMax kendi güçlü yönlerine sahip ve seti tamamlar; profili görev için diğerlerinden daha iyi uyduğunda yönlendirebileceğim bir başka yetkin seçenek verir. Mesele bir sıralama değil. Mesele, her birinin farklı türde bir iş için doğru karar olmasıdır.

Maliyet ve Yetenek Asıl Eksen

Gerçekte karar verme şeklim tek bir eksen üzerinde: bir uçta maliyet ve hız, diğer uçta ham yetenek. Çoğu görev uçlarda oturmaz. Beceri, belirli bir görevin nereye düştüğünü dürüstçe değerlendirmek ve her şeyi en güçlü modele, sadece güvenli seçenek olduğu için gönderme çekiminden kaçınmaktır.

Daha düşük riskli, tekrarlayan, yüksek hacimli iş, daha hızlı ve daha ucuz uca gider çünkü daha güçlü bir modelden gelen marjinal kalite sonucu değiştirmez ve toplam tasarruf büyüktür. Mimari ve derin akıl yürütme yetenekli uca gider çünkü orada marjinal kalite tüm mesele ve maliyet, doğru yapmanın değeri karşısında bir yuvarlama hatasıdır. En sık gördüğüm ve uzun süre kendim de yaptığım hata, her görevi en güçlü modeli hak ediyormuş gibi ele almaktır. Hak etmez ve aksini iddia etmek, ihtiyacı olmayan işe bütçe yakmaktan ibaret.

Sağlayıcıları İdare Etmenin Gösterişsiz Gerçeği

Bunun sürtünmeden arınmış olduğunu iddia etmeyeceğim. GLM, Claude ve MiniMax genelinde yönlendirmek, üç sağlayıcıyla yaşamak demek; bu da üç API anahtarı seti, üç faturalandırma ilişkisi, bir bakiyenin kuruyabileceği ya da bir hız sınırının en kötü anda ısırabileceği üç yer demek. Operasyonel ek yük gerçek ve insanların çok modelli kurulumlardan, geçiş yapmak bedavaymış gibi bahsettiğinde ortaya çıkmayan kısım.

Burada gerçek bir muhasebe var. Döndürülecek anahtarlar, doldurulacak bakiyeler, sizi anında yeniden yönlendirmeye zorlayan ara sıra bir sağlayıcı kesintisi. Hiçbiri zor değil ama hepsi dikkat ve dikkat de bedava değil. Devam ediyorum çünkü tasarruflar ve kalite kazanımları zahmetin açıkça önüne geçiyor ama bunu düşünen herkes, verginin var olduğunu sonradan keşfetmek yerine bilmeli.

Modelden Bağımsız Bir Koşum Takımı Bunu Ucuzlatır

Yönlendirmeyi zahmetli yerine pratik kılan şey, işimi herhangi bir sağlayıcının arayüzüne bağlamayı reddetmek. Modelden bağımsız (model-agnostic) bir koşum takımı (harness) üzerinden çalışıyorum; altta yatan modeli değiştirmenin bir yeniden yazma değil bir yapılandırma değişikliği olduğu bir katman. Geçiş maliyetleri düşük olduğunda, yönlendirme bir angarya olmaktan çıkıp bir refleks haline gelir.

O soyutlama, tüm yaklaşımı teoriden günlük pratiğe çeviren şey. Bir görevi bir modelden diğerine taşımak ucuz olduğu için, bunu sürekli yapıyorum; tesisat hakkında iki kez düşünmeden her bir iş parçasını ona uyan modele eşleştirerek. Ayrıca kilitlenmiş (locked in) de değilim. Yeni bir model ortaya çıktığında, ya da bir sağlayıcı fiyatlandırmasını değiştirdiğinde, ya da birinin kötü bir haftası olduğunda, işimi API'sinden çözmeden yeniden yönlendirebilirim. Koşum takımı, üzerindeki diğer her şeyi mümkün kılan sessiz altyapı parçası ve baştan başlasaydım ilk kuracağım kısım o.