Claude ile Prompt Önbellekleme: Üretimde Asıl Parayı Ne Kazandırır

Prompt önbellekleme (prompt caching), Anthropic API'sinin en az kullanılan ve aynı zamanda en yanlış anlaşılan özelliklerinden biri. Belgeler bunu basit bir kola gibi gösteriyor: içeriğin bir bölümünü önbelleğe alınabilir olarak işaretle, sonraki çağrılarda daha az öde. Üretimdeki gerçeklik ise daha ilginç; çünkü kazanç yalnızca isteklerinizin şekli, önbelleğin şekliyle örtüştüğünde ortaya çıkıyor. Artık birkaç iş yükünde devreye aldım ve gerçekten para kazandıran desenler, pazarlamanın ima ettiğinden çok daha spesifik.

Önbellek Modeli Tek Bir Paragrafta

Önbellek, önekler (prefix) üzerinden çalışır. Prompt'unuzdaki bir konumu bir cache_control bloğuyla işaretlersiniz ve o işaretten önceki her şey yeniden kullanım için uygun hale gelir. Sonraki bir istek aynı öneki gönderdiğinde, sunucu bir önbellek isabeti (cache hit) döndürür, normal girdi token fiyatının bir kısmını faturalandırır ve siz yalnızca önbelleğe alınmamış son ek (suffix) için tam ücret ödersiniz. Önbellek varsayılan olarak birkaç dakika yaşar; etkileşimli oturumlar ve kısa ömürlü gruplar (batch) için yeterli, düşük hacimli bir arka plan işçisi için ise yetersiz.

Sessiz Kısıt: Bayt Bayt Eşleşme

Önek tam olarak eşleşmek zorunda. "Anlamsal olarak" değil. "Yaklaşık olarak" değil. Sistem prompt'unuzun tek bir token'ı bile değişirse, önbellek buharlaşır. Bu apaçık görünüyor, ama üretimde gördüğüm neredeyse her hata buradan kaynaklanıyor. Bir metin satırını sessizce değiştiren bir özellik bayrağı (feature flag), "tazelik" adına sistem prompt'una enjekte edilen bir zaman damgası, küçük bir SDK güncellemesiyle biraz farklı bir sırada yeniden serileştirilen bir araç tanımı. Bunların her biri, her kullanıcı için aşağı akıştaki tüm önbelleği geçersiz kılar.

Önbelleğe alınmış öneki, derlenmiş bir yapı (artifact) gibi ele alıyorum. Belirleyici (deterministik) bir derleme sürecine sahip. Loglanıyor. İsabet oranları düştüğünde ilk baktığım yer bu log oluyor.

Para Aslında Nereden Gelir

Üç şekil sürekli olarak getiri sağlar.

İlki, uzun ve kararlı bir sistem prompt'u. 8k veya 16k token'lık talimat, araç ve örnekle bir ajan çalıştırıyorsanız, o bloğu önbelleğe almak neredeyse bedavaya uygulanır ve ilk çağrıdan sonra maliyeti dramatik biçimde düşürür.

İkincisi, kararlı bir belge bağlamıyla RAG. Bir konuşma turu boyunca aynı parça (chunk) kümesini getirdiğinizde, getirme bloğunu önbelleğe alınabilir olarak işaretlersiniz ve takip eden turlar ucuzlar. Bu yalnızca getirme işleminiz, yeniden çalıştırıldığında aynı baytları üretecek kadar belirleyiciyse işe yarar.

Üçüncüsü, gruplanmış (batched) değerlendirme. Değişen girdilerle sabit bir prompt üzerinde bir kıyaslama (benchmark) paketi çalıştırdığınızda, prompt'u sabit kısım önce, değişken girdi sonda olacak şekilde yapılandırabilirsiniz; ilk satırdan sonra her satır önbellekli oranı öder.

Nerede İşe Yaramaz

İş yükünüz doğası gereği soğuksa — birkaç saatte bir kullanıcı başına tek istek, hiçbir tekrar olmadan — önbellek yalnızca karmaşıklık ekler. Yazma işlemi normal bir girdi token'ından daha pahalıdır; dolayısıyla hiç isabet etmeyen bir önbellek, size hiç önbellek olmamasından daha fazlaya mal olur.

Prompt'unuz küçükse, tasarruf yüzde olarak gerçektir ama mutlak değer olarak önemsizdir. Çağrı başına bir sentin kesirlerine mal olan 500 token'lık bir prompt'u önbelleğe almak için mühendislik zamanı harcamak nadiren geri öder.

Ölçüm Sezgiyi Yener

Hangi prompt'ların iyi önbelleğe alınacağına dair sezgime güvenmeyi bıraktım. Her iş yükü; çağrı türüne göre ayrıştırılmış önbellek okumalarını, önbellek yazmalarını ve önbelleğe alınmamış girdi token'larını gösteren bir pano alıyor. O panonun ilk versiyonu beni iki yönden de şaşırttı: iyi önbelleğe alındığını sandığım iş yükleri alınmıyordu ve fazla dinamik olduğunu düşündüğüm iş yükleri, prompt yerleşimindeki küçük değişikliklerden sonra aslında çok önbelleğe alınabilir çıktı.

Artık izlediğim kural şu: gözlemlenebilirlik (observability) yerine oturmadan yeni bir çağrı yolunda önbelleklemeyi etkinleştirme. Önbellek, uygulama loglarınızda görünmez. Yalnızca yanıt meta verisinde görünür ve onu işe yarar bir yere iletmeniz gerekir.

Birikerek Büyüyen Küçük Desenler

Birkaç yerde işe yarayan bir desen: gerçekten kararlı sistem prompt'unu, istek başına politika geçersiz kılmalarından (override) ayırın. Kararlı kısmı en başa koyun, önbelleğe alın ve dinamik geçersiz kılmaların küçük ve önbelleksiz kalmasına izin verin. Tek başına bu, oturum tabanlı bir ajanı %70 önbelleksiz harcamadan %10'a indirebilir.

Bir başka desen: bir ajanı ayarlarken (tune), sistem prompt'unu konuşmanın ortasında yeniden yazmaktan kaçının. Her yeniden yazma, o yoldaki her kullanıcı için önbelleği yakar. Deney yapmanız gerekiyorsa, canlı olanı düzenlemek yerine yeni prompt'u ayrı bir önbellek satırında gölgeleyin (shadow).

Ne Zaman Başvurmalı

Prompt önbellekleme genel amaçlı bir optimizasyon değildir. İş yüküne özgü bir optimizasyondur. Büyük, kararlı önekleriniz ve önbelleği sıcak tutacak kadar yüksek bir istek hacminiz olduğunda getiri sağlar. Bu iş yükleri için, mevcut en büyük maliyet kolu rahatlıkla budur. Geri kalan her şey için atlayın.

Önbelleği iyi kullanmanın araçları API'de değil. Prompt'unuzun etrafındaki disiplinde: onu kararlı tutmak, şeklini loglamak ve önbelleğin gerçekte ne yaptığını ölçmek. Bunlar yerine oturduğunda, gerisi aritmetiktir.