Optimizing AI Agent Costs: Token Usage and Caching

Practical strategies for reducing AI agent operational costs through token optimization, caching, model routing, and usage monitoring. Real savings from production OpenClaw deployments.

E
ECOSIRE Research and Development Team
|19 Mart 202611 dk okuma2.5k Kelime|

Performance & Scalability serimizin bir parçası

Tam kılavuzu okuyun

Yapay Zeka Aracısı Maliyetlerini Optimize Etme: Jeton Kullanımı ve Önbelleğe Alma

Yapay zeka aracısının operasyonel maliyetleri, şaşırtıcı derecede hızlı bir şekilde yönetilebilir seviyeden endişe verici seviyeye kadar ölçeklenebilir. Günde 10 işlem gerçekleştiren bir temsilci ucuzdur. Her biri geniş bağlam pencereli 3-4 LLM çağrısı gerektiren, günde 5.000 işlem gerçekleştiren aynı aracı, aylık API maliyetlerinde binlerce dolar üretebilir; bu, orijinal yatırım getirisi modelinde olmayan maliyetlerdir.

Üretim ölçeğindeki yapay zeka dağıtımları için maliyet optimizasyonu isteğe bağlı değildir. Bu, pozitif yatırım getirisi sağlayan bir aracı ile onu aşındıran bir aracı arasındaki farktır. Bu kılavuz, tipik OpenClaw dağıtımlarında çıktı kalitesinden ödün vermeden maliyetleri %40-70 oranında azaltan pratik stratejileri kapsar.

Önemli Çıkarımlar

  • Token optimizasyonu (hızlı sıkıştırma, bağlam budama), kalite kaybı olmadan API maliyetlerini %25-40 azaltır
  • Anlamsal önbelleğe alma, tekrarlanan veya benzer istekler için LLM çağrılarını ortadan kaldırarak birçok iş yükünde maliyetleri %30-60 azaltır
  • Model yönlendirme, basit görevler için ucuz modelleri ve yalnızca ihtiyaç duyulduğunda pahalı modelleri kullanır
  • İstemi önbelleğe alma (sağlayıcılardan sağlanabildiğinde), tekrarlanan sistem istemleri için giriş belirteci maliyetlerini azaltır
  • Toplu işleme, yüksek hacimli, zamana duyarlı olmayan iş yükleri için arama başına ek yükü azaltır
  • İş akışı başına ilişkilendirmeyle maliyet izleme, en pahalı aracı davranışlarını tanımlar
  • Akış, toplam maliyeti artırmadan kullanıcıya yönelik aracılar için ilk jetona kadar geçen süreyi azaltır
  • Kapsamlı bir maliyet optimizasyon stratejisi, optimize edilmemiş dağıtımlara kıyasla toplam LLM harcamasını genellikle %45-65 oranında azaltır

Understanding AI Agent Cost Drivers

Maliyetleri optimize etmeden önce onları neyin yönlendirdiğini anlayın. LLM API maliyetleri öncelikle token tüketimine bağlıdır:

Giriş jetonları: Modele gönderilen her jeton paraya mal olur; sistem istemi, kullanıcı mesajı, alınan bağlam (RAG parçaları), konuşma geçmişi ve herhangi bir örnek (birkaç atış). Giriş jetonu maliyetleri, mevcut sınır modelleri için genellikle çıkış jetonu maliyetlerinden 2-5 kat daha düşüktür.

Çıktı jetonları: Modelin yanıtında oluşturduğu jetonlar. Verbose outputs cost more. Akıl yürütme adımları (düşünce zinciri) doğrudan yanıtlardan daha maliyetlidir. JSON'da çok sayıda alan varsa, yapılandırılmış JSON çıktıları düz yazıya göre daha pahalıdır.

Çağrı hacmi: Her LLM çağrısının bir minimum maliyeti vardır. Görev başına 5 LLM çağrısı yapan çok adımlı temsilciler, tek çağrılı temsilcilere göre 5 kat daha fazla maliyete sahiptir ancak çok daha iyi sonuçlar verebilir. The key is eliminating unnecessary calls.

Model seçimi: Modeller arasındaki maliyet farkı çok büyüktür. Claude 3 Haiku'nun token başına maliyeti Claude 3 Opus'tan ~50 kat daha azdır. GPT-4o costs ~15x more than GPT-4o mini. Her görev için bir sınır modelinin kullanılması, gereksiz maliyetlerin en yaygın kaynağıdır.

A realistic cost scenario:

Temsilci günde 1.000 müşteri hizmetleri bildirimini işliyor. Her bilet şunları gerektirir:

  • System prompt: 800 tokens
  • Alınan içerik: 1.200 jeton
  • Bilet içeriği: 400 jeton
  • Toplam girdi: 2.400 jeton
  • Yanıt: 600 jeton

Claude 3.5 Sonnet'i kullanma (3$/milyon giriş, 15$/milyon çıkış):

  • Günlük maliyet: 1.000 × [(2.400 × 3 ABD Doları/milyon) + (600 × 15 ABD doları/milyon)] = 16,20 ABD doları/gün = 486 ABD doları/ay

Optimizasyonla (bu kılavuzda gösterilmektedir) bu, ayda 150-200 ABD Doları'na düşer; yani %60'lık bir azalma.


Hızlı Sıkıştırma ve Token Azaltma

Sistem İstemi Optimizasyonu

Sistem istemleri her istekle birlikte gönderilir. Bilgi kaybı olmadan 800 jetona sıkıştırılabilen 2.000 jetonluk şişirilmiş bir sistem istemi, giriş jetonlarına gerekenden 2,5 kat daha fazla ödeme yapıyor.

Teknikler:

Yedekliği kaldırın: Birden fazla yerde yeniden belirtilen bilgiler için sisteminizin istemlerini inceleyin. Birleştirin.

Sıkıştırılmış dil kullanın: Konuşmaya dayalı giriş bölümünden kaçının. Karşılaştırın:

Verbose (47 jeton): "Sözleşmeleri inceleme konusunda yetenekli, yardımsever bir asistansınız. İşiniz sözleşmeyi dikkatlice okumak ve şirketimiz için risk teşkil edebilecek maddeleri belirlemektir."

Sıkıştırılmış (23 jeton): "Siz bir sözleşme risk analistisiniz. Müşteri şirketi için riski temsil eden maddeleri belirleyin."

Sıkıştırılmış versiyon aynı talimatları taşır. Yüksek Lisans'lar kelime sayısına değil anlamsal içeriğe yanıt verir.

Yapılandırılmış biçimlendirme kullanın: Numaralandırılmış listeler ve madde işaretleri, bilgileri paragraflardan daha yoğun bir şekilde iletir.

Birkaç atış kullanırken örnekleri sistem isteminden kaldırın: Hem sistem isteminde hem de kullanıcı mesajında ​​örnekleriniz varsa, bunlar için iki kat ödeme yapmış olursunuz. Tek bir yerde birleştirin.

Sistem istem uzunluğunu düzenli olarak denetleyin: Ekipler zaman içinde güncel olmayanları kaldırmadan talimatlar ekledikçe sistem istemleri artma eğilimindedir. Üç ayda bir yapılan incelemede genellikle sistem istemi içeriğinin %20-30'unun kaldırılabileceği veya sıkıştırılabileceği tespit edilir.

Bağlam Penceresi Yönetimi

RAG (Geri Alma Artırılmış Nesil) alımları, bilgi yoğun aracılar için en büyük maliyet etkenlerinden biridir. Alınan her parça giriş jetonlarıdır. Optimize edilmemiş RAG sıklıkla ihtiyaç duyulandan daha fazla bağlam alır.

Parça boyutu optimizasyonu: Daha yüksek miktarlarda alınan daha küçük parçalar (256-512 jeton), gerçekçi soru yanıtlama açısından genellikle büyük parçalardan (1.000'den fazla jeton) daha iyi performans gösterir. Daha küçük parçalar da daha ucuzdur çünkü büyük bir parça içindeki ilgisiz pasajlar alınamaz.

Alma sayısını ayarlama: Temsilciniz sorgu başına 10 parça alıyor ancak tutarlı bir şekilde yalnızca ilk 2-3'teki bilgileri kullanıyorsa, alma sayısını azaltın. Aracı çıktılarında gerçekte hangi parçalara başvurulduğunu izleyin.

İlgililik filtreleme: Bir alaka düzeyi puanı eşiği uygulayın; yalnızca bağlamda eşiğin üzerinde alınan parçaları dahil edin. Alaka düzeyi düşük olan parçalar, kaliteyi artırmadan maliyeti artırır.

Konuşma geçmişini budama: Çok turlu temsilciler için, konuşma geçmişi her turda büyür. Daha eski dönüşler genellikle daha az alakalıdır. Bir özetleme stratejisi uygulayın: 8-10 dönüşten sonra, adım adım geçmişin tamamını saklamak yerine, ilk konuşmayı sıkıştırılmış bir özet halinde (200-300 jeton) özetleyin.

def manage_conversation_history(messages: list, max_tokens: int = 2000) -> list:
    """Prune conversation history to stay within token budget"""
    # Always keep system message and last N user/assistant turns
    if count_tokens(messages) <= max_tokens:
        return messages

    # Summarize early conversation if too long
    early_messages = messages[1:-6]  # Exclude system + recent 3 turns
    summary = summarize_conversation(early_messages)

    return [
        messages[0],  # System message
        {"role": "user", "content": f"[Earlier conversation summary: {summary}]"},
        *messages[-6:]  # Recent 3 turns
    ]

Anlamsal Önbelleğe Alma

Anlamsal önbelleğe alma, tekrarlanan sorguları işleyen aracılar için en yüksek etkili maliyet optimizasyonudur. LLM çağrılarının sonucunu saklar ve aynı olmasa bile semantik olarak benzer sonraki istekler için önbelleğe alınmış sonuçları döndürür.

Anlamsal Önbelleğe Alma Nasıl Çalışır?

  1. Bir LLM çağrısı yapıldığında giriş için bir yerleştirme vektörü hesaplayın (istem + bağlam)
  2. Geçerli girişe yüksek vektör benzerliğine sahip kayıtlı sonuçlar için önbellekte arama yapın
  3. Benzerlik eşiği aşarsa önbelleğe alınan sonucu döndürün (LLM çağrısı yok)
  4. Değilse, LLM çağrısını yapın ve sonucu katıştırılmış haliyle saklayın

Kritik içgörü: Gerçek dünyadaki birçok istek, metinsel olarak aynı olmasa bile anlamsal olarak benzerdir. "Son 30 gün içinde verilen siparişlerin iade politikası nedir?" ve "3 hafta önce sipariş ettiğim bir şeyi iade edebilir miyim?" farklı kelimeler ama aynı soru; anlamsal önbellekleme, birincinin önbelleğinden ikinciye hizmet edebilir.

Aracı Türüne Göre Önbellek İsabet Oranı

Temsilci TürüBeklenen Önbellek İsabet OranıGerekçe
SSS / müşteri desteği%50-75Sık sorulan sorular sıklıkla tekrarlanıyor
Veri arama (ürün bilgisi, fiyatlandırma)%40-65Aynı ürünler tekrar tekrar sorgulandı
Belge sınıflandırması%30-50Benzer belge türleri tekrar tekrar görünüyor
Rapor anlatımı oluşturma%20-40Eğilimler dönemler arasında benzerdir
Özel iş akışı düzenlemesi%5-15Her vaka son derece benzersizdir
Veri analizi%10-25Sorular çeşitlidir ancak bazıları tekrarlanır

Önbellek isabet oranı %65 olan müşteri destek temsilcileri için anlamsal önbelleğe alma, LLM çağrı hacmini ve dolayısıyla LLM maliyetini %65 oranında azaltır.

Önbellek Yapılandırması

Benzerlik eşiği: Önbelleğin yeniden kullanılması için iki isteğin "yeterince benzer" olduğunu bildirme eşiği. Daha yüksek eşik = daha az önbellek isabeti ancak daha yüksek doğruluk. Daha düşük eşik = daha fazla önbellek isabeti ancak farklı istekler için çok yanlış yanıtlar döndürme riski.

Gerçek sorgular için 0,92-0,95'lik bir benzerlik eşiği genellikle güvenlidir. Analitik veya muhakeme görevlerinde, çok farklı sorular için yanlış analiz döndürmekten kaçınmak amacıyla daha yüksek bir eşik (0,97+) kullanın.

Önbellek TTL'si: Farklı önbellek girişi türlerinin farklı son kullanma tarihleri olmalıdır:

  • Ürün fiyatlandırması: 1-4 saat (fiyatlar değişir)
  • Politika bilgileri: 24-48 saat (politikalar nadiren değişir)
  • Genel bilgi: 7 gün (çok kararlı bilgi)
  • Oluşturulan raporlar: Temel veriler değişene kadar önbelleğe alın (olayla tetiklenen geçersiz kılma)

Önbellek kapsamı: Önbelleğin kullanıcı başına mı, kuruluş başına mı yoksa genel mi olacağını yapılandırın. Müşteri destek temsilcilerinin kuruluş kapsamlı önbellekleri olmalıdır (kuruluşunuz için uygun olan bir yanıt, bir başkası için uygun olmayabilir). Genel bilgi aracıları genel bir önbelleği paylaşabilir.


Model Yönlendirme ve Kademeli Yüksek Lisans Seçimi

Her görev bir sınır modeli gerektirmez. GPT-4o mini'nin doğru şekilde yerine getirdiği basit bir sınıflandırma görevi için GPT-4o veya Claude 3.5 Sonnet'i kullanmak, gerekenden 15-50 kat daha fazla para ödüyor.

Yönlendirme Stratejisi

Görev karmaşıklığı sınıflandırması: Gelen her isteği karmaşıklığa göre kategorilere ayıran hafif bir sınıflandırıcı uygulayın:

  • Basit: Arama, birkaç kategoriyle sınıflandırma, anlaşılır şablonla kısa oluşturma
  • Orta: Çok adımlı akıl yürütme, karmaşık belgelerden çıkarma, koşullu mantık
  • Karmaşık: Açık uçlu analiz, yaratıcı sentez, incelikli muhakeme

Model ataması:

  • Basit → GPT-4o mini, Claude 3 Haiku (maliyet: ~0,15-0,30$/milyon token)
  • Orta → Claude 3.5 Sonnet, GPT-4o (maliyet: ~3-5$/milyon token)
  • Karmaşık → Claude 3.5 Sonnet, GPT-4o (veya derin muhakeme görevleri için o1) (maliyet: 5-15$/milyon token)

Geri dönüş yönlendirme: Daha ucuz model, kalite eşiğinin altında çıktı üretiyorsa (otomatik değerlendirme tarafından tespit edilir), daha pahalı modeli yeniden deneyin. Bu "kademeli" yaklaşım, ucuz modelleri iyimser bir şekilde kullanır ve yalnızca ihtiyaç duyulduğunda yükselir.

def route_to_model(task: AgentTask) -> str:
    complexity = classify_task_complexity(task)

    model_map = {
        "simple": "claude-haiku-3",
        "moderate": "claude-3-5-sonnet",
        "complex": "claude-3-5-sonnet"
    }
    return model_map[complexity]

def execute_with_fallback(task: AgentTask):
    primary_model = route_to_model(task)
    result = execute_with_model(task, primary_model)

    if not meets_quality_threshold(result):
        # Escalate to more capable model
        result = execute_with_model(task, "claude-3-5-sonnet")

    return result

Model yönlendirmeden gerçekçi tasarruflar: Karışık iş yüküne sahip bir aracı filosunda, görevlerin %60-70'i genellikle "basit" olarak nitelendirilir. Bunları ucuz modellere yönlendirmek, söz konusu segmentte %50-70 oranında maliyet düşüşü sağlar ve bu da genel maliyette %30-50 oranında azalma anlamına gelir.


İstemi Önbelleğe Alma (Sağlayıcı Düzeyinde)

Anthropic ve OpenAI, tekrarlanan sistem istemlerinin maliyetini azaltan hızlı önbellekleme özellikleri sunar. Sistem istemi (veya istemin herhangi bir öneki) birden fazla istekte aynı olduğunda, önbelleğe alınan belirteçlerin maliyeti, yeni belirteçlerden önemli ölçüde daha azdır.

Antropik önbellek fiyatlandırması: Önbelleğe alınan giriş jetonlarının maliyeti standart giriş jetonu fiyatının ~%10'udur (Sonnet için 0,30 ABD Doları/Milyon karşısında 3 ABD Doları/Milyon). Önbellek yazma maliyeti 3,75 USD/milyondur (bir kez yazılır, ardından 0,30 USD/milyon olarak okunur).

Etkili strateji: Yapı, kararlı kısmın (sistem istemi, örnekler, talimatlar) önce ve değişken kısmın (kullanıcı girişi, alınan bağlam) en sonda olmasını sağlayacak şekilde komut verir. Sağlayıcı, kararlı öneki otomatik olarak önbelleğe alır.

Başabaş hesaplaması: Önbellek yazma maliyeti standart giriş jetonu fiyatının 1,25 katıdır; önbellek okuma maliyeti 0,1x. Başabaş, öneki paylaşan 2 istekte gerçekleşir. İkincinin ötesindeki her istek, önbelleğe alınan kısım için %90 daha ucuzdur.

Günde 1.000 istek çalıştıran 1.000 jetonlu sistem istemine sahip bir aracı için:

  • Önbelleğe alma olmadan: 1.000 × 1.000 jeton × 3 ABD Doları/M = yalnızca sistem istemi için 3 ABD Doları/gün giriş maliyeti
  • Önbelleğe alma ile: 3,75 USD (bir yazma) + 999 × 1.000 × 0,30 USD/M = 0,30 USD/gün
  • Günlük tasarruf: 2,70 ABD doları (bu bileşende %90 indirim)

Toplu İşleme

Zamana duyarlı olmayan iş yükleri için (gecelik rapor oluşturma, toplu belge işleme, planlanmış veri analizi), toplu API çağrıları önemli maliyet düşüşleri sunar.

OpenAI Batch API: 24 saatlik tamamlanma pencereleriyle toplu olarak gönderilen isteklerde %50 maliyet düşüşü. Gecelik rapor oluşturma için bu tek başına LLM API maliyetini yarıya indirir.

Antropik Mesaj Grupları: Zamana duyarlı olmayan iş yükleri için benzer toplu fiyatlandırma.

Toplu planlama modelleri:

  • Gün içerisinde rapor oluşturma taleplerini toplayın, iş sonunda toplu olarak gönderin
  • Toplu işler olarak yoğun olmayan saatlerde RAG için belge alımını işleyin
  • Uyumluluk izleme taramalarını her gece toplu olarak çalıştırın

Maliyet İzleme ve İlişkilendirme

Optimizasyon, maliyetlerin nereden geldiğini bilmeyi gerektirir. Üretimin ilk gününden itibaren maliyet izlemeyi uygulayın:

İş akışı başına maliyet takibi: Her LLM çağrısını ait olduğu iş akışıyla etiketleyin. Günlük iş akışı başına toplam maliyeti hesaplayın. Bu, hangi aracı davranışlarının en pahalı olduğunu ortaya çıkarır ve optimizasyon çalışmalarına öncelik verir.

Belirteç başına ilişkilendirme: Maliyetleri girdi ve çıktı belirteçlerine, bilgi istemi bileşenine (sistem istemi, bağlam ve kullanıcı girişi) ve modele göre ayırın. Bu ayrıntı düzeyinde maliyet ilişkilendirme, hedeflenen optimizasyona olanak tanır.

Maliyet anormalliği tespiti: Günlük maliyetler, hareketli 7 günlük ortalamanın %20'den fazla üzerine çıktığında uyarı verir. Ani artışlar ya meşru hacim artışlarını (beklenen) ya da hataları (sonsuz döngüler, kontrolden çıkan içerik pencereleri, alışılmadık derecede uzun tamamlamalara neden olan hızlı enjeksiyon) gösterir.

Başarılı görev başına maliyet: Değer birimi başına maliyeti bulmak için toplam maliyetleri başarılı görev tamamlama sayısına bölün. Yatırım getirisi için önemli olan ölçüm budur; görev hacmi ve kalitesi korunurken görev başına maliyet düşerse optimizasyon çalışıyor demektir.


Sıkça Sorulan Sorular

Maliyet optimizasyonu LLM API maliyetlerini gerçekçi bir şekilde ne kadar azaltabilir?

Tipik OpenClaw dağıtımlarında, hızlı sıkıştırma, anlamsal önbelleğe alma ve model yönlendirmeyi ele alan sistematik bir optimizasyon çalışması, optimize edilmemiş dağıtımlara kıyasla %45-65 oranında maliyet tasarrufu sağlar. Spesifik tasarruflar büyük ölçüde iş yükü özelliklerine bağlıdır; yüksek oranda tekrarlanan sorgulara sahip aracılar, önbelleğe alma işleminden en fazla yararlanır; çeşitli, benzersiz sorgulara sahip aracılar, model yönlendirmeden daha fazla yararlanır.

Anlamsal önbelleğe alma yanıt doğruluğunu tehlikeye atar mı?

Uygun eşik yapılandırmasıyla doğruluk etkisi ihmal edilebilir düzeydedir; genellikle gerçek görevlerde %0,5'ten daha az bozulma olur. Önemli olan, benzerlik eşiğini görev türüne uygun şekilde ayarlamaktır. Sorudaki ince farklılıkların farklı doğru yanıtlara yol açtığı görevlerde, önbellekten yalnızca gerçekten eşdeğer sorguların sunulmasını sağlamak için daha yüksek benzerlik eşikleri (0,96+) kullanın.

Anlamsal önbelleğe almanın gecikme etkisi nedir?

Önbellek aramaları (vektör benzerlik araması) 5-15 ms gecikme ekler. Önbellek isabetleri LLM çağrı gecikmesini ortadan kaldırır (genellikle 500 ms-3s). Net sonuç: önbelleğe alınan yanıtlar, önbelleğe alınmayan yanıtlardan 20-200 kat daha hızlıdır. Bu gecikmede bir iyileşmedir, bir bozulma değil.

Önemli bir mühendislik çabası olmadan maliyet izlemeyi nasıl uygularız?

OpenClaw'ın gözlemlenebilirlik katmanı, her yürütme için jeton sayımlarını ve model seçimlerini otomatik olarak yakalar. ECOSIRE, uygulama sırasında maliyetleri iş akışına, modele ve zaman dilimine göre gösteren bir maliyet kontrol paneli yapılandırır. Özel bir mühendisliğe gerek yoktur; izleme altyapısı standart uygulamanın bir parçasıdır.

Maliyet optimizasyonu önlemleri hangi ölçekte faydalı hale gelir?

Çoğu optimizasyon önlemi, LLM API maliyetlerinde ayda 500 ABD dolarının üzerinde değerli hale gelir. Bu eşiğin altında mühendislik çabası genellikle tasarrufları aşar. Aylık 2.000 ABD dolarının üzerinde sistematik optimizasyon şiddetle tavsiye edilir; optimizasyona harcanan mühendislik süresinden elde edilen yatırım getirisi bu ölçekte çok yüksektir.

Daha ucuz modellere geçiş, temsilci çıktılarının kalitesinden ödün verir mi?

Daha ucuz modellerin gerçekten eşdeğer kalite sağladığı görevler için bunlara geçmek tamamen tasarruftur. Derin akıl yürütme, incelikli muhakeme veya karmaşık sentez gerektiren görevler için, daha ucuz modeller gözle görülür derecede daha kötü çıktılar üretir. Model yönlendirme modeli, daha ucuz modelleri yalnızca uygun olduklarında kullanarak ve bunları gerektiren görevler için premium modellere yönlendirerek bu sorunu giderir. Anahtar deneysel doğrulamadır; üretim trafiğini ona yönlendirmeden önce daha ucuz modeli özel görevinizde test edin.


Sonraki Adımlar

Yapay zeka aracıları için maliyet optimizasyonu tek seferlik bir proje değil, devam eden bir disiplindir. ECOSIRE'ın OpenClaw uygulamaları, ilk günden itibaren bir maliyet optimizasyon katmanı içerir; anlamsal önbelleğe alma, model yönlendirme ve hızlı optimizasyon, sonradan akla gelen bir fikir olarak eklenmek yerine dağıtım mimarisine yerleştirilmiştir.

Maliyet optimizasyonu gereksinimlerinizi görüşmek için ECOSIRE OpenClaw Hizmetlerini keşfedin veya ECOSIRE'nin üretim OpenClaw dağıtımları için devam eden maliyet verimliliğini nasıl yönettiğini anlamak için bakım ve optimizasyon tutucu seçeneklerimizi inceleyin.

E

Yazan

ECOSIRE Research and Development Team

ECOSIRE'da kurumsal düzeyde dijital ürünler geliştiriyor. Odoo entegrasyonları, e-ticaret otomasyonu ve yapay zeka destekli iş çözümleri hakkında içgörüler paylaşıyor.

WhatsApp'ta Sohbet Et