Performance & Scalability serimizin bir parçası
Tam kılavuzu okuyunÜretimde Yapay Zeka Aracılarını Test Etme ve İzleme
Bir yapay zeka aracısını üretime dağıtmak uygulamanın sonu değildir; geleneksel yazılımlarda bulunmayan operasyonel disiplinin başlangıcıdır. Geleneksel uygulamalar deterministik olarak başarısız olur: aynı girdi verildiğinde aynı (yanlış) çıktıyı alırsınız. Yapay zeka aracıları olasılıksal olarak başarısız oluyor: Aynı girdi, zamanın %97'sinde doğru çıktıyı ve %3'ünde hafif yanlış çıktıyı üretiyor ve modeller güncellendikçe, girdi dağıtımları değiştikçe ve iş kuralları geliştikçe bu %3 değişiyor.
Bu kılavuz, OpenClaw uygulamalarına yönelik belirli modellerle birlikte AI aracılarının dağıtımdan önce test edilmesine ve üretimde sürekli olarak izlenmesine yönelik operasyonel çerçevenin tamamını kapsar.
Önemli Çıkarımlar
- Yapay zeka aracı testi, hem işlevsel testleri (doğru çıktı) hem de davranışsal testleri (tutarlı muhakeme) gerektirir
- Modeller güncellendiğinde regresyon testi kritik öneme sahiptir; aksi kanıtlanana kadar davranışın değişeceğini varsayın
- Üretim izleme yalnızca kullanılabilirlik ve gecikmeyi değil doğruluk ölçümlerini de izlemelidir
- Token kullanımı ve maliyet izleme, beklenmedik fatura artışlarını önler
- Aracı çıktılarındaki anormallik tespiti, iş sonuçlarını etkilemeden önce doğruluk bozulmasını yakalar
- İnsan incelemesi örneklemesi, otomatik izlemenin kalibre edilmesi için temel gerçekleri sağlar
- Yapay zeka temsilcilerine yönelik olay müdahale taktik kitapları, geleneksel yazılım olaylarından temel olarak farklıdır
- A/B testi çerçevesi, hızlı değişikliklerin ve model yükseltmelerinin güvenli bir şekilde değerlendirilmesine olanak tanır
Yapay Zeka Aracısı Testi Neden Farklıdır
Yapay zeka aracılarını test etmek, geleneksel yazılımı test etmekten temelde farklı bir zihniyet gerektirir. Geleneksel yazılım testinde test senaryoları yazarsınız, girdiler sağlarsınız ve çıktıları beklenen değerlere göre doğrularsınız. Test tutarlı bir şekilde geçerse yazılım doğrudur.
Yapay zeka ajanları bu şekilde çalışmaz. Çıktıları olasılıksaldır; doğru, biraz hatalı veya tamamen yanlış olabilirler ve sonuçların olasılık dağılımı model versiyonuna, sağlanan bağlama ve girdilerin spesifik ifadelerine bağlıdır. Üç zorluk geleneksel testleri yetersiz kılmaktadır:
Determinizmsizlik: Aynı istemin iki kez çalıştırılması farklı çıktılar üretebilir. Testler, çıktı kalitesini tam eşitliği değil, bir aralık dahilinde değerlendirmelidir.
Model sürümü hassasiyeti: Yüksek Lisans sağlayıcınız yeni bir model sürümü yayınladığında temsilcinizin davranışı hemen belli olmayan şekillerde değişebilir. Görevinizde %94 doğruluğa sahip bir model, %96'ya yükselebilir veya %91'e düşebilir; bunu tespit edecek mekanizmalara ihtiyacınız vardır.
Bağlam bağımlılığı: Temsilci davranışı büyük ölçüde sağlanan bağlama (alınan belgeler, konuşma geçmişi, sistem talimatları) bağlıdır. Bağlam derlemesindeki küçük değişiklikler çıktı kalitesini önemli ölçüde etkileyebilir.
Üretim Öncesi Test Çerçevesi
Beceriler için Birim Testleri
Her OpenClaw Becerisinin, davranışını temsili bir girdi örneğiyle doğrulayan bir test paketi bulunmalıdır. Bu testler standart iddia-eşitlik testleri değildir; çıktı kalitesini puanlayan bir değerlendirme çerçevesi kullanırlar.
Sözleşme incelemesi için test yapısı Beceri:
class ContractReviewSkillTests:
def test_identifies_indemnification_clause(self):
# Provide sample contract containing indemnification clause
# Assert: clause is identified, page number is correct
# Assert: risk level is "high" for unlimited indemnification
# Assert: recommended action is present
def test_handles_missing_clause(self):
# Provide contract without limitation of liability clause
# Assert: missing clause is flagged
# Assert: recommended action is to add clause
def test_handles_unusual_clause_language(self):
# Provide contract with atypical but valid indemnification language
# Assert: clause is still identified (recall test)
# Assert: unusual language is flagged for review
Her test için değerlendirme kriterleri:
- Hatırlayın (temsilci orada olanı buldu mu?)
- Hassasiyet (temsilci yalnızca ilgili öğeleri işaretledi mi?)
- Risk değerlendirmesinin doğruluğu (risk düzeyi uygun mu?)
- Önerilen eylemlerin eksiksizliği
- Çıkış formatı uyumluluğu (zorunlu alanlar mevcut, doğru yapı)
Altın Veri Kümesi Testi
İnsanlar tarafından doğrulanmış beklenen çıktılarla 50-200 temsili girdiden oluşan altın bir veri kümesini koruyun. Her üretim dağıtımından önce aracıyı bu veri kümesine ve hesaplama doğruluğu ölçümlerine göre çalıştırın. Eşiğinizin altında doğruluk oranına sahip dağıtımlar engellenir.
Altın veri kümesi yapısı:
- Üretim trafiğinden 200 gerçek girdi toplayın (gerekirse anonimleştirilir)
- Alan uzmanlarının her biri için doğru çıktıları incelemesini ve açıklama eklemesini sağlayın.
- Uç durumları, olağandışı girdileri ve yaygın hata modellerini kapsayacak şekilde veri kümesini katmanlandırın
- Altın veri kümesine göre temel doğruluk ölçümleri oluşturun
- Taban çizgisinin altındaki herhangi bir gerilemeyi dağıtım engelleyici olarak değerlendirin
Altın veri kümesi için otomatik değerlendirme: Değerlendirici olarak bir LLM'yi işe alın veya eğitin; aracının çıktısını ve insan tarafından doğrulanmış beklenen çıktıyı alan ve bir benzerlik/doğruluk puanı üreten ayrı bir LLM çağrısı. Bu "yargıç olarak yüksek lisans" modelidir. Sınırdaki vakaların insan tarafından incelenmesiyle birleştirildiğinde, altın veri kümesi değerlendirmesini sık çalıştırmalara ölçeklendirir.
Entegrasyon Testleri
Entegrasyonlar da dahil olmak üzere tüm sistem genelinde aracı davranışını uçtan uca test edin:
Entegrasyon test senaryoları:
- Aracı ERP'den okur, verileri işler, geri yazar; veri bütünlüğünü doğrular
- Temsilci harici API'yi çağırır, başarı ve başarısızlık yanıtlarını yönetir
- Temsilci, çok aracılı bir iş akışında başka bir aracıyla koordinasyon sağlar
- Temsilci zaman aşımlarını, hız sınırlarını ve API'nin kullanılamama durumunu incelikle ele alır
- Aracı, aşağı yöndeki iş süreçlerini doğru şekilde tetikleyen çıktılar üretir
Simüle edilmiş arıza testi:
- Harici API çağrılarına zaman aşımı hatalarını ekleme
- Yanlış biçimlendirilmiş veya eksik verileri sağlayın
- Model sağlayıcının kullanılamazlığını simüle edin
- Aracı görevi tamamlayamadığında zarif bozulmayı test edin
Üretim İzleme Mimarisi
Yapay Zeka Aracısı İzlemenin Dört Temeli
Sütun 1: Operasyonel sağlık (standart yazılım izleme)
- Çalışma süresi ve kullanılabilirlik
- Yürütme başına gecikme (P50, P95, P99)
- Hata oranı (aracı çökmeleri, işlenmeyen istisnalar, API hataları)
- Kuyruk derinliği ve verim
- Kaynak kullanımı (CPU, bellek, API eşzamanlılığı)
2. Sütun: Çıktı kalitesi (Yapay zekaya özgü izleme)
- Örneklenmiş çıktılardaki doğruluk oranı (insan veya LLM tarafından değerlendirilen)
- Halüsinasyon tespiti (sağlanan bağlamda olmayan bilgileri içeren çıktılar)
- Format uyumluluk oranı (gerekli yapıyı karşılayan çıktılar)
- Güven puanı dağılımı (aniden daha düşük güven sinyali bozulması ifade eden aracılar)
- Görev tamamlanma oranı (aracı başarıyla tam bir çıktı üretir, ancak bir hata veya eksik yanıt döndürür)
Sütun 3: İş etkisi (sonuç izleme)
- Aşağı yöndeki eylemin başarı oranı (siparişlerin başarıyla verilmesi, onayların doğru şekilde yönlendirilmesi vb.)
- İnsan geçersiz kılma oranı (insanların, aracının kararlarını ne sıklıkla geçersiz kıldığı)
- Müşteriyle yüzleşen temsilciler için müşteri memnuniyeti (CSAT, NPS)
- İstisna oranı (girdiler gerçek kişi tarafından yapılan incelemeye iletildi)
- Süreç döngü süresi (uçtan uca görev tamamlama süresi)
4. Sütun: Maliyet (token ve API maliyet izleme)
- Yürütme başına jeton tüketimi (giriş + çıkış)
- Başarılı görev tamamlama başına maliyet
- Anormal jeton kullanımı (ortalama sinyal istemi enjeksiyonundan veya içerik kirliliğinden önemli ölçüde daha fazla jeton tüketen yürütmeler)
- Günlük/haftalık maliyet eğilimi ve tahmin
Gözlemlenebilirlik Uygulaması
OpenClaw yerleşik yürütme takibi sağlar. Her aracı çalıştırması aşağıdakileri içeren yapılandırılmış bir izleme üretir:
- Yürütme kimliği ve zaman damgası
- Giriş verileri (PII düzenlemesi uygulanmış halde)
- Bağlam alındı (RAG parçaları, önceki konuşma dönüşleri)
- LLM'ye tam istem gönderildi
- LLM yanıtı
- İşlem sonrası adımlar
- Nihai çıktı
- Jeton sayıları ve maliyeti
- Toplam yürütme süresi
- İstisnalar veya üst kademelere iletmeler
Bu izleme verileri, bir aracı yanlış bir çıktı ürettiğinde, geçici hata ayıklamaya olanak tanır. Tam yürütmeyi tekrar oynatabilir ve her adımı görebilirsiniz.
İz örnekleme stratejisi:
- Yüksek değerli işlemlerin %100'ünü örnekleyin (> X $ parasal etki)
- İstisnaların ve üst kademelere iletmenin %100'ünü örnekleyin
- Kalite izleme için rutin işlemlerin %5-10'unu örnekleyin
- Sorun bildiren müşteriler için çıktıların %100'ünü örnekleyin
Kontrol Paneli Tasarımı
Etkili AI aracı izleme kontrol panelleri, geleneksel uygulama kontrol panellerinden farklı bilgiler iletir. Anahtar paneller:
Gerçek zamanlı operasyon paneli:
- Aktif infazlar
- Kuyruk derinliği
- Yürütme oranı (son 5 dakikaya kıyasla temel değer)
- Hata oranı (son 5 dakika)
- P95 gecikmesi
Kalite trend paneli (24 saatlik görünüm):
- Doğruluk oranı eğilimi (örneklenmiş değerlendirmeden)
- İnsan geçersiz kılma oranı eğilimi
- İstisna/yükselme oranı eğilimi
- Güven puanı dağılımı
Maliyet paneli:
- Bugünün token tüketimi ve tahmin karşılaştırması
- Başarılı görev başına maliyet (trend)
- Anormal yürütmeler (aykırı jeton tüketimi)
- Haftalık maliyet projeksiyonu
İş sonuçları paneli:
- İş akışı türüne göre görev tamamlama oranı
- Aşağı yöndeki başarı oranı
- Müşteri memnuniyeti (eğer ölçülürse)
- İşlenen hacim (önceki dönemle karşılaştırmalı olarak)
Sürüklenme Algılama
Yapay zeka aracısının en sinsi hata modlarından biri kademeli kaymadır; girdilerin dağıtımı eğitim dağıtımından uzaklaştıkça veya model sağlayıcı tarafından güncellendiğinde aracının performansı zaman içinde yavaş yavaş düşer.
Giriş Dağıtımı İzleme
Giriş verilerinin zaman içindeki dağılımına ilişkin istatistikleri izleyin. Önemli değişikliklere ilişkin uyarı:
- Kelime dağarcığı kayması (eğitim verilerinde olmayan yeni terimlerin ortaya çıkması)
- Giriş uzunluğu dağılımı değişiklikleri (alışılmadık derecede uzun veya kısa girişler)
- Girişlerdeki dil veya format değişiklikleri
- Belge işleme hatlarında görünen yeni belge türleri
Model Versiyon Değişikliği Tespiti
LLM sağlayıcıları modellerini sürekli olarak günceller. Bazı güncellemeler sessizdir (aynı model tanımlayıcı, farklı ağırlıklar). Şunun için izleyin:
- Yanıt uzunluğu dağılımı değişiklikleri
- Format uyumluluk oranı değişiklikleri
- Gecikme profili değişiklikleri
- Güven puanı dağılımı değişiklikleri
Bu ölçümlerden herhangi biri önemli ölçüde değiştiğinde, doğruluk etkisini ölçmek için altın veri kümesi değerlendirmesini hemen çalıştırın.
Konsept Drift
İş kuralları ve alan bilgisi zamanla değişir. 2024 fiyatlandırma kurallarını uygulamak üzere eğitilmiş bir temsilci, 2025 fiyatlandırma kuralları yürürlüğe girdiğinde hatalı çıktılar üretecektir. Monitör:
- Neden koduna göre insan geçersiz kılma oranı (belirli bir nedenden dolayı geçersiz kılmaların artması, o alandaki kavram sapmasını gösterir)
- Hata türü dağılımı değişiklikleri
- İstisna yükseltme nedenleri
Yapay Zeka Temsilcileri için Olay Müdahalesi
Yapay zeka aracısı olayları, geleneksel yazılım olaylarından farklıdır. Başarısızlık genellikle bir kaza değildir; iş sonuçlarını hafifçe etkileyen, çıktı kalitesindeki bir bozulmadır.
Olayın ciddiyet düzeyleri:
| Seviye | Tanımı | Yanıt Süresi | Eylem |
|---|---|---|---|
| P1 | Ajanın mali veya güvenlik kararlarını etkileyen sistematik olarak yanlış çıktılar üretmesi | Hemen | Aracıyı devre dışı bırakın, manuel geri dönüş |
| P2 | Doğruluk temel değerin >%10 altına düştü | 30 dakika | Uyarı, temel nedeni değerlendirin, devre dışı bırakmayı düşünün |
| P3 | İstisna oranı yükseldi, kalite sınırda | 2 saat | Araştırın, yakından izleyin |
| P4 | Performans düştü ancak kabul edilebilir eşik dahilinde | Sonraki iş günü | Sonraki yineleme döngüsü için oturum açın |
P1 Olay Müdahalesi Başucu Kitabı:
- Algılama: İzleme sisteminden gelen otomatik uyarı tetikleyicileri
- Değerlendirin (5 dakika): Son uygulamaları inceleyin, hata modelini belirleyin
- İçerme (10 dakika): Manuel geri dönüş sürecine geçin, gerekirse aracıyı devre dışı bırakın
- Teşhis (30-60 dakika): Temel nedeni belirleyin (model değişikliği, girdi dağılımı değişikliği, istem gerilemesi, entegrasyon hatası)
- Düzelt: Düzeltmeyi uygula (istem güncellemesi, modeli geri alma, giriş doğrulama değişikliği, entegrasyon düzeltmesi)
- Doğrulama: Sabit aracıya karşı altın veri kümesi değerlendirmesini çalıştırın
- Geri Yükleme: Yükseltilmiş uyarı durumunda izleme ile aracıyı yeniden etkinleştirin
- Opsi sonrası: 48 saat içinde belgeleyin — neyin başarısız olduğunu, nedenini, tekrarının nasıl önleneceğini
Temsilci İyileştirmeleri için A/B Testi
Yapay zeka aracılarının iyileştirilmesi, tam dağıtımdan önce değişikliklerin güvenli bir şekilde değerlendirilmesini gerektirir. A/B testi şunları sağlar:
Gölge modu testi: Yeni aracı sürümünü, çıktılarını kullanmadan üretim trafiğinde çalıştırın; müşterileri etkilemeden önce farkı ölçmek için gölge çıktılarını mevcut aracı çıktılarıyla karşılaştırın.
Canary dağıtımı: Üretim trafiğinin %5-10'unu yeni aracı sürümüne yönlendirin. Kanarya popülasyonu ile kontrol popülasyonu arasındaki kalite ölçümlerini izleyin. Metrikler iyileşirse veya sabit kalırsa ileri doğru alın, kötüleşirse geri alın.
Şampiyon/meydan okuyan: Mevcut yapım temsilcisi "şampiyon"dur. Yeni ajan versiyonları "zorlayıcıdır". Meydan okuyanların şampiyonluğa yükselmeden önce altın veri setinde istatistiksel olarak anlamlı bir gelişme olduğunu kanıtlaması gerekiyor.
Geri alma tetikleyicileri: Otomatik geri alma tetikleyicilerini tanımlayın — Kanaryanın doğruluğu eşiğin altına düşerse veya insan tarafından geçersiz kılınma oranı eşiğin üzerine çıkarsa otomatik olarak şampiyona geri dönülür.
Sıkça Sorulan Sorular
Üretimde altın veri kümesi değerlendirmelerini ne sıklıkla çalıştırmalıyız?
Her dağıtımda (model sürümü değişiklikleri dahil), haftalık olarak durum denetimi olarak ve izleme sırasında anormallikler tespit edildiğinde hemen çalıştırın. Yüksek riskli temsilciler için (mali kararlar, tıbbi belgeler) günlük olarak çalıştırın. Otomatik CI/CD işlem hatları, her kod değişikliğinde altın veri kümesi değerlendirmesini otomatik olarak tetikleyebilir.
LLM sağlayıcısının modeli sessizce güncellediğini nasıl tespit ederiz?
Kararlı olması gereken yanıt özelliklerini izleyin: ortalama yanıt uzunluğu, format uyumluluk oranı, güven puanı dağılımı ve gecikme profili. Bu ölçümlerdeki herhangi bir önemli değişiklik, doğruluk etkisini ölçmek için altın veri kümesi değerlendirmesini tetikler. Bazı sağlayıcılar belirli bir sürüme sabitlenen model sürümü oluşturma olanağı sunar; mümkün olduğunda bunu kullanın.
Üretimdeki yapay zeka aracıları için kabul edilebilir doğruluk eşiği nedir?
Bu tamamen kullanım durumuna ve hataların maliyetine bağlıdır. Otonom finansal kararlar veren temsilciler için genellikle %98'in üzerinde doğruluk gerekir. İnsanların incelediği taslakları üreten aracılar için %85-90 genellikle kabul edilebilir çünkü insan hataları yakalar. Hataların düşük riskli olduğu dahili analizler üreten aracılar için %80 yeterli olabilir. Eşiğinizi keyfi kıyaslamalara göre değil, hata maliyet analizine göre tanımlayın.
Ajan yürütme izlerini depolamak için GDPR ve veri gizliliği gereksinimlerini nasıl ele alıyoruz?
OpenClaw'ın izleme sistemi, depolamadan önce PII redaksiyonunu destekler; izleme yapılandırmasında hangi alanların düzeltileceğini yapılandırın. İzler, veri minimizasyonu gerekliliklerine uymak için yapılandırılabilir saklama süreleri ile saklanır. AB tabanlı dağıtımlar için izleme depolaması yalnızca AB bölgelerine göre yapılandırılabilir. Kişiler, GDPR'nin silme hakkı hükümleri uyarınca verilerinin izlerden silinmesini talep edebilir.
Etkili kalite izleme için ihtiyacımız olan insan incelemesi örnekleme oranı nedir?
Çoğu temsilci için, üretim çıktılarının %2-5'lik örneklemesi, istatistiksel olarak anlamlı kalite izleme sağlar. Yüksek değerli veya yüksek riskli ajanlar için bu oranı %10-20'ye yükseltin. İnceleme süreci yapılandırılmalıdır; inceleyenler genel izlenimler yerine standartlaştırılmış bir değerlendirme tablosu kullanır. OpenClaw'ın inceleme arayüzü, değerlendirme listesiyle birlikte örneklenmiş çıktılar sunar ve yapılandırılmış geri bildirimleri yakalar.
Başka bir yüksek lisans kullanarak insan incelemesi sürecini otomatikleştirebilir miyiz?
Kısmen. "Yargıç olarak Yüksek Lisans" kalıpları çıktı formatını, eksiksizliğini ve temel olgusal doğruluğu değerlendirmek için iyi çalışır. Alana özgü doğruluğu değerlendirmek için daha az işe yararlar (sözleşme risk değerlendirmesinin doğru olup olmadığı genel yapay zeka kararı değil, hukuki uzmanlık gerektirir). Ölçeklendirme için otomatik LLM değerlendirmesini, kalibrasyon ve doğrulama için ise insan incelemesini kullanın.
Sonraki Adımlar
Yapay zeka aracıları için üretim düzeyinde test ve izleme uygulamak, hem yapay zeka sistemlerinde hem de DevOps uygulamalarında deneyim gerektirir. ECOSIRE'ın OpenClaw uygulaması, özel aracı iş akışlarınız için tasarlanmış bir izleme mimarisini, önceden yapılandırılmış kontrol panellerini, uyarı ilkelerini ve olay müdahale runbook'larını içerir.
Devam eden izleme ve optimizasyon seçenekleri hakkında bilgi edinmek için OpenClaw Destek ve Bakım Hizmetlerini Keşfedin veya mevcut veya planladığınız OpenClaw dağıtımınız için izleme mimarisini tartışmak üzere bir danışma planlayın.
Yazan
ECOSIRE Research and Development Team
ECOSIRE'da kurumsal düzeyde dijital ürünler geliştiriyor. Odoo entegrasyonları, e-ticaret otomasyonu ve yapay zeka destekli iş çözümleri hakkında içgörüler paylaşıyor.
İlgili Makaleler
Case Study: AI Customer Support with OpenClaw Agents
How a SaaS company used OpenClaw AI agents to handle 84% of support tickets autonomously, cutting support costs by 61% while improving CSAT scores.
Next.js 16 App Router: Production Patterns and Pitfalls
Production-ready Next.js 16 App Router patterns: server components, caching strategies, metadata API, error boundaries, and performance pitfalls to avoid.
Nginx Production Configuration: SSL, Caching, and Security
Nginx production configuration guide: SSL termination, HTTP/2, caching headers, security headers, rate limiting, reverse proxy setup, and Cloudflare integration patterns.
Performance & Scalability serisinden daha fazlası
k6 Load Testing: Stress-Test Your APIs Before Launch
Master k6 load testing for Node.js APIs. Covers virtual user ramp-ups, thresholds, scenarios, HTTP/2, WebSocket testing, Grafana dashboards, and CI integration patterns.
Nginx Production Configuration: SSL, Caching, and Security
Nginx production configuration guide: SSL termination, HTTP/2, caching headers, security headers, rate limiting, reverse proxy setup, and Cloudflare integration patterns.
Odoo Performance Tuning: PostgreSQL and Server Optimization
Expert guide to Odoo 19 performance tuning. Covers PostgreSQL configuration, indexing, query optimization, Nginx caching, and server sizing for enterprise deployments.
Odoo vs Acumatica: Cloud ERP for Growing Businesses
Odoo vs Acumatica compared for 2026: unique pricing models, scalability, manufacturing depth, and which cloud ERP fits your growth trajectory.
Compliance Monitoring Agents with OpenClaw
Deploy OpenClaw AI agents for continuous compliance monitoring. Automate regulatory checks, policy enforcement, audit trail generation, and compliance reporting.
Optimizing AI Agent Costs: Token Usage and Caching
Practical strategies for reducing AI agent operational costs through token optimization, caching, model routing, and usage monitoring. Real savings from production OpenClaw deployments.