Üretimde Yapay Zeka Aracılarını Test Etme ve İzleme

Bir yapay zeka aracısını üretime dağıtmak uygulamanın sonu değildir; geleneksel yazılımlarda bulunmayan operasyonel disiplinin başlangıcıdır. Geleneksel uygulamalar deterministik olarak başarısız olur: aynı girdi verildiğinde aynı (yanlış) çıktıyı alırsınız. Yapay zeka aracıları olasılıksal olarak başarısız oluyor: Aynı girdi, zamanın %97'sinde doğru çıktıyı ve %3'ünde hafif yanlış çıktıyı üretiyor ve modeller güncellendikçe, girdi dağıtımları değiştikçe ve iş kuralları geliştikçe bu %3 değişiyor.

Bu kılavuz, OpenClaw uygulamalarına yönelik belirli modellerle birlikte AI aracılarının dağıtımdan önce test edilmesine ve üretimde sürekli olarak izlenmesine yönelik operasyonel çerçevenin tamamını kapsar.

Önemli Çıkarımlar

Yapay zeka aracı testi, hem işlevsel testleri (doğru çıktı) hem de davranışsal testleri (tutarlı muhakeme) gerektirir

Modeller güncellendiğinde regresyon testi kritik öneme sahiptir; aksi kanıtlanana kadar davranışın değişeceğini varsayın

Üretim izleme yalnızca kullanılabilirlik ve gecikmeyi değil doğruluk ölçümlerini de izlemelidir

Token kullanımı ve maliyet izleme, beklenmedik fatura artışlarını önler

Aracı çıktılarındaki anormallik tespiti, iş sonuçlarını etkilemeden önce doğruluk bozulmasını yakalar

İnsan incelemesi örneklemesi, otomatik izlemenin kalibre edilmesi için temel gerçekleri sağlar

Yapay zeka temsilcilerine yönelik olay müdahale taktik kitapları, geleneksel yazılım olaylarından temel olarak farklıdır

A/B testi çerçevesi, hızlı değişikliklerin ve model yükseltmelerinin güvenli bir şekilde değerlendirilmesine olanak tanır

Yapay Zeka Aracısı Testi Neden Farklıdır

Yapay zeka aracılarını test etmek, geleneksel yazılımı test etmekten temelde farklı bir zihniyet gerektirir. Geleneksel yazılım testinde test senaryoları yazarsınız, girdiler sağlarsınız ve çıktıları beklenen değerlere göre doğrularsınız. Test tutarlı bir şekilde geçerse yazılım doğrudur.

Yapay zeka ajanları bu şekilde çalışmaz. Çıktıları olasılıksaldır; doğru, biraz hatalı veya tamamen yanlış olabilirler ve sonuçların olasılık dağılımı model versiyonuna, sağlanan bağlama ve girdilerin spesifik ifadelerine bağlıdır. Üç zorluk geleneksel testleri yetersiz kılmaktadır:

Determinizmsizlik: Aynı istemin iki kez çalıştırılması farklı çıktılar üretebilir. Testler, çıktı kalitesini tam eşitliği değil, bir aralık dahilinde değerlendirmelidir.

Model sürümü hassasiyeti: Yüksek Lisans sağlayıcınız yeni bir model sürümü yayınladığında temsilcinizin davranışı hemen belli olmayan şekillerde değişebilir. Görevinizde %94 doğruluğa sahip bir model, %96'ya yükselebilir veya %91'e düşebilir; bunu tespit edecek mekanizmalara ihtiyacınız vardır.

Bağlam bağımlılığı: Temsilci davranışı büyük ölçüde sağlanan bağlama (alınan belgeler, konuşma geçmişi, sistem talimatları) bağlıdır. Bağlam derlemesindeki küçük değişiklikler çıktı kalitesini önemli ölçüde etkileyebilir.

Üretim Öncesi Test Çerçevesi

Beceriler için Birim Testleri

Her OpenClaw Becerisinin, davranışını temsili bir girdi örneğiyle doğrulayan bir test paketi bulunmalıdır. Bu testler standart iddia-eşitlik testleri değildir; çıktı kalitesini puanlayan bir değerlendirme çerçevesi kullanırlar.

Sözleşme incelemesi için test yapısı Beceri:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

Her test için değerlendirme kriterleri:

Hatırlayın (temsilci orada olanı buldu mu?)
Hassasiyet (temsilci yalnızca ilgili öğeleri işaretledi mi?)
Risk değerlendirmesinin doğruluğu (risk düzeyi uygun mu?)
Önerilen eylemlerin eksiksizliği
Çıkış formatı uyumluluğu (zorunlu alanlar mevcut, doğru yapı)

Altın Veri Kümesi Testi

İnsanlar tarafından doğrulanmış beklenen çıktılarla 50-200 temsili girdiden oluşan altın bir veri kümesini koruyun. Her üretim dağıtımından önce aracıyı bu veri kümesine ve hesaplama doğruluğu ölçümlerine göre çalıştırın. Eşiğinizin altında doğruluk oranına sahip dağıtımlar engellenir.

Altın veri kümesi yapısı:

Üretim trafiğinden 200 gerçek girdi toplayın (gerekirse anonimleştirilir)
Alan uzmanlarının her biri için doğru çıktıları incelemesini ve açıklama eklemesini sağlayın.
Uç durumları, olağandışı girdileri ve yaygın hata modellerini kapsayacak şekilde veri kümesini katmanlandırın
Altın veri kümesine göre temel doğruluk ölçümleri oluşturun
Taban çizgisinin altındaki herhangi bir gerilemeyi dağıtım engelleyici olarak değerlendirin

Altın veri kümesi için otomatik değerlendirme: Değerlendirici olarak bir LLM'yi işe alın veya eğitin; aracının çıktısını ve insan tarafından doğrulanmış beklenen çıktıyı alan ve bir benzerlik/doğruluk puanı üreten ayrı bir LLM çağrısı. Bu "yargıç olarak yüksek lisans" modelidir. Sınırdaki vakaların insan tarafından incelenmesiyle birleştirildiğinde, altın veri kümesi değerlendirmesini sık çalıştırmalara ölçeklendirir.

Entegrasyon Testleri

Entegrasyonlar da dahil olmak üzere tüm sistem genelinde aracı davranışını uçtan uca test edin:

Entegrasyon test senaryoları:

Aracı ERP'den okur, verileri işler, geri yazar; veri bütünlüğünü doğrular
Temsilci harici API'yi çağırır, başarı ve başarısızlık yanıtlarını yönetir
Temsilci, çok aracılı bir iş akışında başka bir aracıyla koordinasyon sağlar
Temsilci zaman aşımlarını, hız sınırlarını ve API'nin kullanılamama durumunu incelikle ele alır
Aracı, aşağı yöndeki iş süreçlerini doğru şekilde tetikleyen çıktılar üretir

Simüle edilmiş arıza testi:

Harici API çağrılarına zaman aşımı hatalarını ekleme
Yanlış biçimlendirilmiş veya eksik verileri sağlayın
Model sağlayıcının kullanılamazlığını simüle edin
Aracı görevi tamamlayamadığında zarif bozulmayı test edin

Üretim İzleme Mimarisi

Yapay Zeka Aracısı İzlemenin Dört Temeli

Sütun 1: Operasyonel sağlık (standart yazılım izleme)

Çalışma süresi ve kullanılabilirlik
Yürütme başına gecikme (P50, P95, P99)
Hata oranı (aracı çökmeleri, işlenmeyen istisnalar, API hataları)
Kuyruk derinliği ve verim
Kaynak kullanımı (CPU, bellek, API eşzamanlılığı)

2. Sütun: Çıktı kalitesi (Yapay zekaya özgü izleme)

Örneklenmiş çıktılardaki doğruluk oranı (insan veya LLM tarafından değerlendirilen)
Halüsinasyon tespiti (sağlanan bağlamda olmayan bilgileri içeren çıktılar)
Format uyumluluk oranı (gerekli yapıyı karşılayan çıktılar)
Güven puanı dağılımı (aniden daha düşük güven sinyali bozulması ifade eden aracılar)
Görev tamamlanma oranı (aracı başarıyla tam bir çıktı üretir, ancak bir hata veya eksik yanıt döndürür)

Sütun 3: İş etkisi (sonuç izleme)

Aşağı yöndeki eylemin başarı oranı (siparişlerin başarıyla verilmesi, onayların doğru şekilde yönlendirilmesi vb.)
İnsan geçersiz kılma oranı (insanların, aracının kararlarını ne sıklıkla geçersiz kıldığı)
Müşteriyle yüzleşen temsilciler için müşteri memnuniyeti (CSAT, NPS)
İstisna oranı (girdiler gerçek kişi tarafından yapılan incelemeye iletildi)
Süreç döngü süresi (uçtan uca görev tamamlama süresi)

4. Sütun: Maliyet (token ve API maliyet izleme)

Yürütme başına jeton tüketimi (giriş + çıkış)
Başarılı görev tamamlama başına maliyet
Anormal jeton kullanımı (ortalama sinyal istemi enjeksiyonundan veya içerik kirliliğinden önemli ölçüde daha fazla jeton tüketen yürütmeler)
Günlük/haftalık maliyet eğilimi ve tahmin

Gözlemlenebilirlik Uygulaması

OpenClaw yerleşik yürütme takibi sağlar. Her aracı çalıştırması aşağıdakileri içeren yapılandırılmış bir izleme üretir:

Yürütme kimliği ve zaman damgası
Giriş verileri (PII düzenlemesi uygulanmış halde)
Bağlam alındı (RAG parçaları, önceki konuşma dönüşleri)
LLM'ye tam istem gönderildi
LLM yanıtı
İşlem sonrası adımlar
Nihai çıktı
Jeton sayıları ve maliyeti
Toplam yürütme süresi
İstisnalar veya üst kademelere iletmeler

Bu izleme verileri, bir aracı yanlış bir çıktı ürettiğinde, geçici hata ayıklamaya olanak tanır. Tam yürütmeyi tekrar oynatabilir ve her adımı görebilirsiniz.

İz örnekleme stratejisi:

Yüksek değerli işlemlerin %100'ünü örnekleyin (> X $ parasal etki)
İstisnaların ve üst kademelere iletmenin %100'ünü örnekleyin
Kalite izleme için rutin işlemlerin %5-10'unu örnekleyin
Sorun bildiren müşteriler için çıktıların %100'ünü örnekleyin

Kontrol Paneli Tasarımı

Etkili AI aracı izleme kontrol panelleri, geleneksel uygulama kontrol panellerinden farklı bilgiler iletir. Anahtar paneller:

Gerçek zamanlı operasyon paneli:

Aktif infazlar
Kuyruk derinliği
Yürütme oranı (son 5 dakikaya kıyasla temel değer)
Hata oranı (son 5 dakika)
P95 gecikmesi

Kalite trend paneli (24 saatlik görünüm):

Doğruluk oranı eğilimi (örneklenmiş değerlendirmeden)
İnsan geçersiz kılma oranı eğilimi
İstisna/yükselme oranı eğilimi
Güven puanı dağılımı

Maliyet paneli:

Bugünün token tüketimi ve tahmin karşılaştırması
Başarılı görev başına maliyet (trend)
Anormal yürütmeler (aykırı jeton tüketimi)
Haftalık maliyet projeksiyonu

İş sonuçları paneli:

İş akışı türüne göre görev tamamlama oranı
Aşağı yöndeki başarı oranı
Müşteri memnuniyeti (eğer ölçülürse)
İşlenen hacim (önceki dönemle karşılaştırmalı olarak)

Sürüklenme Algılama

Yapay zeka aracısının en sinsi hata modlarından biri kademeli kaymadır; girdilerin dağıtımı eğitim dağıtımından uzaklaştıkça veya model sağlayıcı tarafından güncellendiğinde aracının performansı zaman içinde yavaş yavaş düşer.

Giriş Dağıtımı İzleme

Giriş verilerinin zaman içindeki dağılımına ilişkin istatistikleri izleyin. Önemli değişikliklere ilişkin uyarı:

Kelime dağarcığı kayması (eğitim verilerinde olmayan yeni terimlerin ortaya çıkması)
Giriş uzunluğu dağılımı değişiklikleri (alışılmadık derecede uzun veya kısa girişler)
Girişlerdeki dil veya format değişiklikleri
Belge işleme hatlarında görünen yeni belge türleri

Model Versiyon Değişikliği Tespiti

LLM sağlayıcıları modellerini sürekli olarak günceller. Bazı güncellemeler sessizdir (aynı model tanımlayıcı, farklı ağırlıklar). Şunun için izleyin:

Yanıt uzunluğu dağılımı değişiklikleri
Format uyumluluk oranı değişiklikleri
Gecikme profili değişiklikleri
Güven puanı dağılımı değişiklikleri

Bu ölçümlerden herhangi biri önemli ölçüde değiştiğinde, doğruluk etkisini ölçmek için altın veri kümesi değerlendirmesini hemen çalıştırın.

Konsept Drift

İş kuralları ve alan bilgisi zamanla değişir. 2024 fiyatlandırma kurallarını uygulamak üzere eğitilmiş bir temsilci, 2025 fiyatlandırma kuralları yürürlüğe girdiğinde hatalı çıktılar üretecektir. Monitör:

Neden koduna göre insan geçersiz kılma oranı (belirli bir nedenden dolayı geçersiz kılmaların artması, o alandaki kavram sapmasını gösterir)
Hata türü dağılımı değişiklikleri
İstisna yükseltme nedenleri

Yapay Zeka Temsilcileri için Olay Müdahalesi

Yapay zeka aracısı olayları, geleneksel yazılım olaylarından farklıdır. Başarısızlık genellikle bir kaza değildir; iş sonuçlarını hafifçe etkileyen, çıktı kalitesindeki bir bozulmadır.

Olayın ciddiyet düzeyleri:

Seviye	Tanımı	Yanıt Süresi	Eylem
P1	Ajanın mali veya güvenlik kararlarını etkileyen sistematik olarak yanlış çıktılar üretmesi	Hemen	Aracıyı devre dışı bırakın, manuel geri dönüş
P2	Doğruluk temel değerin >%10 altına düştü	30 dakika	Uyarı, temel nedeni değerlendirin, devre dışı bırakmayı düşünün
P3	İstisna oranı yükseldi, kalite sınırda	2 saat	Araştırın, yakından izleyin
P4	Performans düştü ancak kabul edilebilir eşik dahilinde	Sonraki iş günü	Sonraki yineleme döngüsü için oturum açın

P1 Olay Müdahalesi Başucu Kitabı:

Algılama: İzleme sisteminden gelen otomatik uyarı tetikleyicileri
Değerlendirin (5 dakika): Son uygulamaları inceleyin, hata modelini belirleyin
İçerme (10 dakika): Manuel geri dönüş sürecine geçin, gerekirse aracıyı devre dışı bırakın
Teşhis (30-60 dakika): Temel nedeni belirleyin (model değişikliği, girdi dağılımı değişikliği, istem gerilemesi, entegrasyon hatası)
Düzelt: Düzeltmeyi uygula (istem güncellemesi, modeli geri alma, giriş doğrulama değişikliği, entegrasyon düzeltmesi)
Doğrulama: Sabit aracıya karşı altın veri kümesi değerlendirmesini çalıştırın
Geri Yükleme: Yükseltilmiş uyarı durumunda izleme ile aracıyı yeniden etkinleştirin
Opsi sonrası: 48 saat içinde belgeleyin — neyin başarısız olduğunu, nedenini, tekrarının nasıl önleneceğini

Temsilci İyileştirmeleri için A/B Testi

Yapay zeka aracılarının iyileştirilmesi, tam dağıtımdan önce değişikliklerin güvenli bir şekilde değerlendirilmesini gerektirir. A/B testi şunları sağlar:

Gölge modu testi: Yeni aracı sürümünü, çıktılarını kullanmadan üretim trafiğinde çalıştırın; müşterileri etkilemeden önce farkı ölçmek için gölge çıktılarını mevcut aracı çıktılarıyla karşılaştırın.

Canary dağıtımı: Üretim trafiğinin %5-10'unu yeni aracı sürümüne yönlendirin. Kanarya popülasyonu ile kontrol popülasyonu arasındaki kalite ölçümlerini izleyin. Metrikler iyileşirse veya sabit kalırsa ileri doğru alın, kötüleşirse geri alın.

Şampiyon/meydan okuyan: Mevcut yapım temsilcisi "şampiyon"dur. Yeni ajan versiyonları "zorlayıcıdır". Meydan okuyanların şampiyonluğa yükselmeden önce altın veri setinde istatistiksel olarak anlamlı bir gelişme olduğunu kanıtlaması gerekiyor.

Geri alma tetikleyicileri: Otomatik geri alma tetikleyicilerini tanımlayın — Kanaryanın doğruluğu eşiğin altına düşerse veya insan tarafından geçersiz kılınma oranı eşiğin üzerine çıkarsa otomatik olarak şampiyona geri dönülür.

Sıkça Sorulan Sorular

Üretimde altın veri kümesi değerlendirmelerini ne sıklıkla çalıştırmalıyız?

Her dağıtımda (model sürümü değişiklikleri dahil), haftalık olarak durum denetimi olarak ve izleme sırasında anormallikler tespit edildiğinde hemen çalıştırın. Yüksek riskli temsilciler için (mali kararlar, tıbbi belgeler) günlük olarak çalıştırın. Otomatik CI/CD işlem hatları, her kod değişikliğinde altın veri kümesi değerlendirmesini otomatik olarak tetikleyebilir.

LLM sağlayıcısının modeli sessizce güncellediğini nasıl tespit ederiz?

Kararlı olması gereken yanıt özelliklerini izleyin: ortalama yanıt uzunluğu, format uyumluluk oranı, güven puanı dağılımı ve gecikme profili. Bu ölçümlerdeki herhangi bir önemli değişiklik, doğruluk etkisini ölçmek için altın veri kümesi değerlendirmesini tetikler. Bazı sağlayıcılar belirli bir sürüme sabitlenen model sürümü oluşturma olanağı sunar; mümkün olduğunda bunu kullanın.

Üretimdeki yapay zeka aracıları için kabul edilebilir doğruluk eşiği nedir?

Bu tamamen kullanım durumuna ve hataların maliyetine bağlıdır. Otonom finansal kararlar veren temsilciler için genellikle %98'in üzerinde doğruluk gerekir. İnsanların incelediği taslakları üreten aracılar için %85-90 genellikle kabul edilebilir çünkü insan hataları yakalar. Hataların düşük riskli olduğu dahili analizler üreten aracılar için %80 yeterli olabilir. Eşiğinizi keyfi kıyaslamalara göre değil, hata maliyet analizine göre tanımlayın.

Ajan yürütme izlerini depolamak için GDPR ve veri gizliliği gereksinimlerini nasıl ele alıyoruz?

OpenClaw'ın izleme sistemi, depolamadan önce PII redaksiyonunu destekler; izleme yapılandırmasında hangi alanların düzeltileceğini yapılandırın. İzler, veri minimizasyonu gerekliliklerine uymak için yapılandırılabilir saklama süreleri ile saklanır. AB tabanlı dağıtımlar için izleme depolaması yalnızca AB bölgelerine göre yapılandırılabilir. Kişiler, GDPR'nin silme hakkı hükümleri uyarınca verilerinin izlerden silinmesini talep edebilir.

Etkili kalite izleme için ihtiyacımız olan insan incelemesi örnekleme oranı nedir?

Çoğu temsilci için, üretim çıktılarının %2-5'lik örneklemesi, istatistiksel olarak anlamlı kalite izleme sağlar. Yüksek değerli veya yüksek riskli ajanlar için bu oranı %10-20'ye yükseltin. İnceleme süreci yapılandırılmalıdır; inceleyenler genel izlenimler yerine standartlaştırılmış bir değerlendirme tablosu kullanır. OpenClaw'ın inceleme arayüzü, değerlendirme listesiyle birlikte örneklenmiş çıktılar sunar ve yapılandırılmış geri bildirimleri yakalar.

Başka bir yüksek lisans kullanarak insan incelemesi sürecini otomatikleştirebilir miyiz?

Kısmen. "Yargıç olarak Yüksek Lisans" kalıpları çıktı formatını, eksiksizliğini ve temel olgusal doğruluğu değerlendirmek için iyi çalışır. Alana özgü doğruluğu değerlendirmek için daha az işe yararlar (sözleşme risk değerlendirmesinin doğru olup olmadığı genel yapay zeka kararı değil, hukuki uzmanlık gerektirir). Ölçeklendirme için otomatik LLM değerlendirmesini, kalibrasyon ve doğrulama için ise insan incelemesini kullanın.

Sonraki Adımlar

Yapay zeka aracıları için üretim düzeyinde test ve izleme uygulamak, hem yapay zeka sistemlerinde hem de DevOps uygulamalarında deneyim gerektirir. ECOSIRE'ın OpenClaw uygulaması, özel aracı iş akışlarınız için tasarlanmış bir izleme mimarisini, önceden yapılandırılmış kontrol panellerini, uyarı ilkelerini ve olay müdahale runbook'larını içerir.

Devam eden izleme ve optimizasyon seçenekleri hakkında bilgi edinmek için OpenClaw Destek ve Bakım Hizmetlerini Keşfedin veya mevcut veya planladığınız OpenClaw dağıtımınız için izleme mimarisini tartışmak üzere bir danışma planlayın.

Önemli Çıkarımlar

Yapay zeka aracı testi, hem işlevsel testleri (doğru çıktı) hem de davranışsal testleri (tutarlı muhakeme) gerektirir

Modeller güncellendiğinde regresyon testi kritik öneme sahiptir; aksi kanıtlanana kadar davranışın değişeceğini varsayın

Üretim izleme yalnızca kullanılabilirlik ve gecikmeyi değil doğruluk ölçümlerini de izlemelidir

Token kullanımı ve maliyet izleme, beklenmedik fatura artışlarını önler

Aracı çıktılarındaki anormallik tespiti, iş sonuçlarını etkilemeden önce doğruluk bozulmasını yakalar

İnsan incelemesi örneklemesi, otomatik izlemenin kalibre edilmesi için temel gerçekleri sağlar

Yapay zeka temsilcilerine yönelik olay müdahale taktik kitapları, geleneksel yazılım olaylarından temel olarak farklıdır

A/B testi çerçevesi, hızlı değişikliklerin ve model yükseltmelerinin güvenli bir şekilde değerlendirilmesine olanak tanır

Yapay Zeka Aracısı Testi Neden Farklıdır

Determinizmsizlik: Aynı istemin iki kez çalıştırılması farklı çıktılar üretebilir. Testler, çıktı kalitesini tam eşitliği değil, bir aralık dahilinde değerlendirmelidir.

Üretim Öncesi Test Çerçevesi

Beceriler için Birim Testleri

Sözleşme incelemesi için test yapısı Beceri:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

Her test için değerlendirme kriterleri:

Hatırlayın (temsilci orada olanı buldu mu?)
Hassasiyet (temsilci yalnızca ilgili öğeleri işaretledi mi?)
Risk değerlendirmesinin doğruluğu (risk düzeyi uygun mu?)
Önerilen eylemlerin eksiksizliği
Çıkış formatı uyumluluğu (zorunlu alanlar mevcut, doğru yapı)

Altın Veri Kümesi Testi

Altın veri kümesi yapısı:

Üretim trafiğinden 200 gerçek girdi toplayın (gerekirse anonimleştirilir)
Alan uzmanlarının her biri için doğru çıktıları incelemesini ve açıklama eklemesini sağlayın.
Uç durumları, olağandışı girdileri ve yaygın hata modellerini kapsayacak şekilde veri kümesini katmanlandırın
Altın veri kümesine göre temel doğruluk ölçümleri oluşturun
Taban çizgisinin altındaki herhangi bir gerilemeyi dağıtım engelleyici olarak değerlendirin

Entegrasyon Testleri

Entegrasyonlar da dahil olmak üzere tüm sistem genelinde aracı davranışını uçtan uca test edin:

Entegrasyon test senaryoları:

Aracı ERP'den okur, verileri işler, geri yazar; veri bütünlüğünü doğrular
Temsilci harici API'yi çağırır, başarı ve başarısızlık yanıtlarını yönetir
Temsilci, çok aracılı bir iş akışında başka bir aracıyla koordinasyon sağlar
Temsilci zaman aşımlarını, hız sınırlarını ve API'nin kullanılamama durumunu incelikle ele alır
Aracı, aşağı yöndeki iş süreçlerini doğru şekilde tetikleyen çıktılar üretir

Simüle edilmiş arıza testi:

Harici API çağrılarına zaman aşımı hatalarını ekleme
Yanlış biçimlendirilmiş veya eksik verileri sağlayın
Model sağlayıcının kullanılamazlığını simüle edin
Aracı görevi tamamlayamadığında zarif bozulmayı test edin

Üretim İzleme Mimarisi

Yapay Zeka Aracısı İzlemenin Dört Temeli

Sütun 1: Operasyonel sağlık (standart yazılım izleme)

Çalışma süresi ve kullanılabilirlik
Yürütme başına gecikme (P50, P95, P99)
Hata oranı (aracı çökmeleri, işlenmeyen istisnalar, API hataları)
Kuyruk derinliği ve verim
Kaynak kullanımı (CPU, bellek, API eşzamanlılığı)

2. Sütun: Çıktı kalitesi (Yapay zekaya özgü izleme)

Örneklenmiş çıktılardaki doğruluk oranı (insan veya LLM tarafından değerlendirilen)
Halüsinasyon tespiti (sağlanan bağlamda olmayan bilgileri içeren çıktılar)
Format uyumluluk oranı (gerekli yapıyı karşılayan çıktılar)
Güven puanı dağılımı (aniden daha düşük güven sinyali bozulması ifade eden aracılar)
Görev tamamlanma oranı (aracı başarıyla tam bir çıktı üretir, ancak bir hata veya eksik yanıt döndürür)

Sütun 3: İş etkisi (sonuç izleme)

Aşağı yöndeki eylemin başarı oranı (siparişlerin başarıyla verilmesi, onayların doğru şekilde yönlendirilmesi vb.)
İnsan geçersiz kılma oranı (insanların, aracının kararlarını ne sıklıkla geçersiz kıldığı)
Müşteriyle yüzleşen temsilciler için müşteri memnuniyeti (CSAT, NPS)
İstisna oranı (girdiler gerçek kişi tarafından yapılan incelemeye iletildi)
Süreç döngü süresi (uçtan uca görev tamamlama süresi)

4. Sütun: Maliyet (token ve API maliyet izleme)

Yürütme başına jeton tüketimi (giriş + çıkış)
Başarılı görev tamamlama başına maliyet
Anormal jeton kullanımı (ortalama sinyal istemi enjeksiyonundan veya içerik kirliliğinden önemli ölçüde daha fazla jeton tüketen yürütmeler)
Günlük/haftalık maliyet eğilimi ve tahmin

Gözlemlenebilirlik Uygulaması

OpenClaw yerleşik yürütme takibi sağlar. Her aracı çalıştırması aşağıdakileri içeren yapılandırılmış bir izleme üretir:

Yürütme kimliği ve zaman damgası
Giriş verileri (PII düzenlemesi uygulanmış halde)
Bağlam alındı (RAG parçaları, önceki konuşma dönüşleri)
LLM'ye tam istem gönderildi
LLM yanıtı
İşlem sonrası adımlar
Nihai çıktı
Jeton sayıları ve maliyeti
Toplam yürütme süresi
İstisnalar veya üst kademelere iletmeler

Bu izleme verileri, bir aracı yanlış bir çıktı ürettiğinde, geçici hata ayıklamaya olanak tanır. Tam yürütmeyi tekrar oynatabilir ve her adımı görebilirsiniz.

İz örnekleme stratejisi:

Yüksek değerli işlemlerin %100'ünü örnekleyin (> X $ parasal etki)
İstisnaların ve üst kademelere iletmenin %100'ünü örnekleyin
Kalite izleme için rutin işlemlerin %5-10'unu örnekleyin
Sorun bildiren müşteriler için çıktıların %100'ünü örnekleyin

Kontrol Paneli Tasarımı

Etkili AI aracı izleme kontrol panelleri, geleneksel uygulama kontrol panellerinden farklı bilgiler iletir. Anahtar paneller:

Gerçek zamanlı operasyon paneli:

Aktif infazlar
Kuyruk derinliği
Yürütme oranı (son 5 dakikaya kıyasla temel değer)
Hata oranı (son 5 dakika)
P95 gecikmesi

Kalite trend paneli (24 saatlik görünüm):

Doğruluk oranı eğilimi (örneklenmiş değerlendirmeden)
İnsan geçersiz kılma oranı eğilimi
İstisna/yükselme oranı eğilimi
Güven puanı dağılımı

Maliyet paneli:

Bugünün token tüketimi ve tahmin karşılaştırması
Başarılı görev başına maliyet (trend)
Anormal yürütmeler (aykırı jeton tüketimi)
Haftalık maliyet projeksiyonu

İş sonuçları paneli:

İş akışı türüne göre görev tamamlama oranı
Aşağı yöndeki başarı oranı
Müşteri memnuniyeti (eğer ölçülürse)
İşlenen hacim (önceki dönemle karşılaştırmalı olarak)

Sürüklenme Algılama

Giriş Dağıtımı İzleme

Giriş verilerinin zaman içindeki dağılımına ilişkin istatistikleri izleyin. Önemli değişikliklere ilişkin uyarı:

Kelime dağarcığı kayması (eğitim verilerinde olmayan yeni terimlerin ortaya çıkması)
Giriş uzunluğu dağılımı değişiklikleri (alışılmadık derecede uzun veya kısa girişler)
Girişlerdeki dil veya format değişiklikleri
Belge işleme hatlarında görünen yeni belge türleri

Model Versiyon Değişikliği Tespiti

LLM sağlayıcıları modellerini sürekli olarak günceller. Bazı güncellemeler sessizdir (aynı model tanımlayıcı, farklı ağırlıklar). Şunun için izleyin:

Yanıt uzunluğu dağılımı değişiklikleri
Format uyumluluk oranı değişiklikleri
Gecikme profili değişiklikleri
Güven puanı dağılımı değişiklikleri

Bu ölçümlerden herhangi biri önemli ölçüde değiştiğinde, doğruluk etkisini ölçmek için altın veri kümesi değerlendirmesini hemen çalıştırın.

Konsept Drift

Neden koduna göre insan geçersiz kılma oranı (belirli bir nedenden dolayı geçersiz kılmaların artması, o alandaki kavram sapmasını gösterir)
Hata türü dağılımı değişiklikleri
İstisna yükseltme nedenleri

Yapay Zeka Temsilcileri için Olay Müdahalesi

Olayın ciddiyet düzeyleri:

Seviye	Tanımı	Yanıt Süresi	Eylem
P1	Ajanın mali veya güvenlik kararlarını etkileyen sistematik olarak yanlış çıktılar üretmesi	Hemen	Aracıyı devre dışı bırakın, manuel geri dönüş
P2	Doğruluk temel değerin >%10 altına düştü	30 dakika	Uyarı, temel nedeni değerlendirin, devre dışı bırakmayı düşünün
P3	İstisna oranı yükseldi, kalite sınırda	2 saat	Araştırın, yakından izleyin
P4	Performans düştü ancak kabul edilebilir eşik dahilinde	Sonraki iş günü	Sonraki yineleme döngüsü için oturum açın

P1 Olay Müdahalesi Başucu Kitabı:

Algılama: İzleme sisteminden gelen otomatik uyarı tetikleyicileri
Değerlendirin (5 dakika): Son uygulamaları inceleyin, hata modelini belirleyin
İçerme (10 dakika): Manuel geri dönüş sürecine geçin, gerekirse aracıyı devre dışı bırakın
Teşhis (30-60 dakika): Temel nedeni belirleyin (model değişikliği, girdi dağılımı değişikliği, istem gerilemesi, entegrasyon hatası)
Düzelt: Düzeltmeyi uygula (istem güncellemesi, modeli geri alma, giriş doğrulama değişikliği, entegrasyon düzeltmesi)
Doğrulama: Sabit aracıya karşı altın veri kümesi değerlendirmesini çalıştırın
Geri Yükleme: Yükseltilmiş uyarı durumunda izleme ile aracıyı yeniden etkinleştirin
Opsi sonrası: 48 saat içinde belgeleyin — neyin başarısız olduğunu, nedenini, tekrarının nasıl önleneceğini

Temsilci İyileştirmeleri için A/B Testi

Yapay zeka aracılarının iyileştirilmesi, tam dağıtımdan önce değişikliklerin güvenli bir şekilde değerlendirilmesini gerektirir. A/B testi şunları sağlar:

Sıkça Sorulan Sorular

Üretimde altın veri kümesi değerlendirmelerini ne sıklıkla çalıştırmalıyız?

LLM sağlayıcısının modeli sessizce güncellediğini nasıl tespit ederiz?

Üretimdeki yapay zeka aracıları için kabul edilebilir doğruluk eşiği nedir?

Ajan yürütme izlerini depolamak için GDPR ve veri gizliliği gereksinimlerini nasıl ele alıyoruz?

Etkili kalite izleme için ihtiyacımız olan insan incelemesi örnekleme oranı nedir?

Başka bir yüksek lisans kullanarak insan incelemesi sürecini otomatikleştirebilir miyiz?

Üretimde Yapay Zeka Aracılarını Test Etme ve İzleme

Yapay Zeka Aracısı Testi Neden Farklıdır

Üretim Öncesi Test Çerçevesi

Beceriler için Birim Testleri

Altın Veri Kümesi Testi

Entegrasyon Testleri

Üretim İzleme Mimarisi

Yapay Zeka Aracısı İzlemenin Dört Temeli

Gözlemlenebilirlik Uygulaması

Kontrol Paneli Tasarımı

Sürüklenme Algılama

Giriş Dağıtımı İzleme

Model Versiyon Değişikliği Tespiti

Konsept Drift

Yapay Zeka Temsilcileri için Olay Müdahalesi

Temsilci İyileştirmeleri için A/B Testi

Sıkça Sorulan Sorular

Sonraki Adımlar

Akıllı Yapay Zeka Aracıları Oluşturun

İlgili Makaleler

2026'da Gerçekten İşe Yarayan 25 İş Süreci Otomasyonu Örneği (Onları Üretimde Çalıştıran Bir Ekipten)

Shopify Mağazanızı Çalıştıracak OpenClaw Becerisi Oluşturma: Adım Adım Eğitim

OpenClaw vs Zapier vs n8n (2026): Aracılar vs İş Akışları — Hangi Otomasyon Katmanına İhtiyacınız Var?

Performance & Scalability serisinden daha fazlası

Shopify Hız Optimizasyonu: Temel Web Verilerini Gerçekten Yönlendiren Teknik Bir Kontrol Listesi (2026)

Teknik SEO Denetim Kontrol Listesi 2026: Her Müşteri Sitesinde Çalıştırdığımız 47 Kontrol

Odoo 19 HR: Beceri Matrisi, Kariyer Planları, Performans Döngüleri

Odoo 19 Performans Karşılaştırmaları: PostgreSQL 17 Ayar Numaraları

OpenClaw Maliyet Optimizasyonu ve Büyük Ölçekte Token Verimliliği

10 Milyon Satırdan Fazla Tablolar için Power BI Artımlı Yenileme

Üretimde Yapay Zeka Aracılarını Test Etme ve İzleme

Yapay Zeka Aracısı Testi Neden Farklıdır

Üretim Öncesi Test Çerçevesi

Beceriler için Birim Testleri

Altın Veri Kümesi Testi

Entegrasyon Testleri

Üretim İzleme Mimarisi

Yapay Zeka Aracısı İzlemenin Dört Temeli

Gözlemlenebilirlik Uygulaması

Kontrol Paneli Tasarımı

Sürüklenme Algılama

Giriş Dağıtımı İzleme

Model Versiyon Değişikliği Tespiti

Konsept Drift

Yapay Zeka Temsilcileri için Olay Müdahalesi

Temsilci İyileştirmeleri için A/B Testi

Sıkça Sorulan Sorular

Sonraki Adımlar

Akıllı Yapay Zeka Aracıları Oluşturun

İlgili Makaleler

2026'da Gerçekten İşe Yarayan 25 İş Süreci Otomasyonu Örneği (Onları Üretimde Çalıştıran Bir Ekipten)

Shopify Mağazanızı Çalıştıracak OpenClaw Becerisi Oluşturma: Adım Adım Eğitim

OpenClaw vs Zapier vs n8n (2026): Aracılar vs İş Akışları — Hangi Otomasyon Katmanına İhtiyacınız Var?

Performance & Scalability serisinden daha fazlası

Shopify Hız Optimizasyonu: Temel Web Verilerini Gerçekten Yönlendiren Teknik Bir Kontrol Listesi (2026)

Teknik SEO Denetim Kontrol Listesi 2026: Her Müşteri Sitesinde Çalıştırdığımız 47 Kontrol

Odoo 19 HR: Beceri Matrisi, Kariyer Planları, Performans Döngüleri

Odoo 19 Performans Karşılaştırmaları: PostgreSQL 17 Ayar Numaraları

OpenClaw Maliyet Optimizasyonu ve Büyük Ölçekte Token Verimliliği

10 Milyon Satırdan Fazla Tablolar için Power BI Artımlı Yenileme