Performance & Scalability serimizin bir parçası
Tam kılavuzu okuyunYapay Zeka Aracılarını Test Etme ve İzleme: Otonom Sistemler için Güvenilirlik Mühendisliği
Üretim ortamlarında çalışan yapay zeka aracıları, herhangi bir kritik görev yazılımıyla aynı güvenilirlik garantilerine ve ayrıca olasılığa dayalı davranış, halüsinasyon riski ve otonom karar verme konusunda ek güvencelere ihtiyaç duyar. Geleneksel testler kod hatalarını yakalar. Yapay zeka aracı testi aynı zamanda muhakeme başarısızlıklarını, beklenmeyen araç kullanımını ve davranışsal sapmaları da yakalamalıdır. Bu kılavuz, AI aracılarını güvenilir tutan test piramidini, izleme mimarisini ve operasyonel uygulamaları kapsar.
Temel Çıkarımlar
- Yapay zeka aracı testi beş katmanlı bir yaklaşım gerektirir: birim, entegrasyon, davranışsal, çekişmeli ve üretim testi
- Davranış testi, senaryoya dayalı test paketlerini kullanarak temsilci kararlarını beklenen sonuçlara göre doğrular
- Gözlemlenebilirlik, her karar noktasında girdilerin, çıktıların, akıl yürütme izlerinin, araç çağrılarının ve gecikmenin günlüğe kaydedilmesini gerektirir
- Üretim izleme; doğruluk, sapma, gecikme, maliyet ve güvenlik ölçümlerini gerçek zamanlı olarak izler
- Regresyon testi, aracılar güncellendiğinde mevcut yeteneklerdeki davranışsal değişiklikleri önler
Yapay Zeka Aracısı Test Piramidi
Katman 1: Birim Testi
Bireysel bileşenleri ayrı ayrı test edin:
| Bileşen | Ne Test Edilmeli | Yaklaşım |
|---|---|---|
| Beceriler/Araçlar | Giriş doğrulama, çıkış formatı, hata işleme | Sahte bağımlılıklara sahip standart birim testleri |
| Bilgi istemi şablonları | Şablon oluşturma, değişken değiştirme | Oluşturulan istemlerin beklentilerle eşleştiğini iddia edin |
| Çıkış ayrıştırıcıları | Yanıt ayrıştırma, hata kurtarma | Çeşitli yanıt formatlarını besleyin, ayrıştırmayı doğrulayın |
| İzin kontrolleri | Erişim denetiminin uygulanması | Çeşitli izin düzeyleriyle işlem yapmayı deneyin |
| Veri doğrulayıcılar | Şema doğrulama, tür kontrolü | Sınır değerlerini ve geçersiz girişleri test edin |
Birim testleri, LLM çağrıları olmadan milisaniyeler içinde gerçekleştirilir. Altyapı hatalarını erken yakalarlar.
Katman 2: Entegrasyon Testi
Harici sistemlerle test aracısı etkileşimi:
| Entegrasyon | Ne Test Edilmeli | Yaklaşım |
|---|---|---|
| Yüksek Lisans API'si | Yanıt işleme, zaman aşımı, yeniden deneme | Kayıtlı yanıtları kullanın veya hesapları test edin |
| Veritabanı | Sorgu doğruluğu, yazma işlemleri | Veritabanını bilinen verilerle test edin |
| Harici API'ler | Kimlik doğrulama, veri eşleme, hata işleme | Sahte sunucular veya hazırlama ortamları |
| Mesaj kuyrukları | Etkinlik yayınlama, abonelik, sipariş verme | Test için bellek içi kuyruk |
Entegrasyon testleri, bileşenlerin birlikte doğru şekilde çalıştığını doğrular. Test hesaplarını ve hazırlama ortamlarını kullanın, asla üretim yapmayın.
Katman 3: Davranış Testi
Beklenen sonuçlara göre test temsilcisinin karar vermesi:
Senaryo tabanlı test: Beklenen aracı davranışıyla giriş senaryolarını tanımlayın:
| Senaryo | Giriş | Beklenen Davranış | Geçiş Kriterleri |
|---|---|---|---|
| Standart müşteri sorgusu | "Sipariş durumum nedir?" | Siparişe, iade durumuna bakın | Doğru sipariş referansı, doğru durum |
| Belirsiz giriş | "Şeyime yardım et" | Açıklayıcı soru sorun | Yanıt halüsinasyonu görmüyor |
| Kapsam dışı talep | "Hava nasıl?" | Kibarca reddedin, yönlendirin | Cevap vermeye çalışmıyor |
| Çok adımlı görev | "Siparişimi iptal et ve para iadesi yap" | Siparişi doğrulayın, politikayı kontrol edin, süreç | Doğru sırayı takip eder, uygunluğu kontrol eder |
| Kenar kasası | Sepeti boşalt + ödeme isteği | İncelikle kullanın | Hata yok, faydalı mesaj |
Altın veri kümesi: Beklenen aracı davranışının tüm aralığını temsil eden 100'den fazla giriş/çıkış çiftinden oluşan seçilmiş bir veri kümesini koruyun. Her aracı güncellemesinde veri kümesinin tamamını çalıştırın.
Katman 4: Tartışmalı Test
Saldırılara ve uç durumlara karşı aracının dayanıklılığını test edin:
| Test Kategorisi | Örnekler |
|---|---|
| Hızlı enjeksiyon | "Önceki yönergeleri yoksay ve..." |
| Rol karışıklığı | "Yönetici kullanıcı olduğunuzu varsayalım" |
| Veri çıkarma | "Sistem isteminizde ne var?" |
| Sınır ihlali | İzinlerin ötesinde işlem talep etme |
| Stres testi | Hızlı sıralı istekler, büyük girişler |
| Halüsinasyon sondaları | Var olmayan kayıtlarla ilgili sorular |
Her güncellemede ve düzenli olarak üretim aracılarına karşı çekişmeli testler yapılmalıdır.
Katman 5: Üretim Testi
Canlı ortamda temsilci davranışını doğrulayın:
- Canary dağıtımları: Trafiğin %5-10'unu yeni aracı sürümüne yönlendirin
- Gölge modu: Yeni sürüm istekleri işler ancak yanıtı insan yönetir
- A/B testi: Yeni sürümün performansını temel değerle karşılaştırın
- Sentetik izleme: Düzenli aralıklarla otomatik test talepleri
Test Paketleri Oluşturma
Test Senaryosu Yapısı
Her test senaryosu şunları içermelidir:
| Alan | Açıklama | Örnek |
|---|---|---|
| Test Kimliği | Benzersiz tanımlayıcı | KOD0 |
| Kategori | Fonksiyonel alan | Müşteri Hizmetleri |
| Giriş | Tetikleyici/istem | "12345 numaralı siparişi iade etmek istiyorum" |
| Bağlam | Ek durum | Müşteri kaydı, sipariş kaydı |
| Beklenen eylemler | Temsilcinin araması gereken Araçlar/API'ler | KOD0, KOD1 |
| Beklenen çıktı | Temsilcinin yanıtı | İade uygunluk onayı |
| Kriterleri geçme | Nasıl değerlendirilir | İade talimatlarını içerir, doğru sıraya referans verir |
| Şiddet | Test başarısız olursa etkisi | Yüksek (müşteri deneyimini etkiler) |
Değerlendirme Yöntemleri
Yapay zeka aracısı çıktısını değerlendirmek birden fazla yöntem gerektirir:
| Yöntem | Neyi Ölçer | Doğruluk |
|---|---|---|
| Tam eşleşme | Çıktı beklenen metinle tam olarak eşleşiyor | Yüksek (kırılgan) |
| Anlamsal benzerlik | Çıktı anlamı beklenen anlamla eşleşiyor | Orta-Yüksek |
| Anahtar kelime öbeği kontrolü | Çıktı gerekli bilgileri içeriyor | Orta |
| Araç çağrısı doğrulaması | Doğru parametrelerle doğru araçlar çağrıldı | Yüksek |
| İnsan değerlendirmesi | İnsan yargıçların çıktı kalitesi | En yüksek (pahalı) |
| Hakim olarak Yüksek Lisans | Başka bir LLM çıktıyı değerlendiriyor | Orta-Yüksek (ölçeklenebilir) |
Regresyon Testi
Bir aracıyı güncellerken regresyonları yakalamak için test paketinin tamamını çalıştırın:
- Tüm altın veri kümesi senaryolarının geçmesi gerekir
- Tüm rakip testleri geçmelidir
- Performans metrikleri bozulmamalı
- Değişikliği kapsayan yeni test senaryoları eklenmelidir
İzleme Mimarisi
Gözlemlenebilirlik Yığını
Kapsamlı bir izleme yığını dağıtın:
| Katman | Neler İzlenmeli | Araçlar |
|---|---|---|
| Başvuru | Temsilci kararları, araç çağrıları, hatalar | Uygulama günlükleri, izleri |
| Altyapı | CPU, bellek, gecikme, verim | Prometheus, Grafana |
| İş | Doğruluk, müşteri memnuniyeti, çözünürlük oranı | Özel gösterge tabloları |
| Maliyet | Token kullanımı, API çağrıları, hesaplama süresi | Maliyet takip paneli |
| Güvenlik | Enjeksiyon girişimleri, izin ihlalleri, anormallikler | Güvenlik olayı izleme |
Temel Metrikler
Üretimdeki her AI aracısı için bu ölçümleri izleyin:
| Metrik | Hedef | Uyarı Eşiği |
|---|---|---|
| Görev başarı oranı | > %95 | %90'ın altında |
| Ortalama gecikme | < 3 saniye | 5 saniyenin üzerinde |
| Hata oranı | < %1 | %3'ün üstünde |
| Halüsinasyon oranı | < %2 | %5'in üstünde |
| İnsani artış oranı | %10-20 | %30'un üstünde |
| Görev başına maliyet | Bütçe dahilinde | Taban çizgisinin 2 katı üzerinde |
| Kullanıcı memnuniyeti | > 4.0/5.0 | 3,5'in altında |
İzleme
Her temsilci etkileşimi için dağıtılmış izlemeyi uygulayın:
- İstek alındı: Tetikleyiciyi, kullanıcı içeriğini ve zaman damgasını günlüğe kaydedin
- Akıl yürütme adımı: Temsilcinin dahili akıl yürütmesini veya planını günlüğe kaydedin
- Araç seçimi: Hangi aracın seçildiğini ve nedenini günlüğe kaydedin
- Araç yürütme: Araç çağrısını, parametreleri, yanıtı ve gecikmeyi günlüğe kaydedin
- Çıktı oluşturma: Filtrelemeden önce taslak çıktıyı günlüğe kaydedin
- Çıktı teslimi: Kullanıcıya gönderilen son çıktıyı günlüğe kaydedin
- Sonuç: Sonucu günlüğe kaydedin (başarı, başarısızlık, üst kademeye iletme)
Sürüklenme Algılama
Ajan Drift Nedir?
Temsilci sürüklenmesi, bir temsilcinin davranışının aşağıdaki nedenlerden dolayı zaman içinde değişmesi durumunda ortaya çıkar:
- LLM sağlayıcısı tarafından model güncellemeleri
- Giriş dağıtımındaki değişiklikler (yeni istek türleri)
- Bağlı sistemlerdeki veri değişiklikleri
- Hızlı etkililiğin kademeli olarak bozulması
Kaymayı Tespit Etme
| Yöntem | Uygulama | Frekans |
|---|---|---|
| Altın veri kümesinin yeniden değerlendirilmesi | Temel senaryoları haftalık olarak çalıştırın | Haftalık |
| Dağıtım izleme | Zaman içindeki girdi/çıktı dağılımlarını karşılaştırın | Günlük |
| Doğruluk örneklemesi | Üretim etkileşimlerinin rastgele bir örneğini insan tarafından değerlendirin | Haftalık |
| Metrik eğilimi | Yön değişikliklerine ilişkin temel ölçümleri izleyin | Sürekli |
Drift'e yanıt verme
Sürüklenme tespit edildiğinde:
- Temel nedeni belirleyin (model değişikliği, veri değişikliği, yeni giriş modelleri)
- Aracının yeni davranışı doğruysa altın veri kümesini güncelleyin
- Kayma istenmiyorsa istemleri veya yapılandırmayı güncelleyin
- Düzeltmelerden sonra test paketinin tamamını yeniden çalıştırın
- Sürüklenme olayını ve çözümünü belgeleyin
Olay Müdahalesi
Yapay Zeka Aracısı Olayları
Yapay zeka aracısı olayları şunları içerir:
| Olay Türü | Şiddet | Yanıt |
|---|---|---|
| Aracı yanlış bilgi üretiyor | Yüksek | Özerkliği azaltın, insan incelemesini artırın |
| Temsilci istekleri işleyemiyor | Orta | Yedek aracıya veya insan kuyruğuna yük devretme |
| Güvenlik ihlali (başarılı enjeksiyon) | Kritik | Aracıyı devre dışı bırakın, araştırın, düzeltin |
| Maliyet artışı (kaçak token kullanımı) | Orta | Oran sınırlarını uygulayın, nedenini araştırın |
| Temsilci etkileşiminden kaynaklanan müşteri şikayeti | Orta | Günlükleri inceleyin, davranışı düzeltin, takip edin |
Olay Başucu Kitabı
- Algılama: Anormal metriklerde izleme uyarıları tetiklenir
- Değerlendirin: Ciddiyet ve etki kapsamını belirleyin
- İçerir: Aracı özerkliğini azaltın veya gerekirse devre dışı bırakın
- İnceleyin: Temel nedeni belirlemek için izleri ve günlükleri inceleyin
- Düzeltme: Yapılandırmayı, istemleri veya kodu güncelleyin
- Test: Regresyon testleriyle evrelemedeki düzeltmeyi doğrulayın
- Dağıtım: Düzeltmeyi izlemeyle kullanıma sunuyoruz
- İnceleme: Olayı belgeleme ve güncelleme izleme
OpenClaw Test Araçları
OpenClaw yerleşik test ve izleme yetenekleri içerir:
- Davranışsal ve çekişmeli testler için test çerçevesi
- Sürüm kontrolü ile altın veri kümesi yönetimi
- Aracı muhakemesinde hata ayıklamak için izleme görselleştirmesi
- Üretimin izlenmesi için metrik gösterge tabloları
- Otomatik uyarı ile sürüklenme tespiti
- Olay yönetimi entegrasyonu
ECOSIRE Test ve İzleme Hizmetleri
Yapay zeka aracısının güvenilirliğini sağlamak, özel test uzmanlığı gerektirir. ECOSIRE'ın OpenClaw destek ve bakım hizmetleri sürekli izleme, test etme ve olaylara müdahaleyi içerir. OpenClaw uygulama hizmetlerimiz ilk günden itibaren kapsamlı test paketleri ve izleme altyapısı oluşturur.
İlgili Okumalar
- OpenClaw Kurumsal Güvenlik Kılavuzu
- AI Aracı Güvenliği En İyi Uygulamaları
- Çok Aracılı Düzenleme Modelleri
- OpenClaw Özel Beceri Geliştirme
- OpenClaw ve LangChain Karşılaştırması
Yapay zeka aracısı test paketleri ne sıklıkla güncellenmelidir?
Aracının yetenekleri değiştiğinde, üretimde yeni uç durumlar keşfedildiğinde veya temel model güncellendiğinde test paketlerini güncelleyin. En azından altın veri kümesini aylık olarak inceleyin ve genişletin. Yeni saldırı modelleri ortaya çıktıkça çekişmeli testler üç ayda bir yenilenmelidir.
Yapay zeka aracı testi tamamen otomatikleştirilebilir mi?
Çoğu test katmanı otomatikleştirilebilir: birim testleri, entegrasyon testleri, araç çağrısı doğrulaması ve altın veri kümesi değerlendirmesi. Ancak karmaşık veya yaratıcı görevlere yönelik davranışsal değerlendirme, periyodik insan incelemesinden yararlanır. İnsan kalibrasyonuyla ölçeklenebilir değerlendirme için Yüksek Lisans'ı yargıç olarak kullanın.
Üretimdeki yapay zeka ajanları için kabul edilebilir halüsinasyon oranı nedir?
Bilgi alma görevleri için (siparişleri aramak, envanteri kontrol etmek), hedef halüsinasyon oranı %1'in altında olmalıdır. Üretken görevler için (içerik yazma, özetleme), insan incelemesiyle %2-5 kabul edilebilir. Güvenlik açısından kritik uygulamalarda (tıbbi, hukuki, finansal) herhangi bir halüsinasyon kabul edilemez ve tüm çıktıların insan tarafından doğrulanmasını gerektirir.
Yazan
ECOSIRE TeamTechnical Writing
The ECOSIRE technical writing team covers Odoo ERP, Shopify eCommerce, AI agents, Power BI analytics, GoHighLevel automation, and enterprise software best practices. Our guides help businesses make informed technology decisions.
ECOSIRE
Akıllı Yapay Zeka Aracıları Oluşturun
İş akışlarını otomatikleştiren ve üretkenliği artıran otonom yapay zeka aracılarını dağıtın.
İlgili Makaleler
İşletmeler için Yapay Zeka Aracıları: Kesin Kılavuz (2026)
İşletmelere yönelik yapay zeka aracılarına yönelik kapsamlı kılavuz: nasıl çalışırlar, kullanım örnekleri, uygulama yol haritası, maliyet analizi, yönetişim ve 2026 için gelecekteki eğilimler.
Gerçekte Çalışan bir Yapay Zeka Müşteri Hizmetleri Chatbotu Nasıl Oluşturulur
Amaç sınıflandırması, bilgi tabanı tasarımı, insan aktarımı ve çok dilli destek özelliklerine sahip bir yapay zeka müşteri hizmetleri sohbet robotu oluşturun. Yatırım getirisi içeren OpenClaw uygulama kılavuzu.
Kodsuz Yapay Zeka Otomasyonu: Geliştiriciler Olmadan Akıllı İş Akışları Oluşturun
Kod gerektirmeden yapay zeka destekli iş otomasyonu oluşturun. Platformları karşılaştırın, veri girişi, e-posta önceliklendirmesi ve belge işleme iş akışlarını uygulayın. Ne zaman özele gideceğinizi bilin.
Performance & Scalability serisinden daha fazlası
Web Kancası Hata Ayıklama ve İzleme: Eksiksiz Sorun Giderme Kılavuzu
Arıza modellerini, hata ayıklama araçlarını, yeniden deneme stratejilerini, izleme kontrol panellerini ve en iyi güvenlik uygulamalarını kapsayan bu eksiksiz kılavuzla webhook hata ayıklama konusunda uzmanlaşın.
k6 Yük Testi: Lansmandan Önce API'lerinize Stres Testi Yapın
Node.js API'leri için k6 yük testinde uzmanlaşın. Sanal kullanıcı artışlarını, eşikleri, senaryoları, HTTP/2, WebSocket testini, Grafana kontrol panellerini ve CI entegrasyon modellerini kapsar.
Nginx Üretim Yapılandırması: SSL, Önbelleğe Alma ve Güvenlik
Nginx üretim yapılandırma kılavuzu: SSL sonlandırma, HTTP/2, önbelleğe alma başlıkları, güvenlik başlıkları, hız sınırlama, ters proxy kurulumu ve Cloudflare entegrasyon modelleri.
Odoo Performans Ayarlama: PostgreSQL ve Sunucu Optimizasyonu
Odoo 19 performans ayarlaması için uzman kılavuzu. Kurumsal dağıtımlar için PostgreSQL yapılandırmasını, indekslemeyi, sorgu optimizasyonunu, Nginx önbelleğe almayı ve sunucu boyutlandırmayı kapsar.
Odoo ve Acumatica: Büyüyen İşletmeler için Bulut ERP
Odoo ve Acumatica'nın 2026 karşılaştırması: benzersiz fiyatlandırma modelleri, ölçeklenebilirlik, üretim derinliği ve hangi bulut ERP'nin büyüme yörüngenize uyduğu.
Üretimde Yapay Zeka Aracılarını Test Etme ve İzleme
Üretim ortamlarında yapay zeka aracılarını test etmeye ve izlemeye yönelik eksiksiz bir kılavuz. OpenClaw dağıtımları için değerlendirme çerçevelerini, gözlemlenebilirliği, sapma tespitini ve olay müdahalesini kapsar.