AI Agent Security Best Practices: Protecting Autonomous Systems

Comprehensive guide to securing AI agents covering prompt injection defense, permission boundaries, data protection, audit logging, and operational security.

E
ECOSIRE Research and Development Team
|16 मार्च 202611 मिनट पढ़ें2.3k शब्द|

हमारी Security & Cybersecurity श्रृंखला का हिस्सा

पूरी गाइड पढ़ें

एआई एजेंट सुरक्षा सर्वोत्तम अभ्यास: स्वायत्त प्रणालियों की सुरक्षा

एआई एजेंट जो उत्पादन प्रणालियों के साथ बातचीत करते हैं, संवेदनशील डेटा तक पहुंचते हैं और स्वायत्त निर्णय लेते हैं, सुरक्षा जोखिम की एक नई श्रेणी पेश करते हैं। पारंपरिक एप्लिकेशन सुरक्षा कोड कमजोरियों और नेटवर्क खतरों को संबोधित करती है। एआई एजेंट सुरक्षा को अतिरिक्त रूप से त्वरित इंजेक्शन, अनुमति वृद्धि, मॉडल आउटपुट के माध्यम से डेटा रिसाव और संभाव्य तर्क के आधार पर निर्णय लेने वाले सिस्टम को नियंत्रित करने की चुनौती को संबोधित करना चाहिए। यह मार्गदर्शिका एआई एजेंटों को सुरक्षित रूप से तैनात करने के लिए व्यापक सुरक्षा ढांचे को शामिल करती है।

मुख्य बातें

  • एआई एजेंट सुरक्षा के लिए पांच परतों में गहराई से रक्षा की आवश्यकता होती है: इनपुट सत्यापन, अनुमति सीमाएं, निष्पादन सैंडबॉक्सिंग, आउटपुट फ़िल्टरिंग और ऑडिट लॉगिंग
  • शीघ्र इंजेक्शन एआई एजेंटों के खिलाफ प्राथमिक हमला वेक्टर है और इसके लिए केवल सामग्री फ़िल्टरिंग की नहीं बल्कि संरचनात्मक सुरक्षा की आवश्यकता होती है
  • न्यूनतम विशेषाधिकार का सिद्धांत मानव उपयोगकर्ताओं की तुलना में एआई एजेंटों पर अधिक सख्ती से लागू होता है क्योंकि एजेंट मशीन की गति से काम करते हैं
  • उत्पादन प्रणालियों पर सभी एजेंट कार्यों को फोरेंसिक विश्लेषण के लिए पर्याप्त विवरण के साथ लॉग किया जाना चाहिए
  • एजेंट की विश्वसनीयता सिद्ध होने तक उच्च प्रभाव वाले संचालन के लिए मानव-इन-द-लूप चौकियां आवश्यक हैं

एआई एजेंट खतरा मॉडल

आक्रमण सतह

एआई एजेंट पारंपरिक अनुप्रयोगों से परे हमले की सतहों को उजागर करते हैं:

हमला वेक्टरविवरणजोखिम स्तर
शीघ्र इंजेक्शनदुर्भावनापूर्ण इनपुट जो एजेंट के व्यवहार को बदल देता हैगंभीर
अनुमति वृद्धिएजेंट अपने दायरे से परे संसाधनों तक पहुंच बना रहा हैउच्च
डेटा घुसपैठएजेंट आउटपुट के माध्यम से उजागर हुआ संवेदनशील डेटाउच्च
सेवा से इनकारजबरदस्त एजेंट संसाधन या अनंत लूप ट्रिगर करनामध्यम
आपूर्ति शृंखलासमझौता किए गए कौशल, प्लगइन्स, या मॉडल भारउच्च
सोशल इंजीनियरिंगबातचीत के माध्यम से धोखे से हेरफेर करने वाला एजेंटमध्यम
प्रशिक्षण डेटा विषाक्तताएजेंट के निर्णयों को प्रभावित करने वाला दूषित प्रशिक्षण डेटामध्यम

जोखिम श्रेणियाँ

श्रेणीउदाहरण
गोपनीयताएजेंट ग्राहक पीआईआई, वित्तीय डेटा, या व्यापार रहस्यों को उजागर करता है
सत्यनिष्ठाएजेंट डेटा को गलत तरीके से संशोधित करता है, धोखाधड़ी वाले रिकॉर्ड बनाता है
उपलब्धताएजेंट अत्यधिक संसाधनों का उपभोग करता है, वैध संचालन को अवरुद्ध करता है
अनुपालनएजेंट की कार्रवाइयां नियमों का उल्लंघन करती हैं (जीडीपीआर, एचआईपीएए, एसओएक्स)

परत 1: इनपुट सत्यापन

शीघ्र इंजेक्शन बचाव

प्रॉम्प्ट इंजेक्शन तब होता है जब उपयोगकर्ता इनपुट में ऐसे निर्देश होते हैं जो एजेंट के सिस्टम प्रॉम्प्ट को ओवरराइड करते हैं। संरचनात्मक सुरक्षा में शामिल हैं:

इनपुट/निर्देश पृथक्करण: सिस्टम निर्देशों और उपयोगकर्ता इनपुट के बीच सख्त सीमाएं बनाए रखें। उपयोगकर्ता इनपुट को कभी भी सीधे सिस्टम प्रॉम्प्ट में न जोड़ें।

इनपुट सैनिटाइजेशन: प्रोसेसिंग से पहले यूजर इनपुट से स्ट्रिप या एस्केप कंट्रोल कैरेक्टर, विशेष टोकन और निर्देश जैसे पैटर्न।

प्रासंगिक फ़िल्टरिंग: ऐसे इनपुट का पता लगाएं और फ़्लैग करें जिनमें सिस्टम निर्देशों, रोल-प्लेइंग अनुरोधों ("पिछले निर्देशों को अनदेखा करें..."), या एन्कोडिंग ट्रिक्स (बेस64, आरओटी13, यूनिकोड) से मिलते-जुलते पैटर्न हों।

इनपुट सत्यापन नियम

नियमकार्यान्वयनउद्देश्य
लंबाई सीमाप्रति फ़ील्ड अधिकतम इनपुट लंबाईप्रसंग अतिप्रवाह को रोकें
चरित्र फ़िल्टरिंगब्लॉक नियंत्रण वर्ण और विशेष टोकनएन्कोडिंग के माध्यम से इंजेक्शन रोकें
पैटर्न का पता लगानाज्ञात इंजेक्शन पैटर्न चिह्नित करेंसीधे हमले पकड़ें
दर सीमित करनाप्रति उपयोगकर्ता प्रति टाइम विंडो अधिकतम अनुरोधक्रूर-बल के हमलों को रोकें
प्रारूप सत्यापनअपेक्षित इनपुट संरचना लागू करेंसंरचित क्षेत्रों में फ्रीफॉर्म इंजेक्शन को रोकें

गहराई में रक्षा

कोई भी बचाव सभी त्वरित इंजेक्शन को नहीं रोकता है। परत एकाधिक सुरक्षा:

  1. इनपुट सैनिटाइजेशन ज्ञात हमले के पैटर्न को हटा देता है
  2. सिस्टम प्रॉम्प्ट हार्डनिंग ओवरराइड प्रयासों का प्रतिरोध करता है
  3. आउटपुट सत्यापन एजेंट के अनपेक्षित व्यवहार को पकड़ता है
  4. यदि इंजेक्शन सफल होता है तो अनुमति सीमाएँ क्षति को सीमित करती हैं
  5. ऑडिट लॉगिंग पता लगाने और फोरेंसिक विश्लेषण को सक्षम बनाता है

परत 2: अनुमति सीमाएँ

न्यूनतम विशेषाधिकार का सिद्धांत

प्रत्येक AI एजेंट के पास उसके कार्य के लिए आवश्यक न्यूनतम अनुमतियाँ होनी चाहिए:

| एजेंट प्रकार | अनुमतियाँ पढ़ें | अनुमतियाँ लिखें | अवरुद्ध | |----|-----------------|----|----|----| | ग्राहक सेवा | ग्राहक रिकॉर्ड, ऑर्डर, अक्सर पूछे जाने वाले प्रश्न | टिकट निर्माण, नोट्स | वित्तीय डेटा, व्यवस्थापक सेटिंग्स | | इन्वेंटरी मॉनिटर | स्टॉक स्तर, उत्पाद डेटा | चेतावनी सृजन | मूल्य परिवर्तन, विलोपन | | रिपोर्ट जेनरेटर | सभी व्यावसायिक डेटा (केवल पढ़ने के लिए) | रिपोर्ट फ़ाइल निर्माण | बिजनेस रिकॉर्ड के लिए कोई भी लिखें | | बिक्री सहायक | सीआरएम संपर्क, पाइपलाइन, उत्पाद | अवसर अद्यतन, कार्य निर्माण | वित्तीय रिकॉर्ड, मानव संसाधन डेटा |

अनुमति प्रवर्तन

अनुमतियों को बुनियादी ढांचे के स्तर पर लागू करें, शीघ्र स्तर पर नहीं:

  • एपीआई कुंजी स्कोपिंग: विशिष्ट एंडपॉइंट एक्सेस के साथ एपीआई कुंजी जारी करें
  • डेटाबेस दृश्य: एजेंट डेटा एक्सेस के लिए केवल पढ़ने योग्य दृश्य बनाएं
  • नेटवर्क विभाजन: एजेंट नेटवर्क पहुंच को केवल आवश्यक सेवाओं तक सीमित करें
  • फ़ाइल सिस्टम अलगाव: एजेंटों को निर्दिष्ट निर्देशिकाओं से परे फ़ाइल सिस्टम तक नहीं पहुंचना चाहिए

वृद्धि की रोकथाम

एजेंटों को अपनी स्वयं की अनुमतियाँ बढ़ाने से रोकें:

  • एजेंटों को कभी भी अपने स्वयं के अनुमति कॉन्फ़िगरेशन को संशोधित करने की अनुमति न दें
  • एडमिन एपीआई या अनुमति प्रबंधन एंडपॉइंट को एजेंट खातों में उजागर न करें
  • असामान्य पहुंच पैटर्न की निगरानी करें (एजेंट अपने सामान्य दायरे से बाहर संसाधनों तक पहुंच बना रहा है)
  • कठोर सीमाएं लागू करें जिन्हें एजेंट के तर्क से ओवरराइड नहीं किया जा सकता है

परत 3: निष्पादन सैंडबॉक्सिंग

सैंडबॉक्स्ड वातावरण

पृथक वातावरण में AI एजेंट वर्कलोड चलाएँ:

| अलगाव स्तर | प्रौद्योगिकी | केस का प्रयोग करें | |----------------|----||----------| | कंटेनर | डॉकर, कुबेरनेट्स पॉड्स | मानक एजेंट कार्यभार | | वीएम | हल्के वजन वाले वीएम (पटाखा) | अविश्वसनीय कोड निष्पादन | | वेबअसेंबली | वासम सैंडबॉक्स | प्लगइन/कौशल निष्पादन | | नेटवर्क नेमस्पेस | प्रति एजेंट नेटवर्क अलगाव | पार्श्व गति को रोकना |

संसाधन सीमाएँ

एजेंटों को अत्यधिक संसाधनों का उपभोग करने से रोकें:

संसाधनसीमाक्यों
सीपीयूप्रति एजेंट अधिकतम कोरगणना एकाधिकार को रोकें
स्मृतिअधिकतम रैम आवंटनमेमोरी से बाहर होने की स्थिति को रोकें
नेटवर्कदर सीमा एपीआई कॉलसेवा से इनकार रोकें
भंडारणअधिकतम डिस्क उपयोगडिस्क थकावट को रोकें
निष्पादन का समयप्रति कार्य अधिकतम रनटाइमअनंत लूप रोकें
एपीआई कॉलप्रति मिनट अधिकतम बाहरी कॉलदुरुपयोग और लागत वृद्धि को रोकें

टाइमआउट और सर्किट ब्रेकर

  • प्रत्येक एजेंट कार्य के लिए अधिकतम निष्पादन समय निर्धारित करें
  • सर्किट ब्रेकर लागू करें जो बार-बार विफलता के बाद एजेंट को अक्षम कर दें
  • कार्य विफल होने पर आंशिक संचालन के लिए स्वचालित रोलबैक कॉन्फ़िगर करें

परत 4: आउटपुट फ़िल्टरिंग

डेटा रिसाव की रोकथाम

संवेदनशील डेटा एक्सपोज़र को रोकने के लिए फ़िल्टर एजेंट आउटपुट:

फ़िल्टर प्रकारयह क्या पकड़ता हैकार्यान्वयन
पीआईआई का पता लगानानाम, ईमेल, फ़ोन नंबर, एसएसएनरेगेक्स पैटर्न + एमएल क्लासिफायर
वित्तीय डेटाक्रेडिट कार्ड नंबर, बैंक खातेलुहान सत्यापन + पैटर्न मिलान
साखएपीआई कुंजी, पासवर्ड, टोकनएन्ट्रॉपी विश्लेषण + पैटर्न मिलान
आंतरिक डेटासिस्टम आर्किटेक्चर, आईपी पतेकस्टम पैटर्न नियम

आउटपुट सत्यापन

सत्यापित करें कि एजेंट आउटपुट अपेक्षित प्रारूपों से मेल खाते हैं:

  • संरचित आउटपुट (JSON, डेटाबेस राइट्स) को परिभाषित स्कीमा के अनुरूप होना चाहिए
  • मतिभ्रम संकेतकों के लिए प्राकृतिक भाषा आउटपुट की जाँच की जानी चाहिए
  • एक्शन आउटपुट (एपीआई कॉल, फ़ाइल ऑपरेशंस) घोषित इरादे से मेल खाना चाहिए
  • उपयोगकर्ताओं की प्रतिक्रियाओं में सिस्टम प्रॉम्प्ट सामग्री या आंतरिक तर्क शामिल नहीं होना चाहिए

सामग्री सुरक्षा

ग्राहक-सामना करने वाले एजेंटों के लिए:

  • अनुपयुक्त सामग्री के लिए आउटपुट फ़िल्टर करें
  • सुनिश्चित करें कि प्रतिक्रियाएँ एजेंट के निर्धारित दायरे में रहें
  • एजेंट को अनधिकृत प्रतिबद्धताएं या वादे करने से रोकें
  • ऐसे आउटपुट को ब्लॉक करें जो कानूनी, चिकित्सा या वित्तीय सलाह बन सकते हैं (जब तक कि विशेष रूप से अधिकृत न हो)

परत 5: ऑडिट लॉगिंग

क्या लॉग करना है

प्रत्येक एजेंट कार्रवाई को पर्याप्त विवरण के साथ लॉग किया जाना चाहिए:

लॉग फ़ील्डसामग्रीउद्देश्य
टाइमस्टैम्पकार्रवाई का सटीक समयसमयरेखा पुनर्निर्माण
एजेंट आईडीकिस एजेंट ने कार्रवाई कीजवाबदेही
क्रिया प्रकारपढ़ें, लिखें, एपीआई कॉल, निर्णयवर्गीकरण
इनपुटकिस कारण से हुई कार्रवाईमूल कारण विश्लेषण
आउटपुटक्रिया से क्या उत्पन्न हुआप्रभाव आकलन
लक्ष्यकौन सा सिस्टम/रिकॉर्ड प्रभावित हुआकार्यक्षेत्र निर्धारण
उपयोगकर्ता प्रसंगकिस उपयोगकर्ता (यदि कोई हो) ने प्रवाह शुरू कियागुण
निर्णय तर्कएजेंट ने यह कार्रवाई क्यों चुनीव्याख्यात्मकता

लॉग प्रतिधारण

लॉग प्रकारअवधारण अवधिभंडारण
सुरक्षा घटनाएँ2+ वर्षअपरिवर्तनीय भण्डारण
वित्तीय कार्यवाही7+ वर्ष (विनियामक)अपरिवर्तनीय भण्डारण
परिचालन लॉग90 दिनमानक भंडारण
डिबग लॉग30 दिनक्षणिक भंडारण

विसंगति का पता लगाना

संदिग्ध पैटर्न के लिए लॉग की निगरानी करें:

  • असामान्य पहुंच समय (निर्धारित कार्यों के बिना व्यावसायिक घंटों के बाहर काम करने वाला एजेंट)
  • एक्सेस पैटर्न में बदलाव (एजेंट अचानक विभिन्न डेटा श्रेणियों को पढ़ रहा है)
  • त्रुटि दर में बढ़ोतरी (संभावित इंजेक्शन प्रयास)
  • वॉल्यूम विसंगतियाँ (10x सामान्य एपीआई कॉल)

लूप में मानव नियंत्रण

मानव अनुमोदन की आवश्यकता कब होगी

ऑपरेशन श्रेणीअनुमोदन की आवश्यकता
सीमा से ऊपर वित्तीय लेनदेनAlways require approval
थोक डेटा संशोधन (100+ रिकॉर्ड)हमेशा अनुमोदन की आवश्यकता होती है
ग्राहकों से बाहरी संचारविश्वसनीयता सिद्ध होने तक अनुमोदन की आवश्यकता है
सिस्टम कॉन्फ़िगरेशन परिवर्तनहमेशा अनुमोदन की आवश्यकता होती है
नया पैटर्न/व्यवहार पहले नहीं देखासमीक्षा के लिए ध्वजांकित करें

अनुमोदन कार्यप्रवाह

  1. एजेंट अनुमोदन की आवश्यकता वाले कार्य की पहचान करता है
  2. संदर्भ और तर्क के साथ अनुमोदन अनुरोध भेजता है
  3. मानव समीक्षा करता है और अनुमोदन, संशोधन या अस्वीकार करता है
  4. एजेंट स्वीकृत कार्रवाई निष्पादित करता है (या संशोधित संस्करण)
  5. भविष्य के प्रशिक्षण और नीति परिशोधन के लिए परिणाम लॉग किया जाता है

स्नातक स्वायत्तता

कड़ी मानवीय निगरानी से शुरुआत करें और धीरे-धीरे आराम करें:

चरणनिरीक्षण स्तरअवधि
1. छाया मोडएजेंट सुझाव देता है, मानव क्रियान्वित करता है2-4 सप्ताह
2. पर्यवेक्षितएजेंट कार्यान्वित करता है, मानव सभी की समीक्षा करता है2-4 सप्ताह
3. स्पॉट-चेक किया गयाएजेंट निष्पादित करता है, मानव समीक्षा नमूना (20%)4-8 सप्ताह
4. अपवाद आधारितएजेंट क्रियान्वित करता है, मानव विसंगतियों की समीक्षा करता हैजारी

ओपनक्लॉ सुरक्षा सुविधाएँ

OpenClaw इन सुरक्षा सर्वोत्तम प्रथाओं को मूल रूप से लागू करता है:

  • एजेंट अनुमतियों के लिए भूमिका-आधारित अभिगम नियंत्रण
  • अंतर्निहित त्वरित इंजेक्शन का पता लगाना और फ़िल्टर करना
  • कौशल निष्पादन के लिए निष्पादन सैंडबॉक्सिंग
  • कॉन्फ़िगर करने योग्य प्रतिधारण के साथ व्यापक ऑडिट लॉगिंग
  • मानव अनुमोदन वर्कफ़्लो एकीकरण
  • विसंगति का पता लगाने वाले डैशबोर्ड

ECOSIRE AI सुरक्षा सेवाएँ

एआई एजेंटों को सुरक्षित रूप से तैनात करने के लिए साइबर सुरक्षा और एआई सिस्टम में विशेषज्ञता की आवश्यकता होती है। ECOSIRE की OpenClaw सुरक्षा सख्त सेवाएं इस गाइड में वर्णित पूर्ण सुरक्षा ढांचे को लागू करती हैं। हमारी ओपनक्लाव कार्यान्वयन सेवाएं में प्रत्येक तैनाती के मुख्य घटक के रूप में सुरक्षा वास्तुकला शामिल है।

संबंधित पढ़ना

क्या एआई एजेंटों को त्वरित इंजेक्शन के खिलाफ पूरी तरह से सुरक्षित बनाया जा सकता है?

कोई भी एकल बचाव त्वरित इंजेक्शन जोखिम को पूरी तरह से समाप्त नहीं करता है। लक्ष्य गहराई से रक्षा करना है जो सफल इंजेक्शन को और अधिक कठिन बना देता है और यदि ऐसा होता है तो प्रभाव को सीमित कर देता है। उपयोगकर्ता इनपुट से निर्देशों का संरचनात्मक पृथक्करण, सख्त अनुमति सीमाएं और आउटपुट सत्यापन मिलकर अधिकांश व्यावसायिक अनुप्रयोगों के लिए जोखिम को स्वीकार्य स्तर तक कम कर देते हैं।

क्या एआई एजेंटों को उत्पादन डेटाबेस तक पहुंच होनी चाहिए?

एआई एजेंटों को अनुमति के दायरे के साथ एपीआई परतों के माध्यम से उत्पादन डेटा तक पहुंचना चाहिए, न कि सीधे डेटाबेस कनेक्शन के माध्यम से। यह सुनिश्चित करता है कि पहुंच नियंत्रण, ऑडिट लॉगिंग और दर सीमित करना लागू किया गया है। केवल पढ़ने योग्य एजेंटों के लिए, डेटाबेस प्रतिकृतियां या केवल पढ़ने योग्य दृश्य एक अतिरिक्त सुरक्षा परत प्रदान करते हैं।

आप एआई एजेंटों के लिए अनुपालन आवश्यकताओं (जीडीपीआर, एचआईपीएए) को कैसे संभालते हैं?

अनुपालन ढांचे के तहत एआई एजेंटों के साथ किसी अन्य सिस्टम उपयोगकर्ता की तरह व्यवहार करें। डेटा न्यूनीकरण लागू करें (एजेंट केवल आवश्यक डेटा तक पहुंचें), उद्देश्य सीमा (एजेंट केवल अपने परिभाषित कार्य के लिए डेटा का उपयोग करें), लॉगिंग और ऑडिट ट्रेल्स, और डेटा विषय अधिकार समर्थन (अनुरोध पर एजेंट-संसाधित व्यक्तिगत डेटा को खोजने और हटाने की क्षमता)।

E

लेखक

ECOSIRE Research and Development Team

ECOSIRE में एंटरप्राइज़-ग्रेड डिजिटल उत्पाद बना रहे हैं। Odoo एकीकरण, ई-कॉमर्स ऑटोमेशन, और AI-संचालित व्यावसायिक समाधानों पर अंतर्दृष्टि साझा कर रहे हैं।

WhatsApp पर चैट करें