प्रशिक्षण और फाइन-ट्यूनिंग ओपनक्लॉ कौशल

सामान्य आधार मॉडल के साथ तैनात ओपनक्लॉ कौशल मानक व्यावसायिक कार्यों - दस्तावेज़ सारांश, संरचित डेटा निष्कर्षण, वर्कफ़्लो समन्वय के लिए अच्छा प्रदर्शन करते हैं। लेकिन डोमेन-विशिष्ट कार्यों - मेडिकल कोडिंग, कानूनी खंड विश्लेषण, विशेष तकनीकी वर्गीकरण, उद्योग-विशिष्ट जोखिम मूल्यांकन - के लिए उत्पादन-गुणवत्ता सटीकता प्राप्त करने के लिए विशिष्ट डोमेन से जुड़े मॉडल और संकेतों की आवश्यकता होती है।

यह मार्गदर्शिका ओपनक्लॉ कौशल के प्रशिक्षण और फाइन-ट्यूनिंग के लिए संपूर्ण वर्कफ़्लो को कवर करती है: यह पहचानने से लेकर कि फाइन-ट्यूनिंग की आवश्यकता कब है, डेटा तैयारी, फाइन-ट्यूनिंग निष्पादन, मूल्यांकन और चल रहे पुनरावृत्ति के माध्यम से।

मुख्य बातें

फ़ाइन-ट्यूनिंग सामान्य फ़ाउंडेशन मॉडल की तुलना में डोमेन-विशिष्ट कार्यों पर सटीकता में 15-40% सुधार करती है

फ़ाइन-ट्यूनिंग में निवेश करने से पहले त्वरित इंजीनियरिंग और कुछ-शॉट सीखना समाप्त हो जाना चाहिए

फाइन-ट्यूनिंग के लिए अधिकांश व्यावसायिक कार्यों के लिए 500-5,000 उच्च गुणवत्ता वाले प्रशिक्षण उदाहरणों की आवश्यकता होती है

डेटा की गुणवत्ता मात्रा से अधिक मायने रखती है - 500 उत्कृष्ट उदाहरण 5,000 औसत उदाहरणों से बेहतर प्रदर्शन करते हैं

उत्पादन में सुव्यवस्थित मॉडलों को तैनात करने से पहले आयोजित परीक्षण सेट के विरुद्ध मूल्यांकन आवश्यक है

जब व्यावसायिक नियम बदलते हैं या मॉडल बहाव का पता चलता है तो फाइन-ट्यून किए गए मॉडल को पुनः प्रशिक्षण की आवश्यकता होती है

लोरा जैसी पीईएफटी (पैरामीटर-कुशल फाइन-ट्यूनिंग) विधियां बड़े पैमाने पर गणना के बिना फाइन-ट्यूनिंग को सुलभ बनाती हैं

4-8 सप्ताह के पुनरावृत्ति चक्र समय के साथ मॉडल के प्रदर्शन में लगातार सुधार बनाए रखते हैं

जब फ़ाइन-ट्यूनिंग की आवश्यकता हो (और नहीं भी)।

एजेंट सटीकता में सुधार के लिए फाइन-ट्यूनिंग पहला उपाय नहीं है - सरल दृष्टिकोण समाप्त होने के बाद यह अंतिम उपाय है। विशिष्ट परिस्थितियों में निवेश उचित है।

यहां प्रारंभ करें: प्रॉम्प्ट इंजीनियरिंग। किसी भी प्रशिक्षण निवेश से पहले, प्रॉम्प्ट को अनुकूलित करें। एक ही कार्य के लिए औसत और उत्कृष्ट संकेत के बीच का अंतर अक्सर 20-30% सटीकता में सुधार होता है। तकनीकें: स्पष्ट कार्य विवरण, स्पष्ट आउटपुट प्रारूप विनिर्देश, विचार-श्रृंखला निर्देश, प्रॉम्प्ट में एक या दो उदाहरण (कुछ-शॉट)। कई टीमें फाइन-ट्यूनिंग में निवेश करती हैं जबकि बेहतर शीघ्र इंजीनियरिंग से समस्या हल हो जाती।

फिर: आरएजी (रिट्रीवल ऑगमेंटेड जेनरेशन)। विशिष्ट ज्ञान (उत्पाद कैटलॉग विवरण, नियामक नियम, कंपनी-विशिष्ट जानकारी) तक पहुंच की आवश्यकता वाले कार्यों के लिए, जानकारी को "जानने" के लिए मॉडल को ठीक करने की तुलना में संदर्भ में प्रासंगिक ज्ञान प्रदान करना अक्सर अधिक प्रभावी होता है। RAG अधिक रखरखाव योग्य है - जब जानकारी बदलती है, तो मॉडल को नहीं, बल्कि ज्ञान के आधार को अपडेट करें।

फिर: प्रॉम्प्ट में कुछ-शॉट उदाहरण। प्रॉम्प्ट (संदर्भ में सीखना) में 3-10 उच्च-गुणवत्ता वाले इनपुट/आउटपुट उदाहरण जोड़ने से संरचित कार्यों पर प्रदर्शन में काफी सुधार होता है। यह आउटपुट स्वरूप, विवरण के स्तर और शैली अपेक्षाओं को प्रदर्शित करने का सबसे तेज़ तरीका है।

फाइन-ट्यूनिंग उचित है जब:

कार्य के लिए आंतरिक ज्ञान की आवश्यकता होती है जो संदर्भ में फिट नहीं बैठता (व्यापक नियामक नियम पुस्तिकाएं, बड़े उत्पाद वर्गीकरण पदानुक्रम)
आउटपुट प्रारूप अत्यधिक विशिष्ट है और उदाहरण-में-संदर्भ ने लगातार अनुपालन हासिल नहीं किया है
कार्य विशेष शब्दावली का उपयोग करता है जिसे सामान्य मॉडल सही ढंग से संभाल नहीं पाते हैं
विलंबता बाधाएं बड़े संदर्भ विंडो को प्रतिबंधित करती हैं (फाइन-ट्यून किए गए मॉडल समतुल्य सटीकता के साथ तेज़ होते हैं)
त्वरित इंजीनियरिंग और आरएजी दृष्टिकोणों को समाप्त करने के बाद भी सटीकता सीमा से नीचे बनी हुई है

ओपनक्लॉ कौशल वास्तुकला को समझना

फ़ाइन-ट्यूनिंग में गोता लगाने से पहले, यह समझना कि कौशल कैसे काम करते हैं, प्रशिक्षण दृष्टिकोण को आकार देते हैं।

एक कौशल चार घटकों के साथ एक कॉन्फ़िगर एजेंट क्षमता है:

सिस्टम प्रॉम्प्ट: निर्देश जो कौशल की भूमिका, कार्य, आउटपुट प्रारूप और बाधाओं को परिभाषित करते हैं। यह गैर-फाइन-ट्यूनिंग सुधार के लिए प्राथमिक लीवर है।

इनपुट स्कीमा: कौशल द्वारा स्वीकार किए जाने वाले संरचित इनपुट को परिभाषित करता है - यह किस डेटा फ़ील्ड की अपेक्षा करता है, उनके प्रकार, और कौन से आवश्यक हैं।

मॉडल कॉन्फ़िगरेशन: इस कौशल के लिए उपयोग किया जाने वाला फाउंडेशन मॉडल और अनुमान पैरामीटर (तापमान, अधिकतम टोकन, टॉप-पी)। अलग-अलग कार्यों को अलग-अलग सेटिंग्स से लाभ होता है।

आउटपुट स्कीमा: संरचित आउटपुट स्वरूप को परिभाषित करता है। मजबूत आउटपुट स्कीमा वाले कौशल फ्री-फॉर्म आउटपुट वाले कौशल की तुलना में अधिक सुसंगत, पार्स करने योग्य परिणाम उत्पन्न करते हैं।

फाइन-ट्यूनिंग मॉडल घटक को लक्षित करती है - आपके विशिष्ट कौशल के कार्य और डोमेन पर बेहतर प्रदर्शन करने के लिए मॉडल भार को अनुकूलित करना। प्रॉम्प्ट अनुकूलन सिस्टम प्रॉम्प्ट को लक्षित करता है। दोनों एक दूसरे के पूरक हैं.

फाइन-ट्यूनिंग दृष्टिकोण

पूर्ण फाइन-ट्यूनिंग: प्रशिक्षण के दौरान सभी मॉडल पैरामीटर अपडेट किए जाते हैं। सबसे बड़ी सटीकता लाभ उत्पन्न करता है लेकिन इसके लिए महत्वपूर्ण गणना की आवश्यकता होती है और यह महंगा है। केवल एमएल इंजीनियरिंग संसाधनों और बड़े प्रशिक्षण डेटासेट (10,000+ उदाहरण) वाले संगठनों के लिए व्यावहारिक।

पीईएफटी (पैरामीटर-कुशल फाइन-ट्यूनिंग): केवल पैरामीटर का एक छोटा सा उपसमुच्चय अद्यतन किया जाता है, जिससे गणना आवश्यकताओं में नाटकीय रूप से कमी आती है। सबसे आम PEFT विधि LoRA (लो-रैंक अनुकूलन) है, जो 10-100x कम गणना और मेमोरी का उपयोग करके पूर्ण फ़ाइन-ट्यूनिंग के लिए तुलनीय परिणाम प्राप्त करती है।

लोरा फाइन-ट्यूनिंग अधिकांश ओपनक्लॉ कौशल फाइन-ट्यूनिंग आवश्यकताओं के लिए अनुशंसित दृष्टिकोण है क्योंकि:

विशेष एमएल इंफ्रास्ट्रक्चर के बिना क्लाउड जीपीयू इंस्टेंसेस पर संभव
500-5,000 उदाहरणों के प्रशिक्षण डेटासेट पर्याप्त हैं
प्रशिक्षण दिनों में नहीं बल्कि घंटों में पूरा होता है
एकाधिक LoRA एडेप्टर एक साथ बनाए रखा जा सकता है, प्रति कौशल एक
बेस मॉडल को पुनः लोड किए बिना LoRA एडेप्टर की अदला-बदली की जा सकती है

प्रॉम्प्ट ट्यूनिंग: एक नरम दृष्टिकोण जहां केवल थोड़ी संख्या में "सॉफ्ट प्रॉम्प्ट" टोकन को प्रशिक्षित किया जाता है। LoRA की तुलना में कम गणना-गहन लेकिन आम तौर पर कम सटीकता लाभ उत्पन्न करता है। लघु शैली और प्रारूप अंशांकन के लिए उपयुक्त।

आरएलएचएफ (मानव प्रतिक्रिया से सुदृढीकरण सीखना): इसमें मानव वरीयता रेटिंग पर एक इनाम मॉडल का प्रशिक्षण शामिल है, फिर इसका उपयोग मॉडल फाइन-ट्यूनिंग का मार्गदर्शन करने के लिए किया जाता है। व्यक्तिपरक गुणवत्ता सुधार (लेखन शैली, उपयुक्तता, सहायकता) के लिए सर्वोत्तम परिणाम उत्पन्न करता है लेकिन इसके लिए महत्वपूर्ण मानव लेबलिंग प्रयास और एमएल विशेषज्ञता की आवश्यकता होती है।

डेटा तैयार करना

डेटा गुणवत्ता फाइन-ट्यूनिंग सफलता का सबसे महत्वपूर्ण निर्धारक है। मॉडल प्रशिक्षण डेटा में जो है उसे दोहराना सीखता है - यदि प्रशिक्षण डेटा असंगत, गलत या निम्न-गुणवत्ता वाला है, तो फाइन-ट्यून मॉडल भी होगा।

डेटा संग्रहण रणनीतियाँ

उत्पादन ट्रैफ़िक नमूनाकरण: यदि कौशल पहले से ही तैनात है (संभवतः कम सटीकता के साथ), तो उत्पादन इनपुट का नमूना लें और डोमेन विशेषज्ञों से प्रत्येक के लिए सही आउटपुट की व्याख्या करवाएं। यह अधिकतम प्रतिनिधि प्रशिक्षण डेटा उत्पन्न करता है क्योंकि यह इनपुट के वास्तविक वितरण को दर्शाता है जिसे कौशल उत्पादन में देखेगा।

विशेषज्ञ निर्माण: डोमेन विशेषज्ञ मैन्युअल रूप से उन मामलों की पूरी श्रृंखला को कवर करते हुए इनपुट/आउटपुट जोड़े का निर्माण करते हैं जिन्हें कौशल को संभालना चाहिए। यह उच्च गुणवत्ता वाला है लेकिन अधिक महंगा है और उत्पादन में दिखाई देने वाले मामले छूट सकते हैं।

विस्तार: डेटासेट का विस्तार करने के लिए मौजूदा उदाहरणों की व्यवस्थित विविधता। अनुबंध खंड वर्गीकरण कार्य के लिए: लगातार लेबल बनाए रखते हुए खंड भाषा, अनुबंध क्षेत्राधिकार और उद्योग को बदलें।

सिंथेटिक पीढ़ी: विशिष्टताओं से प्रशिक्षण उदाहरण उत्पन्न करने के लिए एक शक्तिशाली फाउंडेशन मॉडल का उपयोग करें। यह तेज़ और स्केलेबल है लेकिन सिंथेटिक डेटा उत्पन्न करता है जो उत्पादन स्थितियों का पूरी तरह से प्रतिनिधित्व नहीं कर सकता है। वास्तविक डेटा के पूरक के रूप में उपयोग करें, प्रतिस्थापन के रूप में नहीं।

डेटा गुणवत्ता आवश्यकताएँ

शुद्धता: प्रत्येक प्रशिक्षण उदाहरण सही होना चाहिए। 100 में से एक गलत लेबल किसी उदाहरण से भी बदतर है - मॉडल स्पष्ट रूप से गलत व्यवहार सीखता है। एक समीक्षा प्रक्रिया स्थापित करें जहां प्रत्येक उदाहरण को एक योग्य समीक्षक द्वारा सत्यापित किया जाए।

संगति: समान इनपुट से समान आउटपुट मिलना चाहिए। यदि दो लगभग समान अनुबंध खंड अलग-अलग जोखिम रेटिंग प्राप्त करते हैं, तो मॉडल सिग्नल के बजाय शोर सीखता है। प्रशिक्षण सेट में जोड़ने से पहले स्पष्ट लेबलिंग दिशानिर्देश स्थापित करें और असहमति का समाधान करें।

कवरेज: प्रशिक्षण सेट में इनपुट की पूरी श्रृंखला शामिल होनी चाहिए जिसका कौशल उत्पादन में सामना करेगा। कवरेज में अंतराल एक मॉडल का निर्माण करता है जो उन मामलों में उत्कृष्ट प्रदर्शन करता है जिन्हें उसने देखा है और उन मामलों में खराब प्रदर्शन करता है जिन्हें उसने नहीं देखा है। अपने उत्पादन वितरण का विश्लेषण करें और सुनिश्चित करें कि प्रशिक्षण डेटा इसे प्रतिबिंबित करता है।

प्रारूप: प्रशिक्षण डेटा प्रारूप बिल्कुल उसी से मेल खाना चाहिए जो कौशल उत्पादन में देखेगा - समान संकेत टेम्पलेट, समान इनपुट संरचना, समान आउटपुट प्रारूप। प्रशिक्षण और अनुमान के बीच प्रारूप का बेमेल होना खराब फाइन-ट्यूनिंग परिणामों का एक सामान्य स्रोत है।

डेटासेट आकार दिशानिर्देश

कार्य जटिलता	न्यूनतम प्रशिक्षण उदाहरण	अनुशंसित
सरल वर्गीकरण (5-10 श्रेणियाँ)	200	1,000+
बहु-वर्ग वर्गीकरण (20-50 श्रेणियां)	500	2,000+
संरचित निष्कर्षण	300	1,500+
अनुक्रम वर्गीकरण (दस्तावेज़-स्तर)	500	2,000+
जटिल तर्क/स्कोरिंग	1,000	5,000+
ओपन-एंडेड पीढ़ी	1,000	5,000+

स्वीकार्य परिणामों के लिए ये न्यूनतम सीमाएँ हैं। अधिक डेटा लगातार घटते रिटर्न के बिंदु तक प्रदर्शन में सुधार करता है।

ट्रेन/सत्यापन/परीक्षण विभाजन

अपने लेबल किए गए डेटासेट को तीन भागों में विभाजित करें:

प्रशिक्षण सेट (70-80%): फ़ाइन-ट्यूनिंग के दौरान मॉडल वज़न को अपडेट करने के लिए उपयोग किया जाता है
सत्यापन सेट (10-15%): प्रशिक्षण प्रगति की निगरानी और ओवरफिटिंग को रोकने के लिए उपयोग किया जाता है
परीक्षण सेट (10-15%): अंतिम मूल्यांकन तक पूरी तरह से रोक दिया गया - प्रशिक्षण के दौरान कभी भी उपयोग नहीं किया गया

परीक्षण सेट एक निष्पक्ष अनुमान प्रदान करता है कि परिष्कृत मॉडल उत्पादन डेटा पर कैसा प्रदर्शन करेगा। प्रशिक्षण निर्णय लेने के लिए कभी भी परीक्षण सेट प्रदर्शन का उपयोग न करें - इससे डेटा रिसाव और बढ़े हुए सटीकता अनुमान पैदा होते हैं।

फाइन-ट्यूनिंग निष्पादन

पर्यावरण सेटअप

विशिष्ट कौशल कार्यों के लिए LoRA एडेप्टर को फाइन-ट्यूनिंग करने की आवश्यकता है:

GPU उदाहरण: A10G (24GB VRAM) या 7B-13B पैरामीटर मॉडल के लिए समकक्ष; बड़े मॉडलों के लिए A100 (80GB)।
क्लाउड प्रदाता: AWS SageMaker, Google Vertex AI, Azure ML, या Lambda Cloud GPU इंस्टेंसेस
फ्रेमवर्क: हगिंग फेस ट्रांसफॉर्मर + पीईएफटी लाइब्रेरी (लोरा फाइन-ट्यूनिंग के लिए मानक)
निगरानी: प्रशिक्षण रन ट्रैकिंग के लिए वजन और पूर्वाग्रह या एमएलफ्लो

ECOSIRE प्रशिक्षण परामर्श सेवा के हिस्से के रूप में एक पूर्व-कॉन्फ़िगर फाइन-ट्यूनिंग वातावरण प्रदान करता है - आपको स्वतंत्र रूप से एमएल बुनियादी ढांचे को स्थापित करने की आवश्यकता नहीं है।

हाइपरपैरामीटर कॉन्फ़िगरेशन

लोरा फ़ाइन-ट्यूनिंग के लिए मुख्य हाइपरपैरामीटर:

LoRA रैंक (r): LoRA एडाप्टर में मापदंडों की संख्या को नियंत्रित करता है। उच्च रैंक = अधिक पैरामीटर = बेहतर क्षमता लेकिन उच्च ओवरफिटिंग जोखिम। r=16 से प्रारंभ करें, r=8 और r=32 के साथ प्रयोग करें।

लोरा अल्फा: लोरा अपडेट के लिए स्केलिंग कारक। आमतौर पर रैंक मान को 2x पर सेट किया जाता है (अल्फा=32 यदि आर=16)।

सीखने की दर: बहुत अधिक और मॉडल अलग हो जाता है; बहुत कम और प्रशिक्षण धीमा है. अधिकांश कौशल फ़ाइन-ट्यूनिंग के लिए, 2e-4 से 5e-4 एक उचित प्रारंभिक सीमा है।

युग: प्रशिक्षण डेटा से गुजरने की संख्या। इष्टतम युग गणना निर्धारित करने के लिए सत्यापन हानि की निगरानी करें - जब सत्यापन हानि में सुधार होना बंद हो जाए (जल्दी रोकना) तो रोकें।

बैच का आकार: बड़े बैच तेजी से प्रशिक्षित होते हैं लेकिन सटीकता कम हो सकती है। उपलब्ध GPU मेमोरी के विरुद्ध बैच आकार को संतुलित करें।

प्रशिक्षण निगरानी

प्रशिक्षण के दौरान, निगरानी करें:

प्रशिक्षण हानि: लगातार कम होनी चाहिए। पठार या स्पाइक्स समस्याओं का संकेत देते हैं।
सत्यापन हानि: प्रशिक्षण हानि के समानांतर घटनी चाहिए। विचलन (प्रशिक्षण हानि घट रही है जबकि सत्यापन हानि बढ़ रही है) ओवरफिटिंग को इंगित करता है - प्रशिक्षण समय कम करें या नियमित करें।
नमूना आउटपुट: यह सत्यापित करने के लिए कि यह सही व्यवहार सीख रहा है, प्रशिक्षण के दौरान नमूना इनपुट पर समय-समय पर मॉडल का मूल्यांकन करें।

मूल्यांकन और स्वीकृति परीक्षण

फाइन-ट्यूनिंग एक मॉडल तैयार करती है। क्या वह मॉडल बेसलाइन से बेहतर है, इसके लिए आयोजित परीक्षण सेट के विरुद्ध व्यवस्थित मूल्यांकन की आवश्यकता होती है।

कार्य प्रकार के अनुसार मानक मेट्रिक्स:

वर्गीकरण: सटीकता, प्रति कक्षा एफ1 स्कोर, भ्रम मैट्रिक्स
निष्कर्षण: प्रत्येक निकाले गए फ़ील्ड के लिए परिशुद्धता, रिकॉल, F1
स्कोरिंग/रेटिंग: मतलब पूर्ण त्रुटि, मानव रेटिंग के साथ सहसंबंध
जनरेशन: कार्य-विशिष्ट रूब्रिक मूल्यांकन (पैमाने के लिए जज के रूप में एलएलएम का उपयोग करें)

स्वीकृति सीमाएँ: प्रशिक्षण शुरू होने से पहले न्यूनतम सटीकता सीमाएँ स्थापित करें। फाइन-ट्यून मॉडल को तैनात करने के लिए इन सीमाओं को पार करना होगा। सामान्य सीमाएँ:

यदि फाइन-ट्यून सटीकता बेसलाइन से 5 प्रतिशत अंक से अधिक है तो सामान्य मॉडल को बदलें
यदि सुव्यवस्थित सटीकता निर्धारित न्यूनतम से अधिक हो तो तैनात करें (उदाहरण के लिए, परीक्षण सेट पर 92%)

त्रुटि विश्लेषण: केवल समग्र सटीकता को न देखें - त्रुटियों का विश्लेषण करें। कौन सा इनपुट प्रकार मॉडल लगातार गलत हो जाता है? क्या त्रुटि पैटर्न डेटा गुणवत्ता समस्या, कवरेज अंतर या मौलिक मॉडल सीमा का सुझाव देता है?

प्रतिगमन परीक्षण: फाइन-ट्यून किए गए मॉडल को उन कार्यों पर पीछे नहीं हटना चाहिए जिन्हें बेस मॉडल अच्छी तरह से संभालता है। पुष्टि करने के लिए गोल्डन डेटासेट मूल्यांकन चलाएँ।

परिनियोजन और पुनरावृत्ति

परिनियोजन: फाइन-ट्यून किए गए LoRA एडाप्टर को OpenClaw सर्विंग इंफ्रास्ट्रक्चर में बेस मॉडल के साथ लोड किया गया है। बेहतर कौशल के लिए अनुरोध एडॉप्टर-संवर्धित मॉडल पर भेजे जाते हैं। विभिन्न कौशलों के लिए एकाधिक एडेप्टर एक ही सेवारत वातावरण में एक साथ रह सकते हैं।

तैनाती के बाद की निगरानी: परीक्षण और निगरानी गाइड में वर्णित समान निगरानी दृष्टिकोण लागू करें। बहाव का पता लगाने के लिए सुव्यवस्थित मॉडल का नियमित ताल पर पुनर्मूल्यांकन किया जाना चाहिए।

पुनरावृत्ति ट्रिगर:

उत्पादन निगरानी में सटीकता सीमा से नीचे चली जाती है
व्यावसायिक नियमों में बदलाव के लिए मॉडल को नया व्यवहार सीखने की आवश्यकता होती है
नए इनपुट प्रकार उत्पादन में दिखाई देते हैं जो प्रशिक्षण में शामिल नहीं थे
फ़ाइन-ट्यूनिंग पूर्ण होती है और परिणाम विशिष्ट कमियों को दूर करने का सुझाव देते हैं

पुनरावृत्ति प्रक्रिया:

पहचाने गए अंतर को कवर करने वाले उत्पादन इनपुट से नए प्रशिक्षण उदाहरण एकत्र करें
मौजूदा प्रशिक्षण डेटासेट में जोड़ें
मॉडल को फाइन-ट्यून करें (वर्तमान फाइन-ट्यून किए गए वजन से शुरू करें, बेस मॉडल से नहीं)
विस्तारित परीक्षण सेट के विरुद्ध मूल्यांकन करें
यदि सुधार की पुष्टि हो तो तैनात करें

परिपक्व कौशल प्रति वर्ष 4-8 पुनरावृत्ति चक्रों से गुजरते हैं, जिनमें से प्रत्येक के प्रदर्शन में उत्तरोत्तर सुधार होता है।

अक्सर पूछे जाने वाले प्रश्न

ओपनक्लॉ कौशल के लिए किसी मॉडल को फाइन-ट्यूनिंग करना कितना महंगा है?

7B-13B पैरामीटर मॉडल पर एक विशिष्ट कौशल कार्य के लिए LoRA फाइन-ट्यूनिंग की लागत डेटासेट आकार और मॉडल आकार के आधार पर प्रति प्रशिक्षण रन क्लाउड GPU गणना में $50-$300 होती है। डेटा तैयार करना (लेबलिंग) बड़ी लागत है - डोमेन विशेषज्ञों के 1,000 उदाहरणों के एक अच्छी तरह से लेबल किए गए डेटासेट की लागत आमतौर पर विशेषज्ञ समय में $2,000-$8,000 होती है। ECOSIRE की प्रशिक्षण परामर्श सेवा तकनीकी निष्पादन और डेटा तैयारी पद्धति दोनों को कवर करती है।

क्या हम ओपनएआई या एंथ्रोपिक के मॉडल को बेहतर बना सकते हैं?

OpenAI अपने फाइन-ट्यूनिंग एपीआई के माध्यम से GPT-4o मिनी और GPT-3.5 टर्बो के लिए फाइन-ट्यूनिंग का समर्थन करता है। एंथ्रोपिक वर्तमान में क्लाउड मॉडल के लिए सार्वजनिक फाइन-ट्यूनिंग की पेशकश नहीं करता है। Google वर्टेक्स एआई के माध्यम से जेमिनी मॉडल के लिए फ़ाइन-ट्यूनिंग प्रदान करता है। उन कार्यों के लिए जहां फाइन-ट्यूनिंग आवश्यक है और आप फ्रंटियर मॉडल का उपयोग करना चाहते हैं, ओपनएआई का फाइन-ट्यूनिंग एपीआई सबसे सुलभ मार्ग है। ऐसे कार्यों के लिए जहां फाइन-ट्यूनिंग आवश्यक है और डेटा गोपनीयता के लिए ऑन-प्रिमाइसेस प्रोसेसिंग की आवश्यकता होती है, लोआरए फाइन-ट्यूनिंग के साथ ओपन-सोर्स मॉडल (लामा, मिस्ट्रल, क्वेन) उपयुक्त हैं।

आधार मॉडल में परिवर्तन होने पर हम सुव्यवस्थित मॉडल कैसे बनाए रखते हैं?

जब बेस मॉडल अपडेट किया जाता है (लामा का नया संस्करण, जीपीटी-4ओ, आदि), तो पुराने संस्करण पर प्रशिक्षित लोआरए एडेप्टर को आम तौर पर नए संस्करण पर फिर से प्रशिक्षित करने की आवश्यकता होती है। यह एक महत्वपूर्ण रखरखाव विचार है - प्रमुख मॉडल संस्करण जारी होने पर चक्रों को फिर से प्रशिक्षित करने की योजना। ECOSIRE के रखरखाव रिटेनर में परिष्कृत कौशल वाले ग्राहकों के लिए एक कवर सेवा के रूप में मॉडल रिट्रेनिंग शामिल है।

कुछ-शॉट प्रॉम्प्टिंग क्या है और यह फ़ाइन-ट्यूनिंग का स्थान कब लेता है?

फ्यू-शॉट प्रॉम्प्टिंग सीधे प्रॉम्प्ट में उदाहरण इनपुट/आउटपुट जोड़े प्रदान करता है, जो मॉडल को दिखाता है कि मॉडल भार को संशोधित किए बिना सही प्रतिक्रियाएँ कैसी दिखती हैं। यह तब अच्छी तरह से काम करता है जब आपके पास 5-10 उच्च-गुणवत्ता वाले उदाहरण हों, आउटपुट प्रारूप सुसंगत हो, और कार्य मॉडल की सामान्य क्षमता के भीतर हो। यह तब टूट जाता है जब आपको दर्जनों उदाहरणों (संदर्भ विंडो सीमा) की आवश्यकता होती है, जब प्रदर्शन को उच्च मात्रा में सुसंगत रखने की आवश्यकता होती है (संदर्भ में उदाहरण विलंबता और लागत जोड़ते हैं), या जब कार्य के लिए विशेष ज्ञान की आवश्यकता होती है जो मॉडल के पास नहीं है।

हमें कैसे पता चलेगा कि खराब प्रदर्शन एक त्वरित समस्या है या एक मॉडल समस्या?

व्यवस्थित पृथक्करण परीक्षण: दूसरे को बदलते समय एक चर को स्थिर रखें। बेस मॉडल के साथ एकाधिक त्वरित फॉर्मूलेशन का परीक्षण करें। यदि सबसे अच्छा प्रॉम्प्ट अभी भी सीमा से नीचे प्रदर्शन करता है, तो समस्या मॉडल की अंतर्निहित क्षमता है - अधिक सक्षम बेस मॉडल को ठीक करने या स्विच करने की आवश्यकता है। यदि प्रॉम्प्ट वेरिएंट महत्वपूर्ण रूप से भिन्न परिणाम देते हैं, तो समस्या प्रॉम्प्ट गुणवत्ता की है - फ़ाइन-ट्यूनिंग से पहले प्रॉम्प्ट इंजीनियरिंग में निवेश करें।

क्या हमें फाइन-ट्यूनिंग लागू करने के लिए अपनी टीम में एमएल इंजीनियरों की आवश्यकता है?

यदि आप ECOSIRE के साथ काम करते हैं तो नहीं। फाइन-ट्यूनिंग एक विशेष अनुशासन है जिसमें सेटअप, निष्पादन और मूल्यांकन के लिए एमएल इंजीनियरिंग विशेषज्ञता की आवश्यकता होती है। ECOSIRE की प्रशिक्षण परामर्श सेवा आपको एमएल इंजीनियरों को नियुक्त करने की आवश्यकता के बिना यह विशेषज्ञता प्रदान करती है। आपकी टीम को डेटा लेबलिंग और मूल्यांकन के लिए डोमेन विशेषज्ञता प्रदान करने की आवश्यकता है - तकनीकी कार्यान्वयन ECOSIRE द्वारा नियंत्रित किया जाता है।

अगले चरण

ओपनक्लॉ स्किल्स को फाइन-ट्यूनिंग करना डोमेन-विशिष्ट कार्यों पर उच्चतम सटीकता का मार्ग है, लेकिन स्थायी मूल्य प्रदान करने के लिए सावधानीपूर्वक डेटा तैयारी, तकनीकी निष्पादन और निरंतर रखरखाव की आवश्यकता होती है। ECOSIRE की प्रशिक्षण और परामर्श टीम संपूर्ण फाइन-ट्यूनिंग जीवनचक्र का प्रबंधन करती है, इसलिए आपकी टीम केवल उन डोमेन विशेषज्ञता पर ध्यान केंद्रित करती है जो वे प्रदान कर सकते हैं।

ओपनक्लॉ प्रशिक्षण और परामर्श सेवाओं का अन्वेषण करें आपकी कौशल सटीकता आवश्यकताओं पर चर्चा करने और आपके विशिष्ट उपयोग के मामलों के लिए एक बढ़िया रोडमैप डिजाइन करने के लिए।

प्रशिक्षण और फाइन-ट्यूनिंग ओपनक्लॉ कौशल

मुख्य बातें

फ़ाइन-ट्यूनिंग सामान्य फ़ाउंडेशन मॉडल की तुलना में डोमेन-विशिष्ट कार्यों पर सटीकता में 15-40% सुधार करती है

फ़ाइन-ट्यूनिंग में निवेश करने से पहले त्वरित इंजीनियरिंग और कुछ-शॉट सीखना समाप्त हो जाना चाहिए

फाइन-ट्यूनिंग के लिए अधिकांश व्यावसायिक कार्यों के लिए 500-5,000 उच्च गुणवत्ता वाले प्रशिक्षण उदाहरणों की आवश्यकता होती है

डेटा की गुणवत्ता मात्रा से अधिक मायने रखती है - 500 उत्कृष्ट उदाहरण 5,000 औसत उदाहरणों से बेहतर प्रदर्शन करते हैं

उत्पादन में सुव्यवस्थित मॉडलों को तैनात करने से पहले आयोजित परीक्षण सेट के विरुद्ध मूल्यांकन आवश्यक है

जब व्यावसायिक नियम बदलते हैं या मॉडल बहाव का पता चलता है तो फाइन-ट्यून किए गए मॉडल को पुनः प्रशिक्षण की आवश्यकता होती है

लोरा जैसी पीईएफटी (पैरामीटर-कुशल फाइन-ट्यूनिंग) विधियां बड़े पैमाने पर गणना के बिना फाइन-ट्यूनिंग को सुलभ बनाती हैं

4-8 सप्ताह के पुनरावृत्ति चक्र समय के साथ मॉडल के प्रदर्शन में लगातार सुधार बनाए रखते हैं

जब फ़ाइन-ट्यूनिंग की आवश्यकता हो (और नहीं भी)।

फाइन-ट्यूनिंग उचित है जब:

कार्य के लिए आंतरिक ज्ञान की आवश्यकता होती है जो संदर्भ में फिट नहीं बैठता (व्यापक नियामक नियम पुस्तिकाएं, बड़े उत्पाद वर्गीकरण पदानुक्रम)
आउटपुट प्रारूप अत्यधिक विशिष्ट है और उदाहरण-में-संदर्भ ने लगातार अनुपालन हासिल नहीं किया है
कार्य विशेष शब्दावली का उपयोग करता है जिसे सामान्य मॉडल सही ढंग से संभाल नहीं पाते हैं
विलंबता बाधाएं बड़े संदर्भ विंडो को प्रतिबंधित करती हैं (फाइन-ट्यून किए गए मॉडल समतुल्य सटीकता के साथ तेज़ होते हैं)
त्वरित इंजीनियरिंग और आरएजी दृष्टिकोणों को समाप्त करने के बाद भी सटीकता सीमा से नीचे बनी हुई है

ओपनक्लॉ कौशल वास्तुकला को समझना

एक कौशल चार घटकों के साथ एक कॉन्फ़िगर एजेंट क्षमता है:

फाइन-ट्यूनिंग दृष्टिकोण

विशेष एमएल इंफ्रास्ट्रक्चर के बिना क्लाउड जीपीयू इंस्टेंसेस पर संभव
500-5,000 उदाहरणों के प्रशिक्षण डेटासेट पर्याप्त हैं
प्रशिक्षण दिनों में नहीं बल्कि घंटों में पूरा होता है
एकाधिक LoRA एडेप्टर एक साथ बनाए रखा जा सकता है, प्रति कौशल एक
बेस मॉडल को पुनः लोड किए बिना LoRA एडेप्टर की अदला-बदली की जा सकती है

डेटा तैयार करना

डेटा संग्रहण रणनीतियाँ

डेटा गुणवत्ता आवश्यकताएँ

डेटासेट आकार दिशानिर्देश

कार्य जटिलता	न्यूनतम प्रशिक्षण उदाहरण	अनुशंसित
सरल वर्गीकरण (5-10 श्रेणियाँ)	200	1,000+
बहु-वर्ग वर्गीकरण (20-50 श्रेणियां)	500	2,000+
संरचित निष्कर्षण	300	1,500+
अनुक्रम वर्गीकरण (दस्तावेज़-स्तर)	500	2,000+
जटिल तर्क/स्कोरिंग	1,000	5,000+
ओपन-एंडेड पीढ़ी	1,000	5,000+

ट्रेन/सत्यापन/परीक्षण विभाजन

अपने लेबल किए गए डेटासेट को तीन भागों में विभाजित करें:

प्रशिक्षण सेट (70-80%): फ़ाइन-ट्यूनिंग के दौरान मॉडल वज़न को अपडेट करने के लिए उपयोग किया जाता है
सत्यापन सेट (10-15%): प्रशिक्षण प्रगति की निगरानी और ओवरफिटिंग को रोकने के लिए उपयोग किया जाता है
परीक्षण सेट (10-15%): अंतिम मूल्यांकन तक पूरी तरह से रोक दिया गया - प्रशिक्षण के दौरान कभी भी उपयोग नहीं किया गया

फाइन-ट्यूनिंग निष्पादन

पर्यावरण सेटअप

विशिष्ट कौशल कार्यों के लिए LoRA एडेप्टर को फाइन-ट्यूनिंग करने की आवश्यकता है:

GPU उदाहरण: A10G (24GB VRAM) या 7B-13B पैरामीटर मॉडल के लिए समकक्ष; बड़े मॉडलों के लिए A100 (80GB)।
क्लाउड प्रदाता: AWS SageMaker, Google Vertex AI, Azure ML, या Lambda Cloud GPU इंस्टेंसेस
फ्रेमवर्क: हगिंग फेस ट्रांसफॉर्मर + पीईएफटी लाइब्रेरी (लोरा फाइन-ट्यूनिंग के लिए मानक)
निगरानी: प्रशिक्षण रन ट्रैकिंग के लिए वजन और पूर्वाग्रह या एमएलफ्लो

हाइपरपैरामीटर कॉन्फ़िगरेशन

लोरा फ़ाइन-ट्यूनिंग के लिए मुख्य हाइपरपैरामीटर:

प्रशिक्षण निगरानी

प्रशिक्षण के दौरान, निगरानी करें:

प्रशिक्षण हानि: लगातार कम होनी चाहिए। पठार या स्पाइक्स समस्याओं का संकेत देते हैं।
सत्यापन हानि: प्रशिक्षण हानि के समानांतर घटनी चाहिए। विचलन (प्रशिक्षण हानि घट रही है जबकि सत्यापन हानि बढ़ रही है) ओवरफिटिंग को इंगित करता है - प्रशिक्षण समय कम करें या नियमित करें।
नमूना आउटपुट: यह सत्यापित करने के लिए कि यह सही व्यवहार सीख रहा है, प्रशिक्षण के दौरान नमूना इनपुट पर समय-समय पर मॉडल का मूल्यांकन करें।

मूल्यांकन और स्वीकृति परीक्षण

कार्य प्रकार के अनुसार मानक मेट्रिक्स:

वर्गीकरण: सटीकता, प्रति कक्षा एफ1 स्कोर, भ्रम मैट्रिक्स
निष्कर्षण: प्रत्येक निकाले गए फ़ील्ड के लिए परिशुद्धता, रिकॉल, F1
स्कोरिंग/रेटिंग: मतलब पूर्ण त्रुटि, मानव रेटिंग के साथ सहसंबंध
जनरेशन: कार्य-विशिष्ट रूब्रिक मूल्यांकन (पैमाने के लिए जज के रूप में एलएलएम का उपयोग करें)

यदि फाइन-ट्यून सटीकता बेसलाइन से 5 प्रतिशत अंक से अधिक है तो सामान्य मॉडल को बदलें
यदि सुव्यवस्थित सटीकता निर्धारित न्यूनतम से अधिक हो तो तैनात करें (उदाहरण के लिए, परीक्षण सेट पर 92%)

परिनियोजन और पुनरावृत्ति

पुनरावृत्ति ट्रिगर:

उत्पादन निगरानी में सटीकता सीमा से नीचे चली जाती है
व्यावसायिक नियमों में बदलाव के लिए मॉडल को नया व्यवहार सीखने की आवश्यकता होती है
नए इनपुट प्रकार उत्पादन में दिखाई देते हैं जो प्रशिक्षण में शामिल नहीं थे
फ़ाइन-ट्यूनिंग पूर्ण होती है और परिणाम विशिष्ट कमियों को दूर करने का सुझाव देते हैं

पुनरावृत्ति प्रक्रिया:

पहचाने गए अंतर को कवर करने वाले उत्पादन इनपुट से नए प्रशिक्षण उदाहरण एकत्र करें
मौजूदा प्रशिक्षण डेटासेट में जोड़ें
मॉडल को फाइन-ट्यून करें (वर्तमान फाइन-ट्यून किए गए वजन से शुरू करें, बेस मॉडल से नहीं)
विस्तारित परीक्षण सेट के विरुद्ध मूल्यांकन करें
यदि सुधार की पुष्टि हो तो तैनात करें

अक्सर पूछे जाने वाले प्रश्न

ओपनक्लॉ कौशल के लिए किसी मॉडल को फाइन-ट्यूनिंग करना कितना महंगा है?

क्या हम ओपनएआई या एंथ्रोपिक के मॉडल को बेहतर बना सकते हैं?

आधार मॉडल में परिवर्तन होने पर हम सुव्यवस्थित मॉडल कैसे बनाए रखते हैं?

कुछ-शॉट प्रॉम्प्टिंग क्या है और यह फ़ाइन-ट्यूनिंग का स्थान कब लेता है?

हमें कैसे पता चलेगा कि खराब प्रदर्शन एक त्वरित समस्या है या एक मॉडल समस्या?

Training and Fine-Tuning OpenClaw Skills

प्रशिक्षण और फाइन-ट्यूनिंग ओपनक्लॉ कौशल

जब फ़ाइन-ट्यूनिंग की आवश्यकता हो (और नहीं भी)।

ओपनक्लॉ कौशल वास्तुकला को समझना

फाइन-ट्यूनिंग दृष्टिकोण

डेटा तैयार करना

डेटा संग्रहण रणनीतियाँ

डेटा गुणवत्ता आवश्यकताएँ

डेटासेट आकार दिशानिर्देश

ट्रेन/सत्यापन/परीक्षण विभाजन

फाइन-ट्यूनिंग निष्पादन

पर्यावरण सेटअप

हाइपरपैरामीटर कॉन्फ़िगरेशन

प्रशिक्षण निगरानी

मूल्यांकन और स्वीकृति परीक्षण

परिनियोजन और पुनरावृत्ति

अक्सर पूछे जाने वाले प्रश्न

अगले चरण

इंटेलिजेंट एआई एजेंट बनाएं

संबंधित लेख

Odoo 19 HR: Skills Matrix, Career Plans, Performance Cycles

OpenClaw Cost Optimization and Token Efficiency at Scale

OpenClaw Installation Quickstart 2026: First Agent in 15 Minutes

Training and Fine-Tuning OpenClaw Skills

प्रशिक्षण और फाइन-ट्यूनिंग ओपनक्लॉ कौशल

जब फ़ाइन-ट्यूनिंग की आवश्यकता हो (और नहीं भी)।

ओपनक्लॉ कौशल वास्तुकला को समझना

फाइन-ट्यूनिंग दृष्टिकोण

डेटा तैयार करना

डेटा संग्रहण रणनीतियाँ

डेटा गुणवत्ता आवश्यकताएँ

डेटासेट आकार दिशानिर्देश

ट्रेन/सत्यापन/परीक्षण विभाजन

फाइन-ट्यूनिंग निष्पादन

पर्यावरण सेटअप

हाइपरपैरामीटर कॉन्फ़िगरेशन

प्रशिक्षण निगरानी

मूल्यांकन और स्वीकृति परीक्षण

परिनियोजन और पुनरावृत्ति

अक्सर पूछे जाने वाले प्रश्न

अगले चरण

इंटेलिजेंट एआई एजेंट बनाएं

संबंधित लेख

Odoo 19 HR: Skills Matrix, Career Plans, Performance Cycles

OpenClaw Cost Optimization and Token Efficiency at Scale

OpenClaw Installation Quickstart 2026: First Agent in 15 Minutes