AI-पावर्ड डेटा एक्सट्रैक्शन और OpenClaw के साथ वेब स्क्रैपिंग

पारंपरिक वेब स्क्रेपर्स नाजुक होते हैं। वे सीएसएस चयनकर्ताओं और XPath पैटर्न पर निर्भर करते हैं जो उस क्षण टूट जाते हैं जब कोई साइट अपने लेआउट को फिर से डिज़ाइन करती है। वे जावास्क्रिप्ट फ्रेमवर्क द्वारा लोड की गई गतिशील सामग्री को अनुकूलित नहीं कर सकते हैं। कैप्चा, दर सीमित करने या आईपी ब्लॉक का सामना करने पर वे चुपचाप विफल हो जाते हैं। स्क्रैपर बेड़े को बनाए रखने के लिए निरंतर ध्यान देने की आवश्यकता होती है क्योंकि लक्ष्य साइटें बदलती हैं - एक लागत जो अक्सर निकाले जा रहे डेटा के मूल्य से अधिक होती है।

OpenClaw के डेटा निष्कर्षण एजेंट भिन्न हैं। वे भंगुर चयनकर्ताओं पर भरोसा किए बिना वेबसाइटों से डेटा निकालने के लिए ब्राउज़र स्वचालन, दृश्य समझ और एलएलएम-आधारित पार्सिंग को जोड़ते हैं। जब कोई साइट अपना लेआउट बदलती है, तो एजेंट उसे अपना लेता है। जब इसका सामना कैप्चा से होता है, तो यह चुपचाप विफल होने के बजाय बढ़ता है। परिणाम एक डेटा निष्कर्षण पाइपलाइन है जो पारंपरिक स्क्रेपर्स की तुलना में अधिक रखरखाव योग्य है।

मुख्य बातें

ओपनक्लाव के निष्कर्षण एजेंट जावास्क्रिप्ट-प्रदत्त सामग्री के लिए ब्राउज़र ऑटोमेशन (प्लेराइट) का उपयोग करते हैं, जो उपयोगकर्ता क्या देखते हैं और स्क्रैपर्स किस तक पहुंच सकते हैं, के बीच के अंतर को समाप्त करते हैं।

एलएलएम-आधारित पार्सिंग सीएसएस चयनकर्ताओं के बिना असंरचित HTML से संरचित डेटा निकालता है - एजेंट सामग्री को शब्दार्थ रूप से समझता है, स्थितिगत रूप से नहीं।

बिल्ट-इन प्रॉक्सी रोटेशन, अनुरोध फिंगरप्रिंट रैंडमाइजेशन, और रेट लिमिटिंग अतिरिक्त बुनियादी ढांचे के बिना एंटी-बॉट उपायों को संभालती है।

स्कीमा-प्रथम निष्कर्षण टाइप किए गए, मान्य आउटपुट का उत्पादन करता है - अब डाउनस्ट्रीम में आंशिक या विकृत स्क्रैप किए गए डेटा से निपटना नहीं है।

जब डेटा संरचना या उपलब्धता में महत्वपूर्ण परिवर्तन होता है तो निष्कर्षण एजेंट साइट परिवर्तनों की निगरानी करता है और अलर्ट करता है।

नैतिक स्क्रैपिंग रेलिंग का निर्माण किया गया है: robots.txt अनुपालन, दर सीमा सम्मान, और सेवा की शर्तों की समीक्षा चौकियाँ।

निकाले गए डेटा को साफ़, सामान्यीकृत किया जाता है, और स्वचालित रूप से आपके डेटा वेयरहाउस, एपीआई या डाउनस्ट्रीम एप्लिकेशन तक पहुंचाया जाता है।

ECOSIRE बाज़ार आसूचना, प्रतिस्पर्धी निगरानी और अनुसंधान अनुप्रयोगों के लिए कस्टम डेटा निष्कर्षण पाइपलाइनों का निर्माण और प्रबंधन करता है।

आर्किटेक्चर: ओपनक्लॉ डेटा कैसे निकालता है

डेटा निष्कर्षण स्टैक में चार परतें होती हैं:

Target URL(s)
      ↓
[ Browser Agent ]        — navigation, rendering, interaction
      ↓
[ Parser Agent ]         — LLM-based content extraction
      ↓
[ Validation Agent ]     — schema validation, normalization
      ↓
[ Delivery Agent ]       — destination write (warehouse, API, file)

ब्राउज़र एजेंट HTTP अनुरोधों और जावास्क्रिप्ट रेंडरिंग को संभालता है। पार्सर एजेंट प्रस्तुत HTML से अर्थ निकालता है। सत्यापन एजेंट स्कीमा अनुपालन को लागू करता है और मूल्यों को सामान्य बनाता है। डिलीवरी एजेंट निकाले गए डेटा को लक्ष्य गंतव्य पर लिखता है।

ब्राउज़र एजेंट: उपयोगकर्ता जो देखते हैं उसे प्रस्तुत करना

जावास्क्रिप्ट-भारी साइटों (एसपीए, अनंत स्क्रॉल, मोडल-गेटेड सामग्री) को सरल HTTP अनुरोधों के साथ स्क्रैप नहीं किया जा सकता है। ब्राउज़र एजेंट बिल्कुल ब्राउज़र की तरह पेजों को रेंडर करने के लिए प्लेराइट का उपयोग करता है, फिर पूरी तरह से रेंडर किए गए DOM को पार्सर एजेंट के सामने प्रदर्शित करता है।

export const RenderPage = defineSkill({
  name: "render-page",
  tools: ["browser", "proxy"],
  async run({ input, tools }) {
    const proxyConfig = await tools.proxy.getNextProxy({ country: input.targetCountry });

    const page = await tools.browser.newPage({
      proxy: proxyConfig,
      userAgent: getRandomUserAgent(),
      viewport: { width: 1440, height: 900 },
      locale: "en-US",
      timezoneId: "America/New_York",
    });

    await page.setExtraHTTPHeaders({
      "Accept-Language": "en-US,en;q=0.9",
      "Accept-Encoding": "gzip, deflate, br",
    });

    const response = await page.goto(input.url, { waitUntil: "networkidle", timeout: 30_000 });

    if (response.status() === 429) {
      throw new SkillError("RATE_LIMITED", "Target site returned 429. Backing off.", { retryAfterMs: 60_000 });
    }

    // Execute interaction steps if defined (click "Load More", handle cookie banners, etc.)
    for (const step of input.interactionSteps ?? []) {
      await executeInteractionStep(page, step);
    }

    const html = await page.content();
    const screenshot = await page.screenshot({ type: "png" }); // For visual verification

    await page.close();
    return { html, screenshot, url: page.url(), statusCode: response.status() };
  },
});

फ़िंगरप्रिंट रैंडमाइज़ेशन का अनुरोध करें: फ़िंगरप्रिंट-आधारित अवरोधन से बचने के लिए ब्राउज़र एजेंट उपयोगकर्ता एजेंटों, व्यूपोर्ट आकार और HTTP हेडर को घुमाता है। फ़िंगरप्रिंट प्रोफ़ाइल यथार्थवादी ब्राउज़र हस्ताक्षरों की क्यूरेटेड लाइब्रेरी से तैयार की जाती हैं।

प्रॉक्सी रोटेशन: प्रॉक्सी टूल भूगोल द्वारा व्यवस्थित आवासीय और डेटासेंटर प्रॉक्सी का एक पूल बनाए रखता है। यह लक्ष्य साइट की भौगोलिक पहुंच आवश्यकताओं के आधार पर प्रॉक्सी का चयन करता है और आईपी पते पर अनुरोध वितरित करने के लिए उन्हें घुमाता है।

इंटरेक्शन चरण: कई साइटों को सामग्री दिखाई देने से पहले इंटरैक्शन की आवश्यकता होती है - "कुकीज़ स्वीकार करें" पर क्लिक करना, आलसी लोडिंग को ट्रिगर करने के लिए स्क्रॉल करना, पेजिनेशन नियंत्रण पर क्लिक करना। इंटरैक्शन चरणों को घोषणात्मक रूप से परिभाषित किया गया है:

{
  "interactionSteps": [
    { "type": "click", "selector": "[data-testid='cookie-accept']", "optional": true },
    { "type": "scroll", "direction": "down", "pixels": 2000 },
    { "type": "wait", "milliseconds": 2000 },
    { "type": "click", "text": "Load more results", "optional": true }
  ]
}

पार्सर एजेंट: चयनकर्ताओं के बिना सिमेंटिक एक्सट्रैक्शन

पार्सर वह जगह है जहां ओपनक्लॉ का एआई लाभ सबसे अधिक दिखाई देता है। भंगुर सीएसएस चयनकर्ताओं के बजाय, पार्सर एजेंट प्रस्तुत HTML और एक स्कीमा परिभाषा को एलएलएम में भेजता है, जो सिमेंटिक समझ का उपयोग करके अनुरोधित फ़ील्ड को निकालता है।

export const ExtractStructuredData = defineSkill({
  name: "extract-structured-data",
  tools: ["llm"],
  async run({ input, tools }) {
    // Clean HTML for LLM consumption (strip scripts, styles, non-content)
    const cleanedHtml = cleanHtmlForExtraction(input.html, {
      stripTags: ["script", "style", "noscript", "iframe"],
      preserveAttributes: ["href", "src", "data-price", "data-sku"],
      maxLength: 50_000, // LLM context limit
    });

    const extractedData = await tools.llm.extract({
      content: cleanedHtml,
      schema: input.extractionSchema,
      instructions: `Extract the requested fields from the HTML. For prices, include the numeric value only (no currency symbols). For dates, use ISO 8601 format. If a field is not present on the page, return null for that field.`,
    });

    return { data: extractedData, sourceUrl: input.url, extractedAt: new Date().toISOString() };
  },
});

निष्कर्षण स्कीमा परिभाषा: स्कीमा को JSON स्कीमा प्रारूप में परिभाषित किया गया है, जो एलएलएम को सटीक टाइपिंग मार्गदर्शन देता है:

{
  "type": "object",
  "properties": {
    "productName": { "type": "string", "description": "Full product name including model/variant" },
    "price": { "type": "number", "description": "Current selling price, numeric only" },
    "originalPrice": { "type": ["number", "null"], "description": "Original price before discount, or null if not on sale" },
    "availability": { "type": "string", "enum": ["in_stock", "out_of_stock", "limited", "preorder"] },
    "rating": { "type": ["number", "null"], "description": "Average rating out of 5, or null if no ratings" },
    "reviewCount": { "type": ["integer", "null"] },
    "sku": { "type": ["string", "null"] }
  },
  "required": ["productName", "price", "availability"]
}

एलएलएम प्रत्येक फ़ील्ड को पृष्ठ सामग्री की अर्थ संबंधी समझ के आधार पर भरता है। आवश्यक फ़ील्ड जो अनुपस्थित हैं, एक मौन शून्य मान के बजाय निष्कर्षण विफलता को ट्रिगर करते हैं।

क्रॉल प्रबंधन: मल्टी-पेज साइटों को नेविगेट करना

सबसे उपयोगी डेटा निष्कर्षण के लिए कई पृष्ठों पर नेविगेट करने की आवश्यकता होती है: पृष्ठांकित उत्पाद सूची, श्रेणी पदानुक्रम, बहु-पृष्ठ लेख। क्रॉल प्रबंधक किसी साइट पर ब्राउज़र और पार्सर एजेंटों का समन्वय करता है।

export const CrawlProductListing = defineSkill({
  name: "crawl-product-listing",
  tools: ["browser", "queue", "storage"],
  async run({ input, tools }) {
    let pageUrl: string | null = input.startUrl;
    const allProducts = [];
    let pageNumber = 1;

    while (pageUrl && pageNumber <= input.maxPages) {
      const rendered = await tools.browser.render(pageUrl, { interactionSteps: input.interactionSteps });
      const products = await extractProductsFromPage(rendered.html, input.extractionSchema);
      allProducts.push(...products);

      // Find the "Next" page URL
      pageUrl = extractNextPageUrl(rendered.html, input.paginationPattern);
      pageNumber++;

      // Respect crawl rate — be a polite scraper
      await sleep(input.delayBetweenPagesMs ?? 2000);
    }

    await tools.storage.put(`crawls/${Date.now()}-products.json`, JSON.stringify(allProducts));
    return { productCount: allProducts.length, pagesProcessed: pageNumber - 1 };
  },
});

क्रॉल प्रबंधक डिफ़ॉल्ट रूप से robots.txt का सम्मान करता है। क्रॉल शुरू करने से पहले, यह लक्ष्य साइट के robots.txt को लाता है और पार्स करता है और जाँचता है कि कॉन्फ़िगर किए गए उपयोगकर्ता एजेंट के लिए लक्ष्य पथ की अनुमति है या नहीं। अस्वीकृत पथों तक पहुंचने का प्रयास करने वाले क्रॉल को अवरुद्ध कर दिया जाता है और ऑपरेटर को एक अलर्ट भेजा जाता है।

एंटी-बॉट उपायों को संभालना

आधुनिक एंटी-बॉट सिस्टम (क्लाउडफ्लेयर, अकामाई बॉट मैनेजर, पेरीमीटरएक्स) मनुष्यों को बॉट्स से अलग करने के लिए व्यवहार संबंधी संकेतों का उपयोग करते हैं। निष्कर्षण एजेंट वैध ब्राउज़र ट्रैफ़िक के रूप में प्रदर्शित होने के लिए कई तकनीकों का उपयोग करता है:

माउस मूवमेंट सिमुलेशन: वास्तविक ब्राउज़र सत्रों में गैर-रेखीय माउस मूवमेंट होते हैं। लक्ष्य पर क्लिक करने से पहले एजेंट प्राकृतिक वेग वक्रों के साथ यथार्थवादी कर्सर पथ का अनुकरण करता है।

समय भिन्नता: अनुरोधों में मानव ब्राउज़िंग व्यवहार के अनुसार अंशांकित वितरण से लिए गए यादृच्छिक अंतरालों के कारण देरी होती है, न कि समान या नियतात्मक अंतरालों के कारण।

कुकी प्रबंधन: एंटी-बॉट सिस्टम द्वारा सेट की गई कुकीज़ को संरक्षित किया जाता है और बाद के अनुरोधों में भेजा जाता है, जैसे एक ब्राउज़र करता है।

जावास्क्रिप्ट चुनौती पूर्णता: जावास्क्रिप्ट चुनौतियों का उपयोग करने वाली साइटों के लिए (ब्राउज़र एपीआई क्षमताओं की जांच करना, कंप्यूट पहेलियों को निष्पादित करना), पूर्ण ब्राउज़र वातावरण इन जांचों को स्वचालित रूप से पास करता है।

कैप्चा गेट वाली साइटों के लिए, एजेंट के पास दो पथ हैं:

सेवा एकीकरण: गैर-संवादात्मक समाधान स्वीकार्य होने पर कैप्चा को मानव-सहायता प्राप्त कैप्चा समाधान सेवा (2कैप्चा, एंटी-कैप्चा) पर रूट करें।
मानवीय वृद्धि: निष्कर्षण कार्य को रोकें, मानव ऑपरेटर को कैप्चा से आगे मैन्युअल रूप से नेविगेट करने के लिए सचेत करें, और अगले पृष्ठ से फिर से शुरू करें।

स्कीमा सत्यापन और डेटा सामान्यीकरण

कच्चा निकाला गया डेटा शोर वाला होता है। कीमतें अलग-अलग प्रारूपों में आती हैं ($1,299.99, 1299.99, यूरोपीय प्रारूपों के लिए 1.299.99)। तारीखें हर कल्पनीय प्रारूप में दिखाई देती हैं। उत्पाद नामों में असंगत पूंजीकरण और एन्कोडिंग कलाकृतियाँ हैं। सत्यापन एजेंट डिलीवरी स्तर तक पहुंचने से पहले सभी मानों को सामान्य कर देता है।

export const NormalizeExtractedData = defineSkill({
  name: "normalize-extracted-data",
  async run({ input }) {
    const normalized = input.data.map((record) => ({
      ...record,
      price: parseFloat(String(record.price).replace(/[^0-9.]/g, "")),
      originalPrice: record.originalPrice
        ? parseFloat(String(record.originalPrice).replace(/[^0-9.]/g, ""))
        : null,
      productName: record.productName.trim().replace(/\s+/g, " "),
      extractedAt: new Date(record.extractedAt).toISOString(),
      availability: normalizeAvailability(record.availability),
    }));

    // Validate against schema
    const validation = validateAgainstSchema(normalized, input.outputSchema);
    const valid = normalized.filter((_, i) => validation[i].valid);
    const invalid = normalized.filter((_, i) => !validation[i].valid);

    return { valid, invalid, validCount: valid.length, invalidCount: invalid.length };
  },
});

अमान्य रिकॉर्ड (आवश्यक फ़ील्ड गायब, मान जिन्हें सामान्यीकृत नहीं किया जा सकता) को चुपचाप छोड़े जाने के बजाय समीक्षा के लिए एक अलग अपवाद स्टोर में लिखा जाता है।

डिलिवरी: डेटा प्राप्त करना जहां उसे जाना है

डिलीवरी एजेंट कॉन्फ़िगर किए गए गंतव्य पर सामान्यीकृत डेटा लिखता है:

डेटा वेयरहाउस: स्कीमा-मिलान कॉलम मैपिंग के साथ BigQuery, स्नोफ्लेक, या रेडशिफ्ट में बैच सम्मिलित करें। कुशल पूछताछ के लिए निष्कर्षण तिथि के अनुसार विभाजित किया गया।

रेस्ट एपीआई: वास्तविक समय की खपत के लिए आंतरिक एपीआई एंडपॉइंट पर पोस्ट करें। 5xx पर पुनः प्रयास का समर्थन करता है और इसमें घातीय बैकऑफ़ शामिल है।

S3 / क्लाउड स्टोरेज: एनालिटिक्स पाइपलाइनों द्वारा डाउनस्ट्रीम प्रोसेसिंग के लिए Parquet या JSON के रूप में लिखें।

डेटाबेस: कॉन्फ़िगर करने योग्य संघर्ष समाधान (मैच पर अपडेट, मैच पर छोड़ें, मैच पर त्रुटि) के साथ PostgreSQL, MySQL, या MongoDB पर अपग्रेड करें।

जांच और निगरानी बदलें

साइटें अपनी संरचना बदलती हैं. एक प्रतियोगी अपने उत्पाद पृष्ठों को फिर से डिज़ाइन करता है। एक आपूर्तिकर्ता अपने मूल्य निर्धारण प्रारूप को अपडेट करता है। डेटा गुणवत्ता में गिरावट से पहले निष्कर्षण पाइपलाइन को इन परिवर्तनों का पता लगाने और सतर्क करने की आवश्यकता है।

मॉनिटरिंग एजेंट प्रतिदिन चलता है और वर्तमान निष्कर्षण आउटपुट की तुलना सांख्यिकीय आधार रेखा से करता है:

फ़ील्ड कवरेज दर (प्रत्येक फ़ील्ड के लिए कितने प्रतिशत रिकॉर्ड में गैर-शून्य मान हैं)
मूल्य वितरण परिवर्तन (मूल्य सीमा, उपलब्धता अनुपात)
निष्कर्षण सफलता दर (क्रॉल प्रयासों का कितना प्रतिशत वैध रिकॉर्ड उत्पन्न करता है)

महत्वपूर्ण विचलन मानव समीक्षा के लिए परिवर्तित आउटपुट के नमूने के साथ एक अलर्ट ट्रिगर करते हैं।

अक्सर पूछे जाने वाले प्रश्न

क्या वेब स्क्रैपिंग कानूनी है?

वेब स्क्रैपिंग की वैधता क्षेत्राधिकार, स्क्रैप किए जा रहे डेटा और लक्ष्य साइट की सेवा की शर्तों पर निर्भर करती है। सार्वजनिक डेटा (उत्पाद की कीमतें, सार्वजनिक रूप से सूचीबद्ध संपर्क जानकारी, प्रकाशित समाचार लेख) को आम तौर पर साइट की सेवा की शर्तों के अधीन, अधिकांश न्यायालयों में स्क्रैप करने की अनुमति है। प्रमाणीकरण के पीछे भागना, व्यक्तिगत डेटा तक पहुँचना, या तकनीकी सुरक्षा उपायों को दरकिनार करना कानूनी और नैतिक चिंताएँ पैदा करता है। ECOSIRE उत्पादन निष्कर्षण पाइपलाइनों को तैनात करने से पहले आपके विशिष्ट उपयोग के मामले और लक्ष्य साइटों के लिए कानूनी समीक्षा प्राप्त करने की अनुशंसा करता है। OpenClaw में आधारभूत नैतिक रेलिंग के रूप में डिफ़ॉल्ट रूप से robots.txt अनुपालन और दर सीमित करना शामिल है।

सिस्टम उन साइटों को कैसे संभालता है जिन्हें डेटा तक पहुंचने के लिए लॉगिन की आवश्यकता होती है?

उन साइटों के लिए जहां आपके संगठन के पास वैध क्रेडेंशियल हैं (आपका अपना आपूर्तिकर्ता पोर्टल, प्रतिस्पर्धी मूल्य निगरानी सेवाएं जिनकी आप सदस्यता लेते हैं, भागीदार साइटें), एजेंट रहस्य प्रबंधक में संग्रहीत कॉन्फ़िगर क्रेडेंशियल का उपयोग करके लॉग इन कर सकता है। लॉगिन इंटरेक्शन को ब्राउज़र एजेंट द्वारा इंटरेक्शन चरण प्रणाली का उपयोग करके नियंत्रित किया जाता है। सत्र कुकीज़ स्वचालित रूप से बनाए रखी जाती हैं और ताज़ा की जाती हैं। बहु-कारक प्रमाणीकरण की आवश्यकता वाली साइटों के लिए, एजेंट एक कॉन्फ़िगर करने योग्य टीओटीपी रहस्य का उपयोग करके टीओटीपी-आधारित एमएफए का समर्थन करता है।

स्क्रैप किए गए डेटा के लिए डेटा ताज़ाता की गारंटी क्या है?

डेटा ताज़ा होना आपके क्रॉल शेड्यूल पर निर्भर करता है। ओपनक्लॉ वास्तविक समय (दर सीमित के साथ निरंतर क्रॉलिंग) से लेकर दैनिक, साप्ताहिक या ऑन-डिमांड तक क्रॉल शेड्यूल का समर्थन करता है। प्रतिस्पर्धी मूल्य निर्धारण डेटा के लिए, प्रति घंटा या दो बार दैनिक क्रॉल आम हैं। बाज़ार अनुसंधान डेटा के लिए जो धीरे-धीरे बदलता है, दैनिक या साप्ताहिक पर्याप्त है। निष्कर्षण एजेंट प्रत्येक रिकॉर्ड को निष्कर्षण समय के साथ टाइमस्टैम्प करता है ताकि उपभोक्ता ताजगी का आकलन कर सकें।

क्या सिस्टम पेजिनेटेड एपीआई के साथ-साथ वेब पेजों को भी संभाल सकता है?

हाँ। ब्राउज़र एजेंट वेब पेजों को संभालता है; एक एपीआई एक्सट्रैक्शन एजेंट पृष्ठांकित REST और GraphQL API को संभालता है। संरचित JSON लौटाने वाले एपीआई के लिए, पार्सर एजेंट को एक सरल स्कीमा-मैपिंग चरण से बदल दिया जाता है जो एपीआई प्रतिक्रिया फ़ील्ड को आउटपुट स्कीमा में मैप करता है। क्रॉल मैनेजर लिंक हेडर, कर्सर-आधारित पेजिनेशन, ऑफसेट-लिमिट पेजिनेशन और टोकन-आधारित पेजिनेशन पैटर्न के माध्यम से पेजिनेशन को संभालता है।

आप प्रारंभिक पृष्ठ रेंडर के बाद अतुल्यकालिक रूप से लोड होने वाली गतिशील सामग्री को कैसे संभालते हैं?

ब्राउज़र एजेंट नेटवर्क निष्क्रिय प्रतीक्षा का समर्थन करता है - यह पृष्ठ सामग्री निकालने से पहले 500ms के लिए कोई नया नेटवर्क अनुरोध नहीं किए जाने तक प्रतीक्षा करता है। महत्वपूर्ण डेटा लोड करने वाली विशिष्ट एपीआई कॉल के लिए, आप एजेंट को नेटवर्क प्रतिक्रियाओं को रोकने और रेंडर किए गए HTML के बजाय सीधे एपीआई पेलोड से डेटा निकालने के लिए कॉन्फ़िगर कर सकते हैं, जो HTML पार्सिंग की तुलना में तेज़ और अधिक विश्वसनीय है।

अगले कदम

डेटा एक प्रतिस्पर्धी संपत्ति है, लेकिन केवल तभी जब आप इसे विश्वसनीय और बड़े पैमाने पर एक्सेस कर सकते हैं। ओपनक्लॉ के डेटा निष्कर्षण एजेंट विश्वसनीयता, अनुकूलनशीलता और एआई-संचालित पार्सिंग प्रदान करते हैं जो भंगुर पारंपरिक स्क्रेपर्स से मेल नहीं खा सकते हैं।

ECOSIRE की ओपनक्लाव कस्टम स्किल्स सेवा में बाजार खुफिया, प्रतिस्पर्धी निगरानी, मूल्य ट्रैकिंग और अनुसंधान डेटा संग्रह उपयोग के मामलों के लिए डेटा निष्कर्षण पाइपलाइन डिजाइन और कार्यान्वयन शामिल है। हमारी टीम ऐसी निष्कर्षण पाइपलाइनें डिज़ाइन करती है जो मजबूत, रखरखाव योग्य और नैतिक रूप से सुदृढ़ हों।

अपनी डेटा निष्कर्षण आवश्यकताओं पर चर्चा करने और एक कस्टम कार्यान्वयन प्रस्ताव प्राप्त करने के लिए ECOSIRE से संपर्क करें।

AI-पावर्ड डेटा एक्सट्रैक्शन और OpenClaw के साथ वेब स्क्रैपिंग

मुख्य बातें

ओपनक्लाव के निष्कर्षण एजेंट जावास्क्रिप्ट-प्रदत्त सामग्री के लिए ब्राउज़र ऑटोमेशन (प्लेराइट) का उपयोग करते हैं, जो उपयोगकर्ता क्या देखते हैं और स्क्रैपर्स किस तक पहुंच सकते हैं, के बीच के अंतर को समाप्त करते हैं।

एलएलएम-आधारित पार्सिंग सीएसएस चयनकर्ताओं के बिना असंरचित HTML से संरचित डेटा निकालता है - एजेंट सामग्री को शब्दार्थ रूप से समझता है, स्थितिगत रूप से नहीं।

बिल्ट-इन प्रॉक्सी रोटेशन, अनुरोध फिंगरप्रिंट रैंडमाइजेशन, और रेट लिमिटिंग अतिरिक्त बुनियादी ढांचे के बिना एंटी-बॉट उपायों को संभालती है।

स्कीमा-प्रथम निष्कर्षण टाइप किए गए, मान्य आउटपुट का उत्पादन करता है - अब डाउनस्ट्रीम में आंशिक या विकृत स्क्रैप किए गए डेटा से निपटना नहीं है।

जब डेटा संरचना या उपलब्धता में महत्वपूर्ण परिवर्तन होता है तो निष्कर्षण एजेंट साइट परिवर्तनों की निगरानी करता है और अलर्ट करता है।

नैतिक स्क्रैपिंग रेलिंग का निर्माण किया गया है: robots.txt अनुपालन, दर सीमा सम्मान, और सेवा की शर्तों की समीक्षा चौकियाँ।

निकाले गए डेटा को साफ़, सामान्यीकृत किया जाता है, और स्वचालित रूप से आपके डेटा वेयरहाउस, एपीआई या डाउनस्ट्रीम एप्लिकेशन तक पहुंचाया जाता है।

ECOSIRE बाज़ार आसूचना, प्रतिस्पर्धी निगरानी और अनुसंधान अनुप्रयोगों के लिए कस्टम डेटा निष्कर्षण पाइपलाइनों का निर्माण और प्रबंधन करता है।

आर्किटेक्चर: ओपनक्लॉ डेटा कैसे निकालता है

डेटा निष्कर्षण स्टैक में चार परतें होती हैं:

Target URL(s)
      ↓
[ Browser Agent ]        — navigation, rendering, interaction
      ↓
[ Parser Agent ]         — LLM-based content extraction
      ↓
[ Validation Agent ]     — schema validation, normalization
      ↓
[ Delivery Agent ]       — destination write (warehouse, API, file)

ब्राउज़र एजेंट: उपयोगकर्ता जो देखते हैं उसे प्रस्तुत करना

export const RenderPage = defineSkill({
  name: "render-page",
  tools: ["browser", "proxy"],
  async run({ input, tools }) {
    const proxyConfig = await tools.proxy.getNextProxy({ country: input.targetCountry });

    const page = await tools.browser.newPage({
      proxy: proxyConfig,
      userAgent: getRandomUserAgent(),
      viewport: { width: 1440, height: 900 },
      locale: "en-US",
      timezoneId: "America/New_York",
    });

    await page.setExtraHTTPHeaders({
      "Accept-Language": "en-US,en;q=0.9",
      "Accept-Encoding": "gzip, deflate, br",
    });

    const response = await page.goto(input.url, { waitUntil: "networkidle", timeout: 30_000 });

    if (response.status() === 429) {
      throw new SkillError("RATE_LIMITED", "Target site returned 429. Backing off.", { retryAfterMs: 60_000 });
    }

    // Execute interaction steps if defined (click "Load More", handle cookie banners, etc.)
    for (const step of input.interactionSteps ?? []) {
      await executeInteractionStep(page, step);
    }

    const html = await page.content();
    const screenshot = await page.screenshot({ type: "png" }); // For visual verification

    await page.close();
    return { html, screenshot, url: page.url(), statusCode: response.status() };
  },
});

{
  "interactionSteps": [
    { "type": "click", "selector": "[data-testid='cookie-accept']", "optional": true },
    { "type": "scroll", "direction": "down", "pixels": 2000 },
    { "type": "wait", "milliseconds": 2000 },
    { "type": "click", "text": "Load more results", "optional": true }
  ]
}

पार्सर एजेंट: चयनकर्ताओं के बिना सिमेंटिक एक्सट्रैक्शन

export const ExtractStructuredData = defineSkill({
  name: "extract-structured-data",
  tools: ["llm"],
  async run({ input, tools }) {
    // Clean HTML for LLM consumption (strip scripts, styles, non-content)
    const cleanedHtml = cleanHtmlForExtraction(input.html, {
      stripTags: ["script", "style", "noscript", "iframe"],
      preserveAttributes: ["href", "src", "data-price", "data-sku"],
      maxLength: 50_000, // LLM context limit
    });

    const extractedData = await tools.llm.extract({
      content: cleanedHtml,
      schema: input.extractionSchema,
      instructions: `Extract the requested fields from the HTML. For prices, include the numeric value only (no currency symbols). For dates, use ISO 8601 format. If a field is not present on the page, return null for that field.`,
    });

    return { data: extractedData, sourceUrl: input.url, extractedAt: new Date().toISOString() };
  },
});

{
  "type": "object",
  "properties": {
    "productName": { "type": "string", "description": "Full product name including model/variant" },
    "price": { "type": "number", "description": "Current selling price, numeric only" },
    "originalPrice": { "type": ["number", "null"], "description": "Original price before discount, or null if not on sale" },
    "availability": { "type": "string", "enum": ["in_stock", "out_of_stock", "limited", "preorder"] },
    "rating": { "type": ["number", "null"], "description": "Average rating out of 5, or null if no ratings" },
    "reviewCount": { "type": ["integer", "null"] },
    "sku": { "type": ["string", "null"] }
  },
  "required": ["productName", "price", "availability"]
}

क्रॉल प्रबंधन: मल्टी-पेज साइटों को नेविगेट करना

export const CrawlProductListing = defineSkill({
  name: "crawl-product-listing",
  tools: ["browser", "queue", "storage"],
  async run({ input, tools }) {
    let pageUrl: string | null = input.startUrl;
    const allProducts = [];
    let pageNumber = 1;

    while (pageUrl && pageNumber <= input.maxPages) {
      const rendered = await tools.browser.render(pageUrl, { interactionSteps: input.interactionSteps });
      const products = await extractProductsFromPage(rendered.html, input.extractionSchema);
      allProducts.push(...products);

      // Find the "Next" page URL
      pageUrl = extractNextPageUrl(rendered.html, input.paginationPattern);
      pageNumber++;

      // Respect crawl rate — be a polite scraper
      await sleep(input.delayBetweenPagesMs ?? 2000);
    }

    await tools.storage.put(`crawls/${Date.now()}-products.json`, JSON.stringify(allProducts));
    return { productCount: allProducts.length, pagesProcessed: pageNumber - 1 };
  },
});

एंटी-बॉट उपायों को संभालना

कैप्चा गेट वाली साइटों के लिए, एजेंट के पास दो पथ हैं:

सेवा एकीकरण: गैर-संवादात्मक समाधान स्वीकार्य होने पर कैप्चा को मानव-सहायता प्राप्त कैप्चा समाधान सेवा (2कैप्चा, एंटी-कैप्चा) पर रूट करें।
मानवीय वृद्धि: निष्कर्षण कार्य को रोकें, मानव ऑपरेटर को कैप्चा से आगे मैन्युअल रूप से नेविगेट करने के लिए सचेत करें, और अगले पृष्ठ से फिर से शुरू करें।

स्कीमा सत्यापन और डेटा सामान्यीकरण

export const NormalizeExtractedData = defineSkill({
  name: "normalize-extracted-data",
  async run({ input }) {
    const normalized = input.data.map((record) => ({
      ...record,
      price: parseFloat(String(record.price).replace(/[^0-9.]/g, "")),
      originalPrice: record.originalPrice
        ? parseFloat(String(record.originalPrice).replace(/[^0-9.]/g, ""))
        : null,
      productName: record.productName.trim().replace(/\s+/g, " "),
      extractedAt: new Date(record.extractedAt).toISOString(),
      availability: normalizeAvailability(record.availability),
    }));

    // Validate against schema
    const validation = validateAgainstSchema(normalized, input.outputSchema);
    const valid = normalized.filter((_, i) => validation[i].valid);
    const invalid = normalized.filter((_, i) => !validation[i].valid);

    return { valid, invalid, validCount: valid.length, invalidCount: invalid.length };
  },
});

डिलिवरी: डेटा प्राप्त करना जहां उसे जाना है

डिलीवरी एजेंट कॉन्फ़िगर किए गए गंतव्य पर सामान्यीकृत डेटा लिखता है:

जांच और निगरानी बदलें

फ़ील्ड कवरेज दर (प्रत्येक फ़ील्ड के लिए कितने प्रतिशत रिकॉर्ड में गैर-शून्य मान हैं)
मूल्य वितरण परिवर्तन (मूल्य सीमा, उपलब्धता अनुपात)
निष्कर्षण सफलता दर (क्रॉल प्रयासों का कितना प्रतिशत वैध रिकॉर्ड उत्पन्न करता है)

अक्सर पूछे जाने वाले प्रश्न

क्या वेब स्क्रैपिंग कानूनी है?

स्क्रैप किए गए डेटा के लिए डेटा ताज़ाता की गारंटी क्या है?

क्या सिस्टम पेजिनेटेड एपीआई के साथ-साथ वेब पेजों को भी संभाल सकता है?

AI-Powered Data Extraction and Web Scraping with OpenClaw

AI-पावर्ड डेटा एक्सट्रैक्शन और OpenClaw के साथ वेब स्क्रैपिंग

आर्किटेक्चर: ओपनक्लॉ डेटा कैसे निकालता है

ब्राउज़र एजेंट: उपयोगकर्ता जो देखते हैं उसे प्रस्तुत करना

पार्सर एजेंट: चयनकर्ताओं के बिना सिमेंटिक एक्सट्रैक्शन

क्रॉल प्रबंधन: मल्टी-पेज साइटों को नेविगेट करना

एंटी-बॉट उपायों को संभालना

स्कीमा सत्यापन और डेटा सामान्यीकरण

डिलिवरी: डेटा प्राप्त करना जहां उसे जाना है

जांच और निगरानी बदलें

अक्सर पूछे जाने वाले प्रश्न

अगले कदम

इंटेलिजेंट एआई एजेंट बनाएं

संबंधित लेख

Odoo 19 Accounting: 8 New Features That Change Daily Workflows

OpenClaw Cost Optimization and Token Efficiency at Scale

OpenClaw Installation Quickstart 2026: First Agent in 15 Minutes

AI-Powered Data Extraction and Web Scraping with OpenClaw

AI-पावर्ड डेटा एक्सट्रैक्शन और OpenClaw के साथ वेब स्क्रैपिंग

आर्किटेक्चर: ओपनक्लॉ डेटा कैसे निकालता है

ब्राउज़र एजेंट: उपयोगकर्ता जो देखते हैं उसे प्रस्तुत करना

पार्सर एजेंट: चयनकर्ताओं के बिना सिमेंटिक एक्सट्रैक्शन

क्रॉल प्रबंधन: मल्टी-पेज साइटों को नेविगेट करना

एंटी-बॉट उपायों को संभालना

स्कीमा सत्यापन और डेटा सामान्यीकरण

डिलिवरी: डेटा प्राप्त करना जहां उसे जाना है

जांच और निगरानी बदलें

अक्सर पूछे जाने वाले प्रश्न

अगले कदम

इंटेलिजेंट एआई एजेंट बनाएं

संबंधित लेख

Odoo 19 Accounting: 8 New Features That Change Daily Workflows

OpenClaw Cost Optimization and Token Efficiency at Scale

OpenClaw Installation Quickstart 2026: First Agent in 15 Minutes