Power BI Dataflows: Centralized Data Preparation

प्रत्येक पावर बीआई वातावरण में अंततः एक ही समस्या विकसित होती है: दर्जनों रिपोर्ट, प्रत्येक में "समान" डेटा तैयारी तर्क के थोड़े अलग संस्करण होते हैं। ग्राहक डेटा को बिक्री डैशबोर्ड में एक तरह से साफ और मानकीकृत किया गया, मार्केटिंग रिपोर्ट में थोड़ा अलग, और कार्यकारी सारांश में फिर से अलग तरीके से। जब स्रोत प्रणाली बदलती है - एक कॉलम का नाम बदल दिया जाता है, एक नया क्षेत्र जोड़ा जाता है - प्रत्येक रिपोर्ट को व्यक्तिगत रूप से अपडेट करना एक रखरखाव दुःस्वप्न है।

पावर बीआई डेटाफ्लो व्यक्तिगत रिपोर्ट फ़ाइलों (पावर बीआई डेस्कटॉप .pbix) से डेटा तैयारी को पावर बीआई सेवा में एक साझा, केंद्रीकृत परत पर ले जाकर इसे हल करता है। डेटा प्रवाह में एक बार लिखा गया तर्क किसी भी डेवलपर द्वारा किसी भी रिपोर्ट के लिए सुसंगत परिणाम के साथ उपलब्ध होता है। यह मार्गदर्शिका डेटाफ़्लो आर्किटेक्चर, कार्यान्वयन पैटर्न और उन्नत क्षमताओं को शामिल करती है जो डेटाफ़्लो को एक नियंत्रित पावर बीआई वातावरण की नींव बनाती है।

मुख्य बातें

डेटा प्रवाह पावर बीआई सेवा में पावर क्वेरी ईटीएल तर्क को केंद्रीकृत करता है, जिससे रिपोर्ट में दोहराव समाप्त हो जाता है

डेटाफ़्लो मानकीकृत इकाइयाँ (तालियाँ) उत्पन्न करते हैं जिनका उपभोग एक ही स्रोत से कई रिपोर्टें करती हैं

लिंक की गई इकाइयाँ डेटा प्रवाह को अन्य डेटा प्रवाह से संदर्भ तालिकाओं में ले जाने की अनुमति देती हैं, जिससे स्तरित आर्किटेक्चर सक्षम होता है

परिकलित इकाइयाँ प्रीमियम डेटाफ़्लो इंजन के भीतर लिंक की गई संस्थाओं पर परिवर्तन करती हैं

माइक्रोसॉफ्ट फैब्रिक में डेटाफ्लो जेन2 स्टेजिंग और आउटपुट गंतव्यों के साथ डेटाफ्लो का विस्तार करता है

एआई अंतर्दृष्टि (प्रीमियम) डेटाफ्लो आउटपुट पर एमएल मॉडल लागू करती है - विसंगति का पता लगाना, भावना विश्लेषण, मुख्य वाक्यांश निष्कर्षण

डेटा प्रवाह पर वृद्धिशील ताज़ाकरण पूर्ण पुनर्प्रसंस्करण के बिना बड़े परिवर्तन आउटपुट को चालू रखता है

डेटाफ़्लो गवर्नेंस नियंत्रित करता है कि कौन कार्यस्थान अनुमतियों के माध्यम से डेटाफ़्लो बना सकता है, संपादित कर सकता है और उपभोग कर सकता है

डेटा प्रवाह क्यों मौजूद है

डेटा प्रवाह को समझने के लिए, उनके द्वारा हल की गई समस्या की कल्पना करना सहायक होता है।

** डेटा प्रवाह के बिना (सामान्य पैटर्न):**

डेवलपर ए रिपोर्ट 1 बनाता है, सेल्सफोर्स से जुड़ता है, डेटा को साफ़ करने और बदलने के लिए 40 पावर क्वेरी चरण लिखता है
डेवलपर बी रिपोर्ट 2 बनाता है, सेल्सफोर्स से भी जुड़ता है, 38 समान पावर क्वेरी चरण लिखता है (थोड़ा अलग)
डेवलपर सी रिपोर्ट 3 बनाता है, वही स्रोत, 45 चरण
सेल्सफोर्स एपीआई क्रेडेंशियल तीन अलग-अलग फाइलों में संग्रहीत हैं
"ग्राहक खंड" वर्गीकरण तर्क को तीन अलग-अलग तरीकों से लागू किया जाता है
जब एपीआई बदलता है, तो तीन फाइलों को अपडेट करने की जरूरत होती है
सभी तीन रिपोर्ट Salesforce API के विरुद्ध अपने स्वयं के शेड्यूल किए गए रीफ्रेश चलाती हैं

डेटा प्रवाह के साथ:

डेटा इंजीनियर 40 पावर क्वेरी चरणों के साथ एक डेटाफ़्लो बनाता है
रिपोर्ट 1, 2, और 3 सभी डेटा प्रवाह इकाई से उनके डेटा स्रोत के रूप में जुड़ते हैं
एक एपीआई क्रेडेंशियल, एक ट्रांसफॉर्मेशन लॉजिक, एक शेड्यूल्ड रिफ्रेश
जब एपीआई बदलता है, तो एक डेटाफ्लो अपडेट हो जाता है

यह मौलिक मूल्य प्रस्ताव है: डेटा प्रवाह स्रोत सिस्टम और उपभोग रिपोर्ट के बीच ईटीएल परत है।

डेटाफ्लो आर्किटेक्चर पैटर्न

अच्छी तरह से डिज़ाइन किए गए डेटाफ़्लो आर्किटेक्चर डेटा वेयरहाउस मेडलियन आर्किटेक्चर के अनुरूप एक स्तरित पैटर्न का पालन करते हैं:

कांस्य परत (स्टेजिंग डेटाफ्लो): न्यूनतम परिवर्तन के साथ स्रोत सिस्टम से डेटा निकालता है - कॉलम का नाम बदलें, प्रकार ठीक करें, स्पष्ट रूप से अमान्य रिकॉर्ड फ़िल्टर करें। यह परत कच्चे डेटा को एक मानकीकृत प्रारूप में कैप्चर करती है।

सिल्वर लेयर (कोर डेटाफ़्लो): व्यावसायिक तर्क लागू करता है - व्युत्पन्न फ़ील्ड की गणना करता है, संदर्भ डेटा लुकअप लागू करता है, रिकॉर्ड डीडुप्लिकेट करता है, संगठन-विशिष्ट व्यावसायिक नियम लागू करता है। यह परत प्रत्येक व्यावसायिक इकाई का विहित प्रतिनिधित्व तैयार करती है।

गोल्ड लेयर (रिपोर्टिंग डेटाफ्लो या सिमेंटिक मॉडल): विशिष्ट विश्लेषणात्मक उपयोग के मामलों के लिए डेटा एकत्र करता है और संरचना करता है - पूर्व-गणना किए गए एकत्रीकरण, रिपोर्ट-विशिष्ट उपाय, समय अवधि की गणना।

पावर बीआई में, लिंक की गई इकाइयां इन परतों को जोड़ती हैं: सिल्वर डेटाफ्लो लिंक की गई इकाइयों का उपयोग करके कांस्य डेटाफ्लो से इकाइयों को संदर्भित करता है। सोने की परत चांदी की संस्थाओं का संदर्भ देती है। रिपोर्टें गोल्ड लेयर इकाइयों से जुड़ती हैं।

इस वास्तुकला का अर्थ है: यदि कोई स्रोत प्रणाली बदलती है, तो केवल कांस्य डेटाफ़्लो को अद्यतन करने की आवश्यकता होती है। चांदी में व्यावसायिक तर्क और सोने में रिपोर्टिंग संरचना स्थिर बनी हुई है।

अपना पहला डेटाफ़्लो बनाना

डेटा प्रवाह Power BI सेवा में बनाए जाते हैं (Power BI डेस्कटॉप नहीं)। कार्यक्षेत्र पर नेविगेट करें → नया → डेटाफ़्लो।

डेटाफ़्लो संपादन वातावरण पावर क्वेरी ऑनलाइन है - अनिवार्य रूप से पावर बीआई डेस्कटॉप के समान पावर क्वेरी इंटरफ़ेस, लेकिन ब्राउज़र में चल रहा है और माइक्रोसॉफ्ट के क्लाउड इंफ्रास्ट्रक्चर में निष्पादित हो रहा है।

चरण 1: डेटा स्रोत परिभाषित करें

"नई इकाइयाँ जोड़ें" पर क्लिक करें → एक कनेक्टर चुनें। सभी Power BI डेस्कटॉप कनेक्टर डेटाफ़्लो में उपलब्ध हैं, साथ ही कुछ क्लाउड-नेटिव कनेक्टर (Azure डेटा फ़ैक्टरी एकीकरण, आदि)।

SQL सर्वर स्रोत के लिए:

Server: your-server.database.windows.net
Database: YourDatabase
Authentication: Organizational account or service principal

चरण 2: परिवर्तन संबंधी प्रश्न लिखें

पावर क्वेरी इंटरफ़ेस परिचित प्रस्तुत करता है: एप्लाइड स्टेप्स, फॉर्मूला बार और पूर्वावलोकन। अपना परिवर्तन तर्क बिल्कुल Power BI डेस्कटॉप की तरह बनाएं - पंक्तियों को फ़िल्टर करें, स्तंभों का नाम बदलें, संदर्भ तालिकाओं के साथ विलय करें, कस्टम तर्क लागू करें।

ग्राहक डेटा मानकीकरण क्वेरी के लिए:

let
    Source = Sql.Database("server", "db"),
    Customers = Source{[Schema="dbo", Item="Customers"]}[Data],
    FilteredActive = Table.SelectRows(Customers, each [Status] = "Active"),
    RenamedColumns = Table.RenameColumns(FilteredActive, {
        {"cust_id", "CustomerID"},
        {"cust_nm", "CustomerName"},
        {"seg_cd", "SegmentCode"}
    }),
    SegmentLookup = Table.Join(
        RenamedColumns, "SegmentCode",
        SegmentDefinitions, "Code",
        JoinKind.LeftOuter
    ),
    RemovedDuplicates = Table.Distinct(SegmentLookup, {"CustomerID"})
in
    RemovedDuplicates

चरण 3: ताज़ा शेड्यूल कॉन्फ़िगर करें

डेटाफ्लो रिफ्रेश शेड्यूल सेट करें (प्रीमियम में 48× प्रति दिन तक, प्रो में 8× प्रति दिन)। डेटाफ़्लो रिफ्रेश स्रोत के विरुद्ध परिवर्तन क्वेरी चलाता है और Power BI द्वारा प्रबंधित Azure डेटा लेक Gen2 स्टोरेज पर परिणाम लिखता है।

चरण 4: रिपोर्ट को डेटाफ़्लो से कनेक्ट करें

पावर बीआई डेस्कटॉप में: डेटा प्राप्त करें → पावर प्लेटफॉर्म → पावर बीआई डेटाफ्लो → कार्यस्थान पर नेविगेट करें → इकाई का चयन करें। रिपोर्ट डेटाफ़्लो इकाई के संग्रहीत आउटपुट से कनेक्ट होती है, स्रोत सिस्टम से नहीं।

लिंक्ड और कंप्यूटेड एंटिटीज़ (प्रीमियम)

लिंक की गई इकाइयां एक डेटा प्रवाह को दूसरे डेटा प्रवाह से संदर्भित इकाइयों को अनुमति देती हैं। इस प्रकार ऊपर वर्णित स्तरित वास्तुकला को कार्यान्वित किया जाता है।

एक लिंक की गई इकाई बनाना: सिल्वर डेटाफ़्लो में → नई इकाई → अन्य डेटाफ़्लो से लिंक इकाइयाँ → ब्रॉन्ज़ इकाई का चयन करें।

लिंक की गई इकाई सिल्वर डेटाफ़्लो में एक वर्चुअल तालिका के रूप में दिखाई देती है जो ब्रॉन्ज़ डेटाफ़्लो के आउटपुट की ओर इशारा करती है। आप लिंक की गई इकाई के शीर्ष पर अतिरिक्त परिवर्तन चरण जोड़ सकते हैं - ये अतिरिक्त चरण डेटाफ़्लो इंजन में निष्पादित होते हैं, स्रोत पर नहीं।

गणना की गई इकाइयाँ अतिरिक्त पावर क्वेरी परिवर्तनों के साथ जुड़ी हुई इकाइयाँ हैं। वे स्रोत के बजाय प्रीमियम डेटाफ़्लो इंजन की इन-मेमोरी प्रोसेसिंग में निष्पादित होते हैं, जो बड़े डेटासेट पर जटिल परिवर्तनों के लिए महत्वपूर्ण प्रदर्शन लाभ प्रदान करते हैं।

मुख्य भेद:

प्रीमियम के बिना: लिंक की गई इकाइयां अन्य डेटाफ्लो के डेटा का संदर्भ देती हैं लेकिन सभी प्रसंस्करण स्रोत के विरुद्ध क्वेरी समय पर होता है
प्रीमियम (गणना की गई इकाइयां) के साथ: लिंक की गई इकाइयों पर परिवर्तन पावर बीआई के विश्लेषणात्मक इंजन में कैश्ड डेटा का उपयोग करके चलते हैं, स्रोत का नहीं - जटिल परिवर्तनों के लिए नाटकीय रूप से तेज़

यह उन परिवर्तनों के लिए विशेष रूप से मूल्यवान है जिन्हें स्रोत पर चलाना महंगा है (बड़ी तालिकाओं, एकत्रीकरण, विंडो फ़ंक्शंस में शामिल होना) लेकिन डेटा रिपोर्ट तक पहुंचने से पहले ऐसा होना आवश्यक है।

डेटा प्रवाह के लिए वृद्धिशील ताज़ाकरण

डेटासेट की तरह, डेटाफ़्लो प्रत्येक चक्र पर सभी डेटा को फिर से लोड करने के बजाय केवल नए और परिवर्तित रिकॉर्ड को संसाधित करने के लिए वृद्धिशील रीफ्रेश का समर्थन करता है।

आवश्यकताएँ:

प्रीमियम कार्यक्षेत्र
स्रोत क्वेरी में दिनांक समय कॉलम
डेटाफ़्लो क्वेरी में परिभाषित रेंजस्टार्ट और रेंजएंड पैरामीटर

कॉन्फ़िगरेशन डेटासेट वृद्धिशील ताज़ा के समान है: पैरामीटर परिभाषित करें, क्वेरी में दिनांक फ़िल्टर लागू करें, इकाई पर वृद्धिशील ताज़ा नीति कॉन्फ़िगर करें। डेटाफ़्लो इंजन ऐतिहासिक विंडो को कवर करते हुए विभाजन बनाता है और प्रत्येक चक्र पर केवल हाल की विंडो को ताज़ा करता है।

डेटा प्रवाह के लिए वृद्धिशील रिफ्रेश सबसे मूल्यवान है जब:

परिवर्तन कम्प्यूटेशनल रूप से महंगे हैं और आप उन्हें अपरिवर्तित ऐतिहासिक डेटा पर दोबारा चलाना नहीं चाहते हैं
तालिका के बड़े आकार के कारण स्रोत क्वेरी धीमी है, और क्वेरी विंडो को सीमित करने से लाने का समय नाटकीय रूप से कम हो जाता है
भंडारण लागत मायने रखती है - वृद्धिशील विभाजन ऐतिहासिक डेटा को दोबारा पूछे बिना संग्रहीत रहने की अनुमति देता है

अधिकांश छोटे-से-मध्यम डेटा प्रवाह (10 मिलियन पंक्तियों से कम) के लिए, पूर्ण ताज़ा करना सरल और पर्याप्त है। जब ताज़ा समय 30-60 मिनट से अधिक हो जाए तो वृद्धिशील ताज़ा करना महत्वपूर्ण हो जाता है।

डेटाफ्लो में एआई अंतर्दृष्टि (प्रीमियम)

पावर बीआई प्रीमियम डेटाफ्लो में एआई इनसाइट्स - पूर्व-निर्मित मशीन लर्निंग फ़ंक्शन शामिल हैं जो सीधे पावर क्वेरी ऑनलाइन में उपलब्ध हैं।

उपलब्ध एआई फ़ंक्शन:

कार्य	विवरण	केस का प्रयोग करें
टेक्स्ट एनालिटिक्स: सेंटीमेंट स्कोर	सकारात्मक/नकारात्मक/तटस्थ + स्कोर लौटाता है	ग्राहक प्रतिक्रिया, समीक्षाएँ
पाठ विश्लेषण: मुख्य वाक्यांश	पाठ से मुख्य विषय निकालता है	समर्थन टिकट, टिप्पणियाँ
पाठ विश्लेषण: भाषा का पता लगाना	पाठ की भाषा की पहचान करता है	बहुभाषी सामग्री वर्गीकरण
पाठ विश्लेषण: नामित इकाई पहचान	व्यक्तियों, स्थानों, संगठनों की पहचान करता है	दस्तावेज़ प्रसंस्करण
दृष्टि: टैग छवि	छवियों में वस्तुओं को लेबल करें	उत्पाद सूची वर्गीकरण
दृष्टि: छवि का वर्णन करें	छवि विवरण उत्पन्न करता है	सामग्री मॉडरेशन
ऑटोएमएल (कस्टम मॉडल)	प्रशिक्षित Azure ML मॉडल लागू करें	कोई भी कस्टम वर्गीकरण/प्रतिगमन

इन फ़ंक्शंस को पावर क्वेरी संपादक में कस्टम कॉलम ट्रांसफ़ॉर्मेशन के रूप में लागू किया जाता है। customer_comments कॉलम पर एक भावना स्कोरिंग कदम:

= Table.AddColumn(Source, "Sentiment", each
    TextAnalytics.SentimentScore([CustomerComment]),
    type number
)

AI फ़ंक्शन पर्दे के पीछे Azure संज्ञानात्मक सेवाओं को कॉल करता है; परिणाम (0 से 1 तक का भाव स्कोर) एक नए कॉलम के रूप में दिखाई देता है। यह अलग डेटा विज्ञान पाइपलाइन की आवश्यकता के बिना समृद्ध डेटासेट को सक्षम बनाता है।

डेटाफ़्लो शासन और सुरक्षा

केंद्रीय डेटा तैयारी परत के रूप में, डेटा प्रवाह को गुणवत्ता सुनिश्चित करने और अनधिकृत परिवर्तनों को रोकने के लिए शासन नियंत्रण की आवश्यकता होती है।

कार्यस्थान अनुमतियाँ नियंत्रित करती हैं कि डेटा प्रवाह कौन बना और संपादित कर सकता है। डेटाफ़्लो निर्माण के लिए योगदानकर्ता या व्यवस्थापक को कार्यक्षेत्र तक पहुंच की आवश्यकता होती है। उपभोक्ताओं (रिपोर्ट डेवलपर्स जो डेटाफ्लो से जुड़ते हैं) को केवल व्यूअर एक्सेस की आवश्यकता होती है। यह भूमिका पृथक्करण सुनिश्चित करता है कि कांस्य और रजत परतों में व्यावसायिक तर्क अधिकृत डेटा इंजीनियरों द्वारा बनाए रखा जाता है।

प्रमाणन डेटा प्रवाह को केंद्रीय प्राधिकरण द्वारा अनुमोदित के रूप में चिह्नित करता है। Power BI डेस्कटॉप में डेटा स्रोत पिकर में एक प्रमाणित डेटाफ़्लो हाइलाइट किया गया है, जो रिपोर्ट डेवलपर्स को स्क्रैच से अपना स्वयं का निर्माण करने के बजाय आधिकारिक, शासित डेटा स्रोत की ओर निर्देशित करता है।

संवेदनशीलता लेबल संवेदनशील डेटा वाले डेटाप्रवाह पर Microsoft Purview सूचना सुरक्षा लेबल लागू करते हैं। पीआईआई वाले डेटाफ्लो को एक "गोपनीय" लेबल प्राप्त होता है, जो उस डेटाफ्लो का उपभोग करने वाली किसी भी रिपोर्ट में कैस्केड होता है।

पावर बीआई एडमिन पोर्टल में डेटा वंशावली स्रोत → डेटाप्रवाह → डेटासेट → रिपोर्ट से प्रवाह दिखाता है। जब कोई स्रोत प्रणाली बदलती है, तो डेटा वंश उन सभी डाउनस्ट्रीम रिपोर्टों की पहचान करने में मदद करता है जो प्रभावित हो सकती हैं।

डेटाफ्लो रिफ्रेश की निगरानी: पावर बीआई का एडमिन पोर्टल डेटाफ्लो रिफ्रेश इतिहास, अवधि और विफलताओं को दिखाता है। विफल डेटाफ़्लो रिफ्रेश के लिए पावर ऑटोमेट के माध्यम से अलर्ट सेट करना यह सुनिश्चित करता है कि जब कोई उपयोगकर्ता पुराने डेटा की रिपोर्ट करता है तो डेटा ताज़ा होने की समस्याओं का तुरंत पता चल जाता है।

डेटाफ़्लो बनाम डेटा वेयरहाउस

डेटाफ़्लो किसी समर्पित डेटा वेयरहाउस का प्रतिस्थापन नहीं है - वे एक पूरक हैं। यह समझना कि प्रत्येक कहाँ फिट बैठता है, वास्तु संबंधी गलतियों से बचाता है।

क्षमता	डेटा प्रवाह	डेटा वेयरहाउस
पावर क्वेरी परिवर्तन	मूलनिवासी	देशी नहीं
एसक्यूएल परिवर्तन	समर्थित नहीं	मूलनिवासी
कॉम्प्लेक्स बड़ी तालिकाओं में जुड़ता है	सीमित	अनुकूलित
भंडारण लागत	प्रबंधित, निश्चित मूल्य निर्धारण	परिवर्तनीय
संस्करण नियंत्रण (डीबीटी, गिटहब)	समर्थित नहीं	उत्कृष्ट
गैर-पावर बीआई उपभोक्ता (झांकी, पायथन)	सीमित	हाँ
एकाधिक बीआई उपकरण परोसना	केवल पावर बीआई	कोई भी उपकरण
उद्यम प्रशासन परिपक्वता	मध्यम	उच्च

परिपक्व डेटा इंजीनियरिंग प्रथाओं वाले संगठनों को प्राथमिक परिवर्तन और भंडारण परत के रूप में डेटा वेयरहाउस का उपयोग करना चाहिए, पावर बीआई-विशिष्ट तर्क के लिए वैकल्पिक हल्के परिवर्तन के रूप में डेटाफ्लो के साथ। डेटा इंजीनियरिंग संसाधनों के बिना संगठन अक्सर अलग गोदाम की आवश्यकता के बिना अपनी आवश्यकताओं के लिए पर्याप्त डेटा प्रवाह पाते हैं।

अक्सर पूछे जाने वाले प्रश्न

पावर बीआई डेटाफ्लो और पावर बीआई डेटासेट के बीच क्या अंतर है?

डेटाफ़्लो ETL/डेटा तैयारी परत हैं - वे Azure डेटा लेक में तालिकाओं (इकाइयों) के रूप में डेटा निकालते हैं, बदलते हैं और संग्रहीत करते हैं। डेटासेट (सिमेंटिक मॉडल) विश्लेषणात्मक परत हैं - वे संग्रहीत डेटा के शीर्ष पर उपायों, पदानुक्रम, संबंधों और सुरक्षा को परिभाषित करते हैं। एक सामान्य पैटर्न: डेटाफ़्लो साफ़ डेटा तैयार और संग्रहीत करता है → डेटासेट डेटाफ़्लो से आयात करता है और विश्लेषणात्मक तर्क जोड़ता है → रिपोर्ट डेटासेट से कनेक्ट होती है। वे वास्तुकला में विभिन्न भूमिकाएँ निभाते हैं।

क्या मुझे डेटा प्रवाह का उपयोग करने के लिए पावर बीआई प्रीमियम की आवश्यकता है?

Power BI Pro कार्यस्थानों के साथ बुनियादी डेटा प्रवाह उपलब्ध हैं। प्रीमियम (या फैब्रिक) गणना की गई इकाइयाँ, एआई अंतर्दृष्टि, वृद्धिशील ताज़ा और बेहतर प्रदर्शन जोड़ता है। अधिकांश छोटे-से-मध्यम संगठनों के लिए, प्रो-टियर डेटाफ़्लो पर्याप्त हैं। प्रीमियम सुविधाएँ तब महत्वपूर्ण हो जाती हैं जब परिवर्तन की मात्रा बड़ी होती है, एआई संवर्धन की आवश्यकता होती है, या वृद्धिशील ताज़ा की आवश्यकता होती है।

क्या मैं गैर-पावर बीआई टूल को डेटाफ्लो डेटा से जोड़ सकता हूं?

हाँ। पावर बीआई डेटाफ्लो अपने आउटपुट को सीडीएम (कॉमन डेटा मॉडल) प्रारूप में एज़्योर डेटा लेक जेन2 में संग्रहीत करता है। प्रीमियम या फ़ैब्रिक वाले संगठन अपने स्वयं के Azure डेटा लेक खाते का उपयोग करने के लिए डेटाफ़्लो को कॉन्फ़िगर कर सकते हैं, जिससे पैराक्वेट फ़ाइलें अन्य टूल (Azure Synapse Analytics, Azure Databricks, Python, Tableau) के लिए सुलभ हो जाती हैं। यह "अपनी खुद की झील लाओ" कॉन्फ़िगरेशन प्रीमियम और फैब्रिक कार्यस्थानों में उपलब्ध है।

डेटा प्रवाह डेटा स्रोत क्रेडेंशियल प्रबंधन को कैसे संभालते हैं?

डेटा प्रवाह में डेटा स्रोत क्रेडेंशियल्स Power BI सेवा में संग्रहीत किए जाते हैं और कार्यस्थान व्यवस्थापकों द्वारा प्रबंधित किए जाते हैं। यह रिपोर्ट-स्तरीय क्रेडेंशियल्स पर एक सुधार है - प्रत्येक रिपोर्ट डेवलपर अपनी .pbix फ़ाइल में क्रेडेंशियल्स संग्रहीत करने के बजाय, डेटाफ़्लो के लिए क्रेडेंशियल्स को केंद्रीय रूप से प्रबंधित किया जाता है। सेवा प्रिंसिपल (Azure AD एप्लिकेशन) प्रमाणीकरण की अनुशंसा व्यक्तिगत उपयोगकर्ता क्रेडेंशियल्स के बजाय स्वचालित, उत्पादन डेटा प्रवाह के लिए की जाती है जो उपयोगकर्ता के संगठन छोड़ने पर समाप्त हो जाते हैं।

क्या डेटा प्रवाह REST API या गैर-मानक डेटा स्रोतों को कॉल कर सकता है?

हाँ। डेटाफ़्लो, Power BI डेस्कटॉप के समान Power Query कनेक्टर इकोसिस्टम का उपयोग करता है, जिसमें वेब कनेक्टर के माध्यम से REST API कनेक्टर, कस्टम कनेक्टर (.mez फ़ाइलें) और फ़ंक्शन कनेक्टर शामिल हैं। एपीआई लॉजिक को इनकैप्सुलेट करने के लिए कस्टम एम फ़ंक्शंस को डेटाफ़्लो के भीतर परिभाषित किया जा सकता है। जटिल एपीआई पेजिनेशन, प्रमाणीकरण प्रवाह और दर सीमित करना सभी को डेटाफ्लो वातावरण के भीतर पावर क्वेरी में नियंत्रित किया जा सकता है।

अगले चरण

डेटाफ़्लो एक स्केलेबल, शासित पावर बीआई एनालिटिक्स वातावरण की नींव हैं। सही डेटाफ़्लो आर्किटेक्चर में शीघ्र निवेश करने से डुप्लिकेट, असंगत डेटा तैयारी तर्क के साथ सैकड़ों डिस्कनेक्ट की गई रिपोर्टों के तकनीकी ऋण को रोका जा सकता है।

ECOSIRE की पावर बीआई डेटा मॉडलिंग सेवाएं में डेटाफ्लो आर्किटेक्चर डिज़ाइन, स्तरित कांस्य-सिल्वर-गोल्ड डेटा तैयारी पैटर्न का कार्यान्वयन और शासन कॉन्फ़िगरेशन शामिल हैं। अपने वर्तमान परिवेश का आकलन करने और आपके संगठन के अनुरूप डेटा प्रवाह रणनीति तैयार करने के लिए हमसे संपर्क करें।

मुख्य बातें

डेटा प्रवाह पावर बीआई सेवा में पावर क्वेरी ईटीएल तर्क को केंद्रीकृत करता है, जिससे रिपोर्ट में दोहराव समाप्त हो जाता है

डेटाफ़्लो मानकीकृत इकाइयाँ (तालियाँ) उत्पन्न करते हैं जिनका उपभोग एक ही स्रोत से कई रिपोर्टें करती हैं

लिंक की गई इकाइयाँ डेटा प्रवाह को अन्य डेटा प्रवाह से संदर्भ तालिकाओं में ले जाने की अनुमति देती हैं, जिससे स्तरित आर्किटेक्चर सक्षम होता है

परिकलित इकाइयाँ प्रीमियम डेटाफ़्लो इंजन के भीतर लिंक की गई संस्थाओं पर परिवर्तन करती हैं

माइक्रोसॉफ्ट फैब्रिक में डेटाफ्लो जेन2 स्टेजिंग और आउटपुट गंतव्यों के साथ डेटाफ्लो का विस्तार करता है

एआई अंतर्दृष्टि (प्रीमियम) डेटाफ्लो आउटपुट पर एमएल मॉडल लागू करती है - विसंगति का पता लगाना, भावना विश्लेषण, मुख्य वाक्यांश निष्कर्षण

डेटा प्रवाह पर वृद्धिशील ताज़ाकरण पूर्ण पुनर्प्रसंस्करण के बिना बड़े परिवर्तन आउटपुट को चालू रखता है

डेटाफ़्लो गवर्नेंस नियंत्रित करता है कि कौन कार्यस्थान अनुमतियों के माध्यम से डेटाफ़्लो बना सकता है, संपादित कर सकता है और उपभोग कर सकता है

डेटा प्रवाह क्यों मौजूद है

** डेटा प्रवाह के बिना (सामान्य पैटर्न):**

डेवलपर ए रिपोर्ट 1 बनाता है, सेल्सफोर्स से जुड़ता है, डेटा को साफ़ करने और बदलने के लिए 40 पावर क्वेरी चरण लिखता है
डेवलपर बी रिपोर्ट 2 बनाता है, सेल्सफोर्स से भी जुड़ता है, 38 समान पावर क्वेरी चरण लिखता है (थोड़ा अलग)
डेवलपर सी रिपोर्ट 3 बनाता है, वही स्रोत, 45 चरण
सेल्सफोर्स एपीआई क्रेडेंशियल तीन अलग-अलग फाइलों में संग्रहीत हैं
"ग्राहक खंड" वर्गीकरण तर्क को तीन अलग-अलग तरीकों से लागू किया जाता है
जब एपीआई बदलता है, तो तीन फाइलों को अपडेट करने की जरूरत होती है
सभी तीन रिपोर्ट Salesforce API के विरुद्ध अपने स्वयं के शेड्यूल किए गए रीफ्रेश चलाती हैं

डेटा प्रवाह के साथ:

डेटा इंजीनियर 40 पावर क्वेरी चरणों के साथ एक डेटाफ़्लो बनाता है
रिपोर्ट 1, 2, और 3 सभी डेटा प्रवाह इकाई से उनके डेटा स्रोत के रूप में जुड़ते हैं
एक एपीआई क्रेडेंशियल, एक ट्रांसफॉर्मेशन लॉजिक, एक शेड्यूल्ड रिफ्रेश
जब एपीआई बदलता है, तो एक डेटाफ्लो अपडेट हो जाता है

डेटाफ्लो आर्किटेक्चर पैटर्न

अपना पहला डेटाफ़्लो बनाना

चरण 1: डेटा स्रोत परिभाषित करें

SQL सर्वर स्रोत के लिए:

Server: your-server.database.windows.net
Database: YourDatabase
Authentication: Organizational account or service principal

चरण 2: परिवर्तन संबंधी प्रश्न लिखें

ग्राहक डेटा मानकीकरण क्वेरी के लिए:

let
    Source = Sql.Database("server", "db"),
    Customers = Source{[Schema="dbo", Item="Customers"]}[Data],
    FilteredActive = Table.SelectRows(Customers, each [Status] = "Active"),
    RenamedColumns = Table.RenameColumns(FilteredActive, {
        {"cust_id", "CustomerID"},
        {"cust_nm", "CustomerName"},
        {"seg_cd", "SegmentCode"}
    }),
    SegmentLookup = Table.Join(
        RenamedColumns, "SegmentCode",
        SegmentDefinitions, "Code",
        JoinKind.LeftOuter
    ),
    RemovedDuplicates = Table.Distinct(SegmentLookup, {"CustomerID"})
in
    RemovedDuplicates

चरण 3: ताज़ा शेड्यूल कॉन्फ़िगर करें

चरण 4: रिपोर्ट को डेटाफ़्लो से कनेक्ट करें

लिंक्ड और कंप्यूटेड एंटिटीज़ (प्रीमियम)

मुख्य भेद:

प्रीमियम के बिना: लिंक की गई इकाइयां अन्य डेटाफ्लो के डेटा का संदर्भ देती हैं लेकिन सभी प्रसंस्करण स्रोत के विरुद्ध क्वेरी समय पर होता है
प्रीमियम (गणना की गई इकाइयां) के साथ: लिंक की गई इकाइयों पर परिवर्तन पावर बीआई के विश्लेषणात्मक इंजन में कैश्ड डेटा का उपयोग करके चलते हैं, स्रोत का नहीं - जटिल परिवर्तनों के लिए नाटकीय रूप से तेज़

डेटा प्रवाह के लिए वृद्धिशील ताज़ाकरण

आवश्यकताएँ:

प्रीमियम कार्यक्षेत्र
स्रोत क्वेरी में दिनांक समय कॉलम
डेटाफ़्लो क्वेरी में परिभाषित रेंजस्टार्ट और रेंजएंड पैरामीटर

डेटा प्रवाह के लिए वृद्धिशील रिफ्रेश सबसे मूल्यवान है जब:

परिवर्तन कम्प्यूटेशनल रूप से महंगे हैं और आप उन्हें अपरिवर्तित ऐतिहासिक डेटा पर दोबारा चलाना नहीं चाहते हैं
तालिका के बड़े आकार के कारण स्रोत क्वेरी धीमी है, और क्वेरी विंडो को सीमित करने से लाने का समय नाटकीय रूप से कम हो जाता है
भंडारण लागत मायने रखती है - वृद्धिशील विभाजन ऐतिहासिक डेटा को दोबारा पूछे बिना संग्रहीत रहने की अनुमति देता है

डेटाफ्लो में एआई अंतर्दृष्टि (प्रीमियम)

उपलब्ध एआई फ़ंक्शन:

कार्य	विवरण	केस का प्रयोग करें
टेक्स्ट एनालिटिक्स: सेंटीमेंट स्कोर	सकारात्मक/नकारात्मक/तटस्थ + स्कोर लौटाता है	ग्राहक प्रतिक्रिया, समीक्षाएँ
पाठ विश्लेषण: मुख्य वाक्यांश	पाठ से मुख्य विषय निकालता है	समर्थन टिकट, टिप्पणियाँ
पाठ विश्लेषण: भाषा का पता लगाना	पाठ की भाषा की पहचान करता है	बहुभाषी सामग्री वर्गीकरण
पाठ विश्लेषण: नामित इकाई पहचान	व्यक्तियों, स्थानों, संगठनों की पहचान करता है	दस्तावेज़ प्रसंस्करण
दृष्टि: टैग छवि	छवियों में वस्तुओं को लेबल करें	उत्पाद सूची वर्गीकरण
दृष्टि: छवि का वर्णन करें	छवि विवरण उत्पन्न करता है	सामग्री मॉडरेशन
ऑटोएमएल (कस्टम मॉडल)	प्रशिक्षित Azure ML मॉडल लागू करें	कोई भी कस्टम वर्गीकरण/प्रतिगमन

= Table.AddColumn(Source, "Sentiment", each
    TextAnalytics.SentimentScore([CustomerComment]),
    type number
)

डेटाफ़्लो शासन और सुरक्षा

डेटाफ़्लो बनाम डेटा वेयरहाउस

क्षमता	डेटा प्रवाह	डेटा वेयरहाउस
पावर क्वेरी परिवर्तन	मूलनिवासी	देशी नहीं
एसक्यूएल परिवर्तन	समर्थित नहीं	मूलनिवासी
कॉम्प्लेक्स बड़ी तालिकाओं में जुड़ता है	सीमित	अनुकूलित
भंडारण लागत	प्रबंधित, निश्चित मूल्य निर्धारण	परिवर्तनीय
संस्करण नियंत्रण (डीबीटी, गिटहब)	समर्थित नहीं	उत्कृष्ट
गैर-पावर बीआई उपभोक्ता (झांकी, पायथन)	सीमित	हाँ
एकाधिक बीआई उपकरण परोसना	केवल पावर बीआई	कोई भी उपकरण
उद्यम प्रशासन परिपक्वता	मध्यम	उच्च

अक्सर पूछे जाने वाले प्रश्न

पावर बीआई डेटाफ्लो और पावर बीआई डेटासेट के बीच क्या अंतर है?

क्या मुझे डेटा प्रवाह का उपयोग करने के लिए पावर बीआई प्रीमियम की आवश्यकता है?

क्या मैं गैर-पावर बीआई टूल को डेटाफ्लो डेटा से जोड़ सकता हूं?

डेटा प्रवाह डेटा स्रोत क्रेडेंशियल प्रबंधन को कैसे संभालते हैं?

क्या डेटा प्रवाह REST API या गैर-मानक डेटा स्रोतों को कॉल कर सकता है?

Power BI Dataflows: Centralized Data Preparation

डेटा प्रवाह क्यों मौजूद है

डेटाफ्लो आर्किटेक्चर पैटर्न

अपना पहला डेटाफ़्लो बनाना

लिंक्ड और कंप्यूटेड एंटिटीज़ (प्रीमियम)

डेटा प्रवाह के लिए वृद्धिशील ताज़ाकरण

डेटाफ्लो में एआई अंतर्दृष्टि (प्रीमियम)

डेटाफ़्लो शासन और सुरक्षा

डेटाफ़्लो बनाम डेटा वेयरहाउस

अक्सर पूछे जाने वाले प्रश्न

अगले चरण

डेटा-संचालित निर्णय अनलॉक करें

संबंधित लेख

Microsoft Fabric vs Power BI: What Is the Difference, and What Do You Actually Need in 2026?

Power BI Consultant vs In-House Team: Cost, Speed, and When to Hire Help (2026)

Power BI Embedded: Costs, Capacity Sizing, and When It Beats Building Your Own Dashboards

Power BI Dataflows: Centralized Data Preparation

डेटा प्रवाह क्यों मौजूद है

डेटाफ्लो आर्किटेक्चर पैटर्न

अपना पहला डेटाफ़्लो बनाना

लिंक्ड और कंप्यूटेड एंटिटीज़ (प्रीमियम)

डेटा प्रवाह के लिए वृद्धिशील ताज़ाकरण

डेटाफ्लो में एआई अंतर्दृष्टि (प्रीमियम)

डेटाफ़्लो शासन और सुरक्षा

डेटाफ़्लो बनाम डेटा वेयरहाउस

अक्सर पूछे जाने वाले प्रश्न

अगले चरण

डेटा-संचालित निर्णय अनलॉक करें

संबंधित लेख

Microsoft Fabric vs Power BI: What Is the Difference, and What Do You Actually Need in 2026?

Power BI Consultant vs In-House Team: Cost, Speed, and When to Hire Help (2026)

Power BI Embedded: Costs, Capacity Sizing, and When It Beats Building Your Own Dashboards