تدفقات بيانات Power BI: إعداد البيانات مركزيًا
في نهاية المطاف، تواجه كل بيئة Power BI نفس المشكلة: عشرات التقارير، كل منها يحتوي على إصدارات مختلفة قليلاً من منطق إعداد البيانات "نفسه". يتم تنظيف بيانات العملاء وتوحيدها بطريقة واحدة في لوحة معلومات المبيعات، وبطريقة مختلفة قليلاً في تقرير التسويق، وبشكل مختلف مرة أخرى في الملخص التنفيذي. عندما يتغير النظام المصدر — تتم إعادة تسمية عمود، وتتم إضافة منطقة جديدة — فإن تحديث كل تقرير على حدة يمثل كابوسًا للصيانة.
تعمل تدفقات بيانات Power BI على حل هذه المشكلة عن طريق نقل إعداد البيانات من ملفات التقارير الفردية (Power BI Desktop .pbix) إلى طبقة مركزية مشتركة في خدمة Power BI. المنطق المكتوب مرة واحدة في تدفق البيانات متاح لأي تقرير بواسطة أي مطور، مع نتيجة متسقة. يغطي هذا الدليل بنية تدفق البيانات وأنماط التنفيذ والإمكانيات المتقدمة التي تجعل تدفقات البيانات أساسًا لبيئة Power BI المحكومة.
الوجبات الرئيسية
- تعمل تدفقات البيانات على مركزية منطق Power Query ETL في خدمة Power BI، مما يؤدي إلى القضاء على التكرار عبر التقارير
- تنتج تدفقات البيانات كيانات موحدة (جداول) تستهلكها تقارير متعددة من مصدر واحد
- تسمح الكيانات المرتبطة لتدفقات البيانات بالرجوع إلى الجداول من تدفقات البيانات الأخرى، مما يتيح بنية الطبقات
- تقوم الكيانات المحسوبة بإجراء تحويلات على الكيانات المرتبطة داخل محرك تدفق البيانات المميز
- يعمل Dataflow Gen2 في Microsoft Fabric على توسيع تدفقات البيانات من خلال وجهات التدريج والإخراج
- تطبق رؤى الذكاء الاصطناعي (المميزة) نماذج التعلم الآلي على مخرجات تدفق البيانات - اكتشاف الحالات الشاذة، وتحليل المشاعر، واستخراج العبارة الرئيسية
- التحديث المتزايد لتدفقات البيانات يحافظ على مخرجات التحويل الكبيرة الحالية دون إعادة المعالجة الكاملة
- تتحكم حوكمة تدفق البيانات في من يمكنه إنشاء تدفقات البيانات وتحريرها واستهلاكها من خلال أذونات مساحة العمل
سبب وجود تدفقات البيانات
لفهم تدفقات البيانات، من المفيد تصور المشكلة التي تحلها.
بدون تدفقات البيانات (النمط الشائع):
- يقوم المطور "أ" بإنشاء التقرير 1، والاتصال بـ Salesforce، وكتابة 40 خطوة Power Query لتنظيف البيانات وتحويلها
- ينشئ المطور "ب" التقرير 2، ويتصل أيضًا بـ Salesforce، ويكتب 38 خطوة مماثلة في Power Query (مختلفة قليلاً)
- يقوم المطور C ببناء التقرير 3، نفس المصدر، 45 خطوة
- يتم تخزين بيانات اعتماد Salesforce API في ثلاثة ملفات مختلفة
- يتم تنفيذ منطق تصنيف "شريحة العملاء" بثلاث طرق مختلفة قليلاً
- عندما تتغير واجهة برمجة التطبيقات، تحتاج ثلاثة ملفات إلى التحديث
- تقوم جميع التقارير الثلاثة بتشغيل التحديثات المجدولة الخاصة بها مقابل Salesforce API
مع تدفقات البيانات:
- يقوم مهندس البيانات بإنشاء تدفق بيانات واحد باستخدام 40 خطوة Power Query
- تتصل جميع التقارير 1 و2 و3 بكيان تدفق البيانات كمصدر بيانات خاص بها
- بيانات اعتماد API واحدة، ومنطق تحويل واحد، وتحديث مجدول واحد
- عندما تتغير واجهة برمجة التطبيقات، يتم تحديث تدفق بيانات واحد
هذه هي القيمة الأساسية المقترحة: تدفقات البيانات هي طبقة ETL بين أنظمة المصدر والتقارير المستهلكة.
أنماط بنية تدفق البيانات
تتبع بنيات تدفق البيانات المصممة جيدًا نمطًا متعدد الطبقات مشابهًا لبنية ميدالية مستودع البيانات:
الطبقة البرونزية (تدفق البيانات المرحلي): تستخرج البيانات من أنظمة المصدر بأقل قدر من التحويل — إعادة تسمية الأعمدة، وإصلاح الأنواع، وتصفية السجلات غير الصالحة بشكل واضح. تلتقط هذه الطبقة البيانات الأولية بتنسيق موحد.
الطبقة الفضية (تدفق البيانات الأساسية): تطبق منطق الأعمال - وتحسب الحقول المشتقة، وتطبق عمليات البحث عن البيانات المرجعية، وتزيل تكرار السجلات، وتطبق قواعد العمل الخاصة بالمؤسسة. تنتج هذه الطبقة التمثيل القانوني لكل كيان تجاري.
الطبقة الذهبية (تقارير تدفق البيانات أو النموذج الدلالي): تجميع البيانات وتنظيمها لحالات استخدام تحليلية محددة - التجميعات المحسوبة مسبقًا، والمقاييس الخاصة بالتقرير، وحسابات الفترة الزمنية.
في Power BI، تقوم الكيانات المرتبطة بتوصيل هذه الطبقات: يشير تدفق البيانات الفضي إلى الكيانات من تدفق البيانات البرونزي باستخدام الكيانات المرتبطة. تشير الطبقة الذهبية إلى الكيانات الفضية. تتصل التقارير بكيانات الطبقة الذهبية.
تعني هذه البنية: إذا تغير نظام المصدر، فإن تدفق البيانات البرونزي فقط هو الذي يحتاج إلى التحديث. يظل منطق الأعمال في الفضة وهيكل التقارير في الذهب مستقرًا.
إنشاء تدفق البيانات الأول الخاص بك
يتم إنشاء تدفقات البيانات في خدمة Power BI (وليس Power BI Desktop). انتقل إلى مساحة العمل → جديد → تدفق البيانات.
بيئة تحرير تدفق البيانات هي Power Query Online — وهي في الأساس نفس واجهة Power Query مثل Power BI Desktop، ولكنها تعمل في المستعرض ويتم تنفيذها في البنية الأساسية السحابية لـ Microsoft.
الخطوة 1: تحديد مصدر البيانات
انقر على "إضافة كيانات جديدة" ← اختر موصلاً. تتوفر جميع موصلات Power BI Desktop في تدفقات البيانات، بالإضافة إلى بعض الموصلات السحابية الأصلية (تكامل Azure Data Factory، وما إلى ذلك).
بالنسبة لمصدر SQL Server:
Server: your-server.database.windows.net
Database: YourDatabase
Authentication: Organizational account or service principal
الخطوة 2: كتابة استعلامات التحويل
تقدم واجهة Power Query ما هو مألوف: الخطوات التطبيقية وشريط الصيغة والمعاينة. أنشئ منطق التحويل الخاص بك تمامًا كما هو الحال في Power BI Desktop - قم بتصفية الصفوف وإعادة تسمية الأعمدة والدمج مع الجداول المرجعية وتطبيق المنطق المخصص.
بالنسبة لاستعلام توحيد بيانات العميل:
let
Source = Sql.Database("server", "db"),
Customers = Source{[Schema="dbo", Item="Customers"]}[Data],
FilteredActive = Table.SelectRows(Customers, each [Status] = "Active"),
RenamedColumns = Table.RenameColumns(FilteredActive, {
{"cust_id", "CustomerID"},
{"cust_nm", "CustomerName"},
{"seg_cd", "SegmentCode"}
}),
SegmentLookup = Table.Join(
RenamedColumns, "SegmentCode",
SegmentDefinitions, "Code",
JoinKind.LeftOuter
),
RemovedDuplicates = Table.Distinct(SegmentLookup, {"CustomerID"})
in
RemovedDuplicates
الخطوة 3: تكوين جدول التحديث
قم بتعيين جدول تحديث تدفق البيانات (ما يصل إلى 48× يوميًا في Premium، و8× يوميًا في Pro). يقوم تحديث تدفق البيانات بتشغيل استعلامات التحويل مقابل المصدر وكتابة النتائج إلى مساحة تخزين Azure Data Lake Gen2 المُدارة بواسطة Power BI.
الخطوة 4: ربط التقارير بتدفق البيانات
في Power BI Desktop: احصل على البيانات ← Power Platform ← تدفقات بيانات Power BI ← انتقل إلى مساحة العمل ← حدد الكيان. يتصل التقرير بالمخرجات المخزنة لكيان تدفق البيانات، وليس بالنظام المصدر.
الكيانات المرتبطة والمحسوبة (المميزة)
تسمح الكيانات المرتبطة لتدفق بيانات واحد بالرجوع إلى الكيانات من تدفق بيانات آخر. هذه هي الطريقة التي يتم بها تنفيذ بنية الطبقات الموضحة أعلاه.
إنشاء كيان مرتبط: في تدفق البيانات الفضي → كيان جديد → ربط الكيانات من تدفقات البيانات الأخرى → حدد الكيان البرونزي.
يظهر الكيان المرتبط في تدفق البيانات الفضي كجدول افتراضي يشير إلى مخرجات تدفق البيانات البرونزي. يمكنك إضافة خطوات تحويل إضافية أعلى الكيان المرتبط - يتم تنفيذ هذه الخطوات الإضافية في محرك تدفق البيانات، وليس في المصدر.
الكيانات المحسوبة هي كيانات مرتبطة تم تطبيق تحويلات Power Query إضافية عليها. يتم تنفيذها في معالجة الذاكرة في محرك تدفق البيانات المميز بدلاً من المصدر، مما يوفر مزايا أداء كبيرة للتحويلات المعقدة في مجموعات البيانات الكبيرة.
التمييز الرئيسي:
- بدون Premium: تشير الكيانات المرتبطة إلى بيانات تدفق البيانات الأخرى ولكن تتم كل المعالجة في وقت الاستعلام مقابل المصدر
- باستخدام Premium (الكيانات المحسوبة): يتم تشغيل التحويلات على الكيانات المرتبطة في محرك Power BI التحليلي باستخدام البيانات المخزنة مؤقتًا، وليس المصدر - وهو أسرع بشكل كبير بالنسبة للتحويلات المعقدة
يعد هذا مفيدًا بشكل خاص للتحويلات التي يكون تشغيلها في المصدر مكلفًا (الانضمام عبر الجداول الكبيرة والتجميعات ووظائف النوافذ) ولكن يجب أن تتم قبل أن تصل البيانات إلى التقارير.
التحديث المتزايد لتدفقات البيانات
مثل مجموعات البيانات، تدعم تدفقات البيانات التحديث المتزايد لمعالجة السجلات الجديدة والمتغيرة فقط بدلاً من إعادة تحميل جميع البيانات في كل دورة.
المتطلبات:
- مساحة عمل متميزة
- عمود التاريخ والوقت في الاستعلام المصدر
- معلمات RangeStart وRangeEnd المحددة في استعلام تدفق البيانات
التكوين مطابق للتحديث التزايدي لمجموعة البيانات: تحديد المعلمات، وتطبيق مرشح التاريخ في الاستعلام، وتكوين سياسة التحديث التزايدي في الكيان. يقوم محرك تدفق البيانات بإنشاء أقسام تغطي النافذة التاريخية ويقوم بتحديث النافذة الأخيرة فقط في كل دورة.
التحديث المتزايد لتدفقات البيانات يكون أكثر قيمة عندما:
- التحويلات مكلفة من الناحية الحسابية ولا ترغب في إعادة تشغيلها على بيانات تاريخية لم تتغير
- الاستعلام المصدر بطيء بسبب أحجام الجدول الكبيرة، كما أن تحديد نافذة الاستعلام يقلل بشكل كبير من وقت الجلب
- تكلفة التخزين مهمة - تسمح الأقسام الإضافية ببقاء البيانات التاريخية مخزنة دون إعادة الاستعلام
بالنسبة لمعظم تدفقات البيانات الصغيرة إلى المتوسطة (أقل من 10 ملايين صف)، يكون التحديث الكامل أبسط وكافي. يصبح التحديث المتزايد مهمًا عندما تتجاوز أوقات التحديث 30-60 دقيقة.
رؤى الذكاء الاصطناعي في تدفقات البيانات (المميزة)
تشتمل تدفقات بيانات Power BI Premium على AI Insights — وهي وظائف التعلم الآلي المعدة مسبقًا والمتوفرة مباشرة في Power Query Online.
** وظائف الذكاء الاصطناعي المتاحة: **
| وظيفة | الوصف | حالة الاستخدام |
|---|---|---|
| تحليلات النص: درجة المشاعر | إرجاع إيجابي/سلبي/محايد + النتيجة | تعليقات العملاء والمراجعات |
| تحليلات النص: العبارات الرئيسية | يستخرج المواضيع الرئيسية من النص | تذاكر الدعم، التعليقات |
| تحليلات النص: اكتشاف اللغة | يحدد لغة النص | تصنيف المحتوى متعدد اللغات |
| تحليلات النص: التعرف على الكيان المسمى | يحدد الأشخاص والأماكن والمنظمات | تجهيز الوثائق |
| الرؤية: صورة الوسم | تسميات الكائنات في الصور | تصنيف كتالوج المنتجات |
| الرؤية: وصف الصورة | يولد وصف الصورة | الإشراف على المحتوى |
| AutoML (نماذج مخصصة) | تطبيق نماذج Azure ML المدربة | أي تصنيف/انحدار مخصص |
يتم استدعاء هذه الوظائف كتحويلات أعمدة مخصصة في محرر Power Query. خطوة تسجيل المشاعر في عمود customer_comments:
= Table.AddColumn(Source, "Sentiment", each
TextAnalytics.SentimentScore([CustomerComment]),
type number
)
تستدعي وظيفة الذكاء الاصطناعي Azure Cognitive Services خلف الكواليس؛ تظهر النتيجة (درجة المشاعر من 0 إلى 1) كعمود جديد. يؤدي ذلك إلى تمكين مجموعات البيانات الغنية دون الحاجة إلى مسار منفصل لعلم البيانات.
إدارة تدفق البيانات وأمنها
باعتبارها طبقة إعداد البيانات المركزية، تتطلب تدفقات البيانات ضوابط الإدارة لضمان الجودة ومنع التغييرات غير المصرح بها.
أذونات مساحة العمل تتحكم في من يمكنه إنشاء تدفقات البيانات وتحريرها. يتطلب إنشاء تدفق البيانات وصول المساهم أو المسؤول إلى مساحة العمل. يحتاج المستهلكون (مطورو التقارير الذين يتصلون بتدفق البيانات) إلى وصول العارض فقط. يضمن فصل الأدوار هذا الحفاظ على منطق الأعمال في الطبقتين البرونزية والفضية بواسطة مهندسي البيانات المعتمدين.
الشهادة تحدد تدفقات البيانات على أنها معتمدة من قبل سلطة مركزية. يتم تمييز تدفق البيانات المعتمد في منتقي مصدر البيانات في Power BI Desktop، مما يوجه مطوري التقارير إلى مصدر البيانات المعتمد والمنظم بدلاً من إنشاء مصدر بيانات خاص بهم من البداية.
** تسميات الحساسية ** تطبق تسميات حماية معلومات Microsoft Purview على تدفقات البيانات التي تحتوي على بيانات حساسة. يتلقى تدفق البيانات الذي يحتوي على معلومات تحديد الهوية الشخصية علامة "سري"، والتي تتالي إلى أي تقرير يستهلك تدفق البيانات هذا.
يُظهر تسلسل البيانات في بوابة إدارة Power BI التدفق من المصدر ← تدفق البيانات ← مجموعة البيانات ← التقرير. عندما يتغير نظام المصدر، يساعد نسب البيانات في تحديد جميع التقارير النهائية التي قد تتأثر.
مراقبة تحديث تدفق البيانات: تعرض بوابة إدارة Power BI محفوظات تحديث تدفق البيانات ومدتها وحالات الفشل. يضمن إعداد التنبيهات عبر Power Automate لعمليات تحديث تدفق البيانات الفاشلة اكتشاف مشكلات حداثة البيانات على الفور بدلاً من اكتشافها عندما يقوم المستخدم بالإبلاغ عن بيانات قديمة.
تدفقات البيانات مقابل مستودع البيانات
لا تعد تدفقات البيانات بديلاً لمستودع بيانات مخصص - فهي مكملة. إن فهم مكان كل مناسبة يمنع الأخطاء المعمارية.
| القدرة | تدفقات البيانات | مستودع البيانات |
|---|---|---|
| تحويلات Power Query | أصلي | ليست أصلية |
| تحويلات SQL | غير مدعوم | أصلي |
| وصلات معقدة عبر جداول كبيرة | محدودة | الأمثل |
| تكلفة التخزين | أسعار مُدارة وثابتة | متغير |
| التحكم في الإصدار (dbt، جيثب) | غير مدعوم | ممتاز |
| مستهلكو BI غير العاملين في مجال الطاقة (Tableau، Python) | محدودة | نعم |
| خدمة أدوات ذكاء الأعمال المتعددة | باور بي فقط | أي أداة |
| نضج حوكمة المؤسسات | معتدل | عالية |
يجب على المؤسسات التي لديها ممارسات هندسة بيانات ناضجة استخدام مستودع البيانات كطبقة التحويل والتخزين الأساسية، مع تدفقات البيانات كتحويل اختياري خفيف الوزن لمنطق Power BI المحدد. غالبًا ما تجد المؤسسات التي ليس لديها موارد هندسة البيانات تدفقات بيانات كافية لاحتياجاتها دون الحاجة إلى مستودع منفصل.
الأسئلة المتداولة
ما الفرق بين تدفقات بيانات Power BI ومجموعات بيانات Power BI؟
تدفقات البيانات هي طبقة إعداد ETL/البيانات - فهي تقوم باستخراج البيانات وتحويلها وتخزينها كجداول (كيانات) في Azure Data Lake. مجموعات البيانات (النماذج الدلالية) هي الطبقة التحليلية - فهي تحدد المقاييس والتسلسلات الهرمية والعلاقات والأمان فوق البيانات المخزنة. نمط شائع: تقوم تدفقات البيانات بإعداد وتخزين البيانات النظيفة ← استيراد مجموعات البيانات من تدفقات البيانات وإضافة منطق تحليلي ← توصيل التقارير بمجموعات البيانات. أنها تخدم أدوارًا مختلفة في الهندسة المعمارية.
هل أحتاج إلى Power BI Premium لاستخدام تدفقات البيانات؟
تتوفر تدفقات البيانات الأساسية مع مساحات عمل Power BI Pro. يضيف Premium (أو Fabric) الكيانات المحسوبة ورؤى الذكاء الاصطناعي والتحديث المتزايد والأداء المحسن. بالنسبة لمعظم المؤسسات الصغيرة والمتوسطة، تكون تدفقات البيانات الاحترافية كافية. تصبح الميزات المميزة مهمة عندما تكون أحجام التحويل كبيرة، أو عندما تكون هناك حاجة إلى إثراء الذكاء الاصطناعي، أو عندما تكون هناك حاجة إلى تحديث تدريجي.
هل يمكنني توصيل أدوات غير Power BI ببيانات تدفق البيانات؟
نعم. تقوم تدفقات بيانات Power BI بتخزين مخرجاتها في Azure Data Lake Gen2 بتنسيق CDM (نموذج البيانات العام). يمكن للمؤسسات ذات Premium أو Fabric تكوين تدفق البيانات لاستخدام حساب Azure Data Lake الخاص بها، مما يجعل ملفات الباركيه قابلة للوصول إلى أدوات أخرى (Azure Synapse Analytics، وAzure Databricks، وPython، وTableau). يتوفر تكوين "إحضار بحيرتك الخاصة" في مساحات العمل Premium وFabric.
كيف تتعامل تدفقات البيانات مع إدارة بيانات اعتماد مصدر البيانات؟
يتم تخزين بيانات اعتماد مصدر البيانات في تدفقات البيانات في خدمة Power BI ويتم إدارتها بواسطة مسؤولي مساحة العمل. يعد هذا تحسينًا على بيانات الاعتماد على مستوى التقرير - بدلاً من قيام كل مطور تقرير بتخزين بيانات الاعتماد في ملف .pbix الخاص به، تتم إدارة بيانات الاعتماد مركزيًا لتدفق البيانات. يوصى بمصادقة مبدأ الخدمة (تطبيق Azure AD) لتدفقات بيانات الإنتاج المؤتمتة بدلاً من بيانات اعتماد المستخدم الشخصية التي تنتهي صلاحيتها عندما يغادر المستخدم المؤسسة.
هل يمكن لتدفقات البيانات استدعاء واجهات برمجة تطبيقات REST أو مصادر البيانات غير القياسية؟
نعم. تستخدم تدفقات البيانات نفس النظام البيئي لموصل Power Query مثل Power BI Desktop، بما في ذلك موصلات REST API عبر موصل الويب والموصلات المخصصة (ملفات .mez) وموصلات الوظائف. يمكن تعريف وظائف M المخصصة ضمن تدفق البيانات لتغليف منطق واجهة برمجة التطبيقات. يمكن معالجة صفحات واجهة برمجة التطبيقات المعقدة وتدفقات المصادقة وتحديد المعدل في Power Query داخل بيئة تدفق البيانات.
الخطوات التالية
تعد تدفقات البيانات أساس بيئة تحليلات Power BI القابلة للتطوير والإدارة. إن الاستثمار في بنية تدفق البيانات الصحيحة مبكرًا يمنع العبء الفني لمئات التقارير المنفصلة ذات منطق إعداد البيانات المكرر وغير المتسق.
تتضمن خدمات نمذجة بيانات Power BI من ECOSIRE تصميم بنية تدفق البيانات، وتنفيذ أنماط إعداد البيانات ذات الطبقات البرونزية والفضية والذهبية، وتكوين الإدارة. اتصل بنا لتقييم بيئتك الحالية وتصميم استراتيجية تدفق البيانات التي تتناسب مع مؤسستك.
بقلم
ECOSIRE Research and Development Team
بناء منتجات رقمية بمستوى المؤسسات في ECOSIRE. مشاركة رؤى حول تكاملات Odoo وأتمتة التجارة الإلكترونية وحلول الأعمال المدعومة بالذكاء الاصطناعي.
مقالات ذات صلة
Building Financial Dashboards with Power BI
Step-by-step guide to building financial dashboards in Power BI covering data connections to accounting systems, DAX measures for KPIs, P&L visualisations, and best practices.
Case Study: Power BI Analytics for Multi-Location Retail
How a 14-location retail chain unified their reporting in Power BI connected to Odoo, replacing 40 spreadsheets with one dashboard and cutting reporting time by 78%.
ERP Data Migration: Best Practices and Common Pitfalls
A complete guide to ERP data migration. Covers data extraction, cleaning, transformation, loading, validation, and the common pitfalls that derail migrations.