Power BI Dataflows: Centralized Data Preparation

Master Power BI dataflows to centralize ETL logic, eliminate duplicate data preparation across reports, and build a governed, reusable data layer for your organization.

E
ECOSIRE Research and Development Team
|19. März 202610 Min. Lesezeit2.3k Wörter|

Power BI Dataflows: Zentralisierte Datenvorbereitung

In jeder Power BI-Umgebung entsteht irgendwann das gleiche Problem: Dutzende Berichte, jeder mit leicht unterschiedlichen Versionen der „gleichen“ Datenvorbereitungslogik. Kundendaten wurden im Vertriebs-Dashboard auf eine Art bereinigt und standardisiert, im Marketingbericht etwas anders und in der Zusammenfassung noch einmal anders. Wenn sich das Quellsystem ändert – eine Spalte wird umbenannt oder eine neue Region hinzugefügt – ist die Aktualisierung jedes Berichts einzeln ein Wartungsalptraum.

Power BI-Datenflüsse lösen dieses Problem, indem sie die Datenvorbereitung von einzelnen Berichtsdateien (Power BI Desktop .pbix) auf eine gemeinsame, zentralisierte Ebene im Power BI-Dienst verlagern. Einmal in einem Datenfluss geschriebene Logik steht jedem Bericht und jedem Entwickler zur Verfügung und liefert ein konsistentes Ergebnis. Dieser Leitfaden behandelt die Datenflussarchitektur, Implementierungsmuster und die erweiterten Funktionen, die Datenflüsse zur Grundlage einer verwalteten Power BI-Umgebung machen.

Wichtige Erkenntnisse

– Datenflüsse zentralisieren die ETL-Logik von Power Query im Power BI-Dienst und verhindern so Duplikate zwischen Berichten – Datenflüsse erzeugen standardisierte Einheiten (Tabellen), die mehrere Berichte aus einer einzigen Quelle nutzen – Verknüpfte Entitäten ermöglichen es Datenflüssen, auf Tabellen aus anderen Datenflüssen zu verweisen, was eine mehrschichtige Architektur ermöglicht – Berechnete Entitäten führen Transformationen an verknüpften Entitäten innerhalb der Premium-Datenfluss-Engine durch – Dataflow Gen2 in Microsoft Fabric erweitert Datenflüsse um Staging- und Ausgabeziele – AI Insights (Premium) wendet ML-Modelle auf die Datenflussausgabe an – Anomalieerkennung, Stimmungsanalyse, Extraktion von Schlüsselphrasen – Durch die inkrementelle Aktualisierung von Datenflüssen bleiben große Transformationsausgaben ohne vollständige Neuverarbeitung aktuell – Die Datenfluss-Governance steuert, wer Datenflüsse über Arbeitsbereichsberechtigungen erstellen, bearbeiten und nutzen kann


Warum Datenflüsse existieren

Um Datenflüsse zu verstehen, ist es hilfreich, sich das Problem vorzustellen, das sie lösen.

Ohne Datenflüsse (das übliche Muster): – Entwickler A erstellt Bericht 1, stellt eine Verbindung zu Salesforce her und schreibt 40 Power Query-Schritte, um die Daten zu bereinigen und zu transformieren

  • Entwickler B erstellt Bericht 2, stellt außerdem eine Verbindung zu Salesforce her und schreibt 38 ähnliche Power Query-Schritte (etwas anders). – Entwickler C erstellt Bericht 3, gleiche Quelle, 45 Schritte – Die Salesforce-API-Anmeldeinformationen werden in drei verschiedenen Dateien gespeichert
  • Die Kategorisierungslogik „Kundensegment“ wird auf drei leicht unterschiedliche Arten implementiert – Wenn sich die API ändert, müssen drei Dateien aktualisiert werden – Alle drei Berichte führen ihre eigenen geplanten Aktualisierungen für die Salesforce-API durch

Mit Datenflüssen:

  • Der Dateningenieur erstellt einen Datenfluss mit den 40 Power Query-Schritten – Die Berichte 1, 2 und 3 stellen alle eine Verbindung zur Datenflussentität als Datenquelle her – Eine API-Anmeldeinformation, eine Transformationslogik, eine geplante Aktualisierung – Wenn sich die API ändert, wird ein Datenfluss aktualisiert

Dies ist das grundlegende Wertversprechen: Datenflüsse sind die ETL-Schicht zwischen Quellsystemen und konsumierenden Berichten.


Datenflussarchitekturmuster

Gut gestaltete Datenflussarchitekturen folgen einem Schichtenmuster, das einer Data-Warehouse-Medaillonarchitektur ähnelt:

Bronzeschicht (Staging-Datenfluss): Extrahiert Daten aus Quellsystemen mit minimaler Transformation – benennen Sie Spalten um, korrigieren Sie Typen, filtern Sie offensichtlich ungültige Datensätze. Diese Ebene erfasst Rohdaten in einem standardisierten Format.

Silberschicht (Kerndatenfluss): Wendet Geschäftslogik an – berechnet abgeleitete Felder, wendet Referenzdatensuchen an, dedupliziert Datensätze, wendet organisationsspezifische Geschäftsregeln an. Diese Ebene erzeugt die kanonische Darstellung jeder Geschäftseinheit.

Goldschicht (Berichtsdatenfluss oder semantisches Modell): Aggregiert und strukturiert Daten für bestimmte analytische Anwendungsfälle – vorberechnete Aggregationen, berichtsspezifische Kennzahlen, Zeitperiodenberechnungen.

In Power BI verbinden verknüpfte Entitäten diese Ebenen: Der Silver-Datenfluss verweist mithilfe verknüpfter Entitäten auf Entitäten aus dem Bronze-Datenfluss. Die Gold-Ebene verweist auf Silber-Entitäten. Berichte stellen eine Verbindung zu Gold-Layer-Entitäten her.

Diese Architektur bedeutet: Wenn sich ein Quellsystem ändert, muss nur der Bronze-Datenfluss aktualisiert werden. Die Geschäftslogik in Silber und die Berichtsstruktur in Gold bleiben stabil.


Erstellen Sie Ihren ersten Datenfluss

Datenflüsse werden im Power BI-Dienst erstellt (nicht Power BI Desktop). Navigieren Sie zu einem Arbeitsbereich → Neu → Datenfluss.

Datenfluss-Bearbeitungsumgebung ist Power Query Online – im Wesentlichen die gleiche Power Query-Schnittstelle wie Power BI Desktop, wird jedoch im Browser ausgeführt und in der Cloud-Infrastruktur von Microsoft ausgeführt.

Schritt 1: Definieren Sie eine Datenquelle

Klicken Sie auf „Neue Entitäten hinzufügen“ → Wählen Sie einen Connector aus. Alle Power BI Desktop-Konnektoren sind in Datenflüssen verfügbar, außerdem einige cloudnative Konnektoren (Azure Data Factory-Integration usw.).

Für eine SQL Server-Quelle:

Server: your-server.database.windows.net
Database: YourDatabase
Authentication: Organizational account or service principal

Schritt 2: Transformationsabfragen schreiben

Die Power Query-Benutzeroberfläche präsentiert vertraute Elemente: Angewandte Schritte, Bearbeitungsleiste und Vorschau. Erstellen Sie Ihre Transformationslogik genau wie in Power BI Desktop – filtern Sie Zeilen, benennen Sie Spalten um, führen Sie sie mit Referenztabellen zusammen und wenden Sie benutzerdefinierte Logik an.

Für eine Kundendaten-Standardisierungsabfrage:

let
    Source = Sql.Database("server", "db"),
    Customers = Source{[Schema="dbo", Item="Customers"]}[Data],
    FilteredActive = Table.SelectRows(Customers, each [Status] = "Active"),
    RenamedColumns = Table.RenameColumns(FilteredActive, {
        {"cust_id", "CustomerID"},
        {"cust_nm", "CustomerName"},
        {"seg_cd", "SegmentCode"}
    }),
    SegmentLookup = Table.Join(
        RenamedColumns, "SegmentCode",
        SegmentDefinitions, "Code",
        JoinKind.LeftOuter
    ),
    RemovedDuplicates = Table.Distinct(SegmentLookup, {"CustomerID"})
in
    RemovedDuplicates

Schritt 3: Aktualisierungszeitplan konfigurieren

Legen Sie den Zeitplan für die Datenflussaktualisierung fest (bis zu 48x pro Tag in Premium, 8x pro Tag in Pro). Die Datenflussaktualisierung führt die Transformationsabfragen für die Quelle aus und schreibt Ergebnisse in den von Power BI verwalteten Azure Data Lake Gen2-Speicher.

Schritt 4: Berichte mit dem Datenfluss verbinden

In Power BI Desktop: Daten abrufen → Power Platform → Power BI Dataflows → zum Arbeitsbereich navigieren → die Entität auswählen. Der Bericht stellt eine Verbindung zur gespeicherten Ausgabe der Datenflussentität her, nicht zum Quellsystem.


Verknüpfte und berechnete Entitäten (Premium)

Verknüpfte Entitäten ermöglichen es einem Datenfluss, auf Entitäten aus einem anderen Datenfluss zu verweisen. Auf diese Weise wird die oben beschriebene Schichtenarchitektur umgesetzt.

Eine verknüpfte Entität erstellen: Wählen Sie im Silber-Datenfluss → Neue Entität → Entitäten aus anderen Datenflüssen verknüpfen → die Bronze-Entität aus.

Die verknüpfte Entität erscheint im Silver-Datenfluss als virtuelle Tabelle, die auf die Ausgabe des Bronze-Datenflusses verweist. Sie können der verknüpften Entität zusätzliche Transformationsschritte hinzufügen – diese zusätzlichen Schritte werden in der Datenfluss-Engine und nicht an der Quelle ausgeführt.

Berechnete Entitäten sind verknüpfte Entitäten, auf die zusätzliche Power Query-Transformationen angewendet werden. Sie werden in der In-Memory-Verarbeitung der Premium-Datenfluss-Engine und nicht an der Quelle ausgeführt, was erhebliche Leistungsvorteile für komplexe Transformationen großer Datensätze bietet.

Hauptunterschied: – Ohne Premium: Verknüpfte Entitäten verweisen auf die Daten des anderen Datenflusses, die gesamte Verarbeitung erfolgt jedoch zum Zeitpunkt der Abfrage anhand der Quelle – Mit Premium (berechnete Entitäten): Transformationen verknüpfter Entitäten werden in der Analyse-Engine von Power BI unter Verwendung der zwischengespeicherten Daten und nicht der Quelle ausgeführt – bei komplexen Transformationen erheblich schneller

Dies ist besonders wertvoll für Transformationen, deren Ausführung an der Quelle teuer ist (Verknüpfungen über große Tabellen, Aggregationen, Fensterfunktionen), die aber durchgeführt werden müssen, bevor die Daten Berichte erreichen.


Inkrementelle Aktualisierung für Datenflüsse

Wie Datensätze unterstützen Datenflüsse die inkrementelle Aktualisierung, um nur neue und geänderte Datensätze zu verarbeiten, anstatt alle Daten in jedem Zyklus neu zu laden.

Anforderungen:

  • Premium-Arbeitsbereich – Datetime-Spalte in der Quellabfrage – RangeStart- und RangeEnd-Parameter, die in der Datenflussabfrage definiert sind

Die Konfiguration ist identisch mit der inkrementellen Aktualisierung von Datensätzen: Definieren Sie Parameter, wenden Sie den Datumsfilter in der Abfrage an und konfigurieren Sie die Richtlinie für die inkrementelle Aktualisierung für die Entität. Die Datenfluss-Engine erstellt Partitionen, die das historische Fenster abdecken, und aktualisiert in jedem Zyklus nur das aktuelle Fenster.

Inkrementelle Aktualisierung für Datenflüsse ist am wertvollsten, wenn:

  • Transformationen sind rechenintensiv und Sie möchten sie nicht mit unveränderten historischen Daten erneut ausführen – Die Quellabfrage ist aufgrund der großen Tabellengröße langsam und die Beschränkung des Abfragefensters verkürzt die Abrufzeit erheblich
  • Speicherkosten sind wichtig – durch inkrementelle Partitionen können historische Daten gespeichert bleiben, ohne dass eine erneute Abfrage erforderlich ist

Für die meisten kleinen bis mittleren Datenflüsse (unter 10 Millionen Zeilen) ist eine vollständige Aktualisierung einfacher und ausreichend. Eine inkrementelle Aktualisierung wird wichtig, wenn die Aktualisierungsdauer 30–60 Minuten überschreitet.


KI-Einblicke in Datenflüsse (Premium)

Power BI Premium-Datenflüsse umfassen AI Insights – vorgefertigte Funktionen für maschinelles Lernen, die direkt in Power Query Online verfügbar sind.

Verfügbare KI-Funktionen:

FunktionBeschreibungAnwendungsfall
Textanalyse: Sentiment ScoreGibt positiv/negativ/neutral + Punktzahlzurück Kundenfeedback, Bewertungen
Textanalyse: SchlüsselphrasenExtrahiert Hauptthemen aus TextSupport-Tickets, Kommentare
Textanalyse: SpracherkennungIdentifiziert die Sprache des TextesKlassifizierung mehrsprachiger Inhalte
Textanalyse: Erkennung benannter EntitätenIdentifiziert Personen, Orte, OrganisationenDokumentenverarbeitung
Vision: Bild markierenBeschriftet Objekte in BildernKlassifizierung des Produktkatalogs
Vision: Bild beschreibenErzeugt eine BildbeschreibungInhaltsmoderation
AutoML (benutzerdefinierte Modelle)Anwenden trainierter Azure ML-ModelleJede benutzerdefinierte Klassifizierung/Regression

Diese Funktionen werden als benutzerdefinierte Spaltentransformationen im Power Query-Editor aufgerufen. Ein Stimmungsbewertungsschritt für eine Spalte „customer_comments“:

= Table.AddColumn(Source, "Sentiment", each
    TextAnalytics.SentimentScore([CustomerComment]),
    type number
)

Die KI-Funktion ruft Azure Cognitive Services hinter den Kulissen auf; Das Ergebnis (ein Sentiment-Score von 0 bis 1) erscheint als neue Spalte. Dies ermöglicht angereicherte Datensätze, ohne dass eine separate Data-Science-Pipeline erforderlich ist.


Datenfluss-Governance und -Sicherheit

Als zentrale Ebene der Datenvorbereitung erfordern Datenflüsse Governance-Kontrollen, um die Qualität sicherzustellen und unbefugte Änderungen zu verhindern.

Arbeitsbereichsberechtigungen steuern, wer Datenflüsse erstellen und bearbeiten kann. Für die Datenflusserstellung ist Mitwirkender- oder Administratorzugriff auf den Arbeitsbereich erforderlich. Verbraucher (Berichtsentwickler, die eine Verbindung zum Datenfluss herstellen) benötigen nur Betrachterzugriff. Durch diese Rollentrennung wird sichergestellt, dass die Geschäftslogik in den Schichten Bronze und Silber von autorisierten Dateningenieuren verwaltet wird.

Zertifizierung kennzeichnet Datenflüsse als von einer zentralen Behörde genehmigt. Ein zertifizierter Datenfluss wird in der Datenquellenauswahl in Power BI Desktop hervorgehoben und leitet Berichtsentwickler zur maßgeblichen, verwalteten Datenquelle weiter, anstatt ihre eigene von Grund auf neu zu erstellen.

Vertraulichkeitsbezeichnungen wenden Microsoft Purview Information Protection-Kennzeichnungen auf Datenflüsse an, die vertrauliche Daten enthalten. Ein Datenfluss, der personenbezogene Daten enthält, erhält die Kennzeichnung „Vertraulich“, die auf jeden Bericht übertragen wird, der diesen Datenfluss nutzt.

Datenherkunft im Power BI-Verwaltungsportal zeigt den Fluss von Quelle → Datenfluss → Datensatz → Bericht. Wenn sich ein Quellsystem ändert, hilft die Datenherkunft dabei, alle nachgelagerten Berichte zu identifizieren, die möglicherweise betroffen sind.

Überwachung der Datenflussaktualisierung: Das Verwaltungsportal von Power BI zeigt den Datenflussaktualisierungsverlauf, die Dauer und Fehler an. Durch das Einrichten von Warnungen über Power Automate für fehlgeschlagene Datenflussaktualisierungen wird sichergestellt, dass Probleme mit der Datenaktualität sofort erkannt werden und nicht entdeckt werden, wenn ein Benutzer veraltete Daten meldet.


Datenflüsse vs. Data Warehouse

Dataflows sind kein Ersatz für ein dediziertes Data Warehouse – sie sind eine Ergänzung. Wenn man weiß, wo jeder Platz ist, werden architektonische Fehler vermieden.

FähigkeitDatenflüsseData Warehouse
Power Query-TransformationenEinheimischNicht nativ
SQL-TransformationenNicht unterstütztEinheimisch
Komplexe Joins über große Tabellen hinwegBegrenztOptimiert
LagerkostenVerwaltete, feste PreiseVariable
Versionskontrolle (dbt, GitHub)Nicht unterstütztAusgezeichnet
Nicht-Power BI-Verbraucher (Tableau, Python)BegrenztJa
Bereitstellung mehrerer BI-ToolsNur Power BIJedes Werkzeug
Reifegrad der UnternehmensführungMäßigHoch

Organisationen mit ausgereiften Data-Engineering-Praktiken sollten ein Data Warehouse als primäre Transformations- und Speicherschicht verwenden, mit Datenflüssen als optionaler, einfacher Transformation für Power BI-spezifische Logik. Organisationen ohne Data-Engineering-Ressourcen finden oft ausreichend Datenflüsse für ihre Anforderungen, ohne dass ein separates Warehouse erforderlich ist.


Häufig gestellte Fragen

Was ist der Unterschied zwischen Power BI-Datenflüssen und Power BI-Datasets?

Datenflüsse sind die ETL-/Datenvorbereitungsschicht – sie extrahieren, transformieren und speichern Daten als Tabellen (Entitäten) in Azure Data Lake. Datensätze (semantische Modelle) bilden die analytische Ebene – sie definieren Kennzahlen, Hierarchien, Beziehungen und Sicherheit auf Basis der gespeicherten Daten. Ein häufiges Muster: Datenflüsse bereiten saubere Daten vor und speichern sie → Datensätze werden aus Datenflüssen importiert und analytische Logik hinzugefügt → Berichte stellen eine Verbindung zu Datensätzen her. Sie erfüllen unterschiedliche Rollen in der Architektur.

Benötige ich Power BI Premium, um Datenflüsse zu verwenden?

Grundlegende Datenflüsse sind mit Power BI Pro-Arbeitsbereichen verfügbar. Premium (oder Fabric) fügt berechnete Entitäten, KI-Einblicke, inkrementelle Aktualisierung und verbesserte Leistung hinzu. Für die meisten kleinen bis mittleren Unternehmen sind Pro-Tier-Datenflüsse ausreichend. Premium-Funktionen werden wichtig, wenn das Transformationsvolumen groß ist, eine KI-Anreicherung erforderlich ist oder eine inkrementelle Aktualisierung erforderlich ist.

Kann ich Nicht-Power BI-Tools mit Datenflussdaten verbinden?

Ja. Power BI-Datenflüsse speichern ihre Ausgabe in Azure Data Lake Gen2 im CDM-Format (Common Data Model). Organisationen mit Premium oder Fabric können den Datenfluss so konfigurieren, dass er ihr eigenes Azure Data Lake-Konto verwendet, wodurch die Parquet-Dateien für andere Tools (Azure Synapse Analytics, Azure Databricks, Python, Tableau) zugänglich gemacht werden. Diese „Bring Your Own Lake“-Konfiguration ist in Premium- und Fabric-Arbeitsbereichen verfügbar.

Wie handhaben Datenflüsse die Verwaltung von Datenquellen-Anmeldeinformationen?

Anmeldeinformationen für Datenquellen in Datenflüssen werden im Power BI-Dienst gespeichert und von Arbeitsbereichsadministratoren verwaltet. Dies ist eine Verbesserung gegenüber Anmeldeinformationen auf Berichtsebene – anstatt dass jeder Berichtsentwickler Anmeldeinformationen in seiner .pbix-Datei speichert, werden Anmeldeinformationen zentral für den Datenfluss verwaltet. Die Authentifizierung des Dienstprinzipals (Azure AD-Anwendung) wird für automatisierte Produktionsdatenflüsse anstelle persönlicher Benutzeranmeldeinformationen empfohlen, die ablaufen, wenn der Benutzer die Organisation verlässt.

Können Datenflüsse REST-APIs oder nicht standardmäßige Datenquellen aufrufen?

Ja. Dataflows nutzen das gleiche Power Query-Connector-Ökosystem wie Power BI Desktop, einschließlich REST-API-Connectors über den Web-Connector, benutzerdefinierter Connectors (.mez-Dateien) und Funktionsconnectors. Benutzerdefinierte M-Funktionen können innerhalb des Datenflusses definiert werden, um die API-Logik zu kapseln. Komplexe API-Paginierung, Authentifizierungsabläufe und Ratenbegrenzung können alle in Power Query innerhalb der Datenflussumgebung verarbeitet werden.


Nächste Schritte

Datenflüsse sind die Grundlage einer skalierbaren, kontrollierten Power BI-Analyseumgebung. Eine frühzeitige Investition in die richtige Datenflussarchitektur verhindert die technische Belastung durch Hunderte getrennter Berichte mit duplizierter, inkonsistenter Datenaufbereitungslogik.

Die Power BI-Datenmodellierungsdienste von ECOSIRE umfassen das Design der Datenflussarchitektur, die Implementierung geschichteter Bronze-Silber-Gold-Datenvorbereitungsmuster und die Governance-Konfiguration. Kontaktieren Sie uns, um Ihre aktuelle Umgebung zu bewerten und eine Datenflussstrategie zu entwerfen, die mit Ihrem Unternehmen skaliert.

E

Geschrieben von

ECOSIRE Research and Development Team

Entwicklung von Enterprise-Digitalprodukten bei ECOSIRE. Einblicke in Odoo-Integrationen, E-Commerce-Automatisierung und KI-gestützte Geschäftslösungen.

Chatten Sie auf WhatsApp