Power BI Dataflows: Centralized Data Preparation

Master Power BI dataflows to centralize ETL logic, eliminate duplicate data preparation across reports, and build a governed, reusable data layer for your organization.

E
ECOSIRE Research and Development Team
|19 de março de 202613 min de leitura2.9k Palavras|

Fluxos de dados do Power BI: preparação centralizada de dados

Cada ambiente do Power BI eventualmente desenvolve o mesmo problema: dezenas de relatórios, cada um com versões ligeiramente diferentes da “mesma” lógica de preparação de dados. Os dados do cliente foram limpos e padronizados de uma forma no painel de vendas, de maneira um pouco diferente no relatório de marketing e de maneira diferente novamente no resumo executivo. Quando o sistema de origem muda – uma coluna é renomeada, uma nova região é adicionada – atualizar cada relatório individualmente é um pesadelo de manutenção.

Os fluxos de dados do Power BI resolvem isso movendo a preparação de dados de arquivos de relatórios individuais (Power BI Desktop .pbix) para uma camada centralizada e compartilhada no serviço do Power BI. A lógica escrita uma vez em um fluxo de dados está disponível para qualquer relatório, por qualquer desenvolvedor, com um resultado consistente. Este guia aborda a arquitetura de fluxo de dados, os padrões de implementação e os recursos avançados que tornam os fluxos de dados a base de um ambiente governado do Power BI.

Principais conclusões

  • Os fluxos de dados centralizam a lógica ETL do Power Query no serviço Power BI, eliminando a duplicação entre relatórios
  • Os fluxos de dados produzem entidades padronizadas (tabelas) que vários relatórios consomem de uma única fonte
  • Entidades vinculadas permitem que fluxos de dados façam referência a tabelas de outros fluxos de dados, permitindo arquitetura em camadas
  • Entidades computadas realizam transformações em entidades vinculadas no mecanismo de fluxo de dados Premium
  • O Dataflow Gen2 no Microsoft Fabric estende fluxos de dados com destinos de preparo e saída
  • Os insights de IA (Premium) aplicam modelos de ML à saída de fluxo de dados – detecção de anomalias, análise de sentimentos, extração de frases-chave
  • A atualização incremental em fluxos de dados mantém grandes saídas de transformação atuais sem reprocessamento completo
  • A governança do fluxo de dados controla quem pode criar, editar e consumir fluxos de dados por meio de permissões de espaço de trabalho

Por que existem fluxos de dados

Para compreender os fluxos de dados, é útil visualizar o problema que eles resolvem.

Sem fluxos de dados (o padrão comum):

  • O desenvolvedor A cria o Relatório 1, conecta-se ao Salesforce, escreve 40 etapas do Power Query para limpar e transformar os dados
  • O desenvolvedor B cria o Relatório 2, também se conecta ao Salesforce, escreve 38 etapas semelhantes do Power Query (um pouco diferentes)
  • Desenvolvedor C cria Relatório 3, mesma fonte, 45 etapas
  • As credenciais da API do Salesforce são armazenadas em três arquivos diferentes
  • A lógica de categorização do “segmento de clientes” é implementada de três maneiras ligeiramente diferentes
  • Quando a API muda, três arquivos precisam ser atualizados
  • Todos os três relatórios executam suas próprias atualizações programadas na API do Salesforce

Com fluxos de dados:

  • O engenheiro de dados cria um Dataflow com as 40 etapas do Power Query
  • Todos os relatórios 1, 2 e 3 se conectam à entidade de fluxo de dados como fonte de dados
  • Uma credencial de API, uma lógica de transformação, uma atualização agendada
  • Quando a API muda, um fluxo de dados é atualizado

Esta é a proposta de valor fundamental: os fluxos de dados são a camada ETL entre os sistemas de origem e os relatórios de consumo.


Padrões de arquitetura de fluxo de dados

Arquiteturas de fluxo de dados bem projetadas seguem um padrão em camadas análogo a uma arquitetura medalhão de data warehouse:

Camada Bronze (fluxo de dados de preparação): Extrai dados de sistemas de origem com transformação mínima — renomeia colunas, corrige tipos, filtra registros obviamente inválidos. Esta camada captura dados brutos em um formato padronizado.

Camada Silver (fluxo de dados principal): aplica lógica de negócios — calcula campos derivados, aplica pesquisas de dados de referência, desduplica registros, aplica regras de negócios específicas da organização. Esta camada produz a representação canônica de cada entidade empresarial.

Camada dourada (fluxo de dados de relatórios ou modelo semântico): agrega e estrutura dados para casos de uso analíticos específicos — agregações pré-calculadas, medidas específicas de relatórios, cálculos de período de tempo.

No Power BI, as entidades vinculadas conectam essas camadas: o fluxo de dados Silver faz referência a entidades do fluxo de dados Bronze usando entidades vinculadas. A camada Gold faz referência a entidades Silver. Os relatórios se conectam às entidades da camada Gold.

Esta arquitetura significa: se um sistema de origem for alterado, apenas o fluxo de dados Bronze precisará de atualização. A lógica de negócios em Silver e a estrutura de relatórios em Gold permanecem estáveis.


Criando seu primeiro fluxo de dados

Os fluxos de dados são criados no serviço Power BI (não no Power BI Desktop). Navegue até um espaço de trabalho → Novo → Fluxo de dados.

O ambiente de edição de fluxo de dados é o Power Query Online — essencialmente a mesma interface do Power Query que o Power BI Desktop, mas executado no navegador e na infraestrutura de nuvem da Microsoft.

Etapa 1: Definir uma fonte de dados

Clique em "Adicionar novas entidades" → Escolha um conector. Todos os conectores do Power BI Desktop estão disponíveis em fluxos de dados, além de alguns conectores nativos da nuvem (integração do Azure Data Factory, etc.).

Para uma origem do SQL Server:

Server: your-server.database.windows.net
Database: YourDatabase
Authentication: Organizational account or service principal

Etapa 2: escrever consultas de transformação

A interface do Power Query apresenta: etapas aplicadas, barra de fórmulas e visualização. Crie sua lógica de transformação exatamente como no Power BI Desktop: filtre linhas, renomeie colunas, mescle com tabelas de referência, aplique lógica personalizada.

Para uma consulta de padronização de dados do cliente:

let
    Source = Sql.Database("server", "db"),
    Customers = Source{[Schema="dbo", Item="Customers"]}[Data],
    FilteredActive = Table.SelectRows(Customers, each [Status] = "Active"),
    RenamedColumns = Table.RenameColumns(FilteredActive, {
        {"cust_id", "CustomerID"},
        {"cust_nm", "CustomerName"},
        {"seg_cd", "SegmentCode"}
    }),
    SegmentLookup = Table.Join(
        RenamedColumns, "SegmentCode",
        SegmentDefinitions, "Code",
        JoinKind.LeftOuter
    ),
    RemovedDuplicates = Table.Distinct(SegmentLookup, {"CustomerID"})
in
    RemovedDuplicates

Etapa 3: Configurar agendamento de atualização

Defina o cronograma de atualização do fluxo de dados (até 48× por dia no Premium, 8× por dia no Pro). A atualização do fluxo de dados executa as consultas de transformação na origem e grava os resultados no armazenamento do Azure Data Lake Gen2 gerenciado pelo Power BI.

Etapa 4: conectar relatórios ao fluxo de dados

No Power BI Desktop: Obter Dados → Power Platform → Power BI Dataflows → navegue até o espaço de trabalho → selecione a entidade. O relatório se conecta à saída armazenada da entidade de fluxo de dados, não ao sistema de origem.


Entidades vinculadas e computadas (Premium)

As entidades vinculadas permitem que um fluxo de dados faça referência a entidades de outro fluxo de dados. É assim que a arquitetura em camadas descrita acima é implementada.

Criando uma entidade vinculada: No fluxo de dados Silver → Nova Entidade → Vincular entidades de outros fluxos de dados → selecione a entidade Bronze.

A entidade vinculada aparece no fluxo de dados Silver como uma tabela virtual apontando para a saída do fluxo de dados Bronze. Você pode adicionar etapas de transformação adicionais sobre a entidade vinculada — essas etapas adicionais são executadas no mecanismo de fluxo de dados, não na origem.

Entidades computadas são entidades vinculadas com transformações adicionais do Power Query aplicadas. Eles são executados no processamento na memória do mecanismo de fluxo de dados Premium, e não na origem, proporcionando vantagens significativas de desempenho para transformações complexas em grandes conjuntos de dados.

Distinção principal:

  • Sem Premium: as entidades vinculadas fazem referência aos dados do outro fluxo de dados, mas todo o processamento acontece no momento da consulta na origem
  • Com Premium (entidades computadas): as transformações em entidades vinculadas são executadas no mecanismo analítico do Power BI usando os dados armazenados em cache, não a origem — dramaticamente mais rápido para transformações complexas

Isso é particularmente valioso para transformações cuja execução na origem é cara (junções em tabelas grandes, agregações, funções de janela), mas que precisam acontecer antes que os dados cheguem aos relatórios.


Atualização incremental para fluxos de dados

Tal como os conjuntos de dados, os fluxos de dados suportam atualização incremental para processar apenas registos novos e alterados, em vez de recarregar todos os dados em cada ciclo.

Requisitos:

  • Espaço de trabalho premium
  • Coluna datahora na consulta de origem
  • Parâmetros RangeStart e RangeEnd definidos na consulta do fluxo de dados

A configuração é idêntica à atualização incremental do conjunto de dados: definir parâmetros, aplicar filtro de data na consulta, configurar a política de atualização incremental na entidade. O mecanismo de fluxo de dados cria partições que cobrem a janela histórica e atualiza apenas a janela recente em cada ciclo.

A atualização incremental para fluxos de dados é mais valiosa quando:

  • As transformações são computacionalmente caras e você não deseja executá-las novamente com dados históricos inalterados
  • A consulta de origem é lenta devido ao grande tamanho das tabelas, e a limitação da janela de consulta reduz drasticamente o tempo de busca
  • O custo de armazenamento é importante: partições incrementais permitem que os dados históricos permaneçam armazenados sem nova consulta

Para a maioria dos fluxos de dados pequenos a médios (menos de 10 milhões de linhas), a atualização completa é mais simples e suficiente. A atualização incremental torna-se importante quando os tempos de atualização excedem 30 a 60 minutos.


AI Insights em fluxos de dados (Premium)

Os fluxos de dados do Power BI Premium incluem AI Insights – funções de aprendizado de máquina pré-criadas disponíveis diretamente no Power Query Online.

Funções de IA disponíveis:

FunçãoDescriçãoCaso de uso
Análise de texto: pontuação de sentimentoRetorna positivo/negativo/neutro + pontuaçãoFeedback do cliente, comentários
Análise de texto: frases-chaveExtrai os principais tópicos do textoTickets de suporte, comentários
Análise de texto: detecção de idiomaIdentifica o idioma do textoClassificação de conteúdo multilíngue
Análise de texto: reconhecimento de entidade nomeadaIdentifica pessoas, lugares, organizaçõesProcessamento de documentos
Visão: Tag ImagemRotula objetos em imagensClassificação do catálogo de produtos
Visão: Descrever ImagemGera descrição da imagemModeração de conteúdo
AutoML (modelos personalizados)Aplicar modelos treinados do Azure MLQualquer classificação/regressão personalizada

Estas funções são invocadas como transformações de colunas personalizadas no editor do Power Query. Uma etapa de pontuação de sentimento em uma coluna customer_comments:

= Table.AddColumn(Source, "Sentiment", each
    TextAnalytics.SentimentScore([CustomerComment]),
    type number
)

A função de IA chama os Serviços Cognitivos do Azure nos bastidores; o resultado (uma pontuação de sentimento de 0 a 1) aparece como uma nova coluna. Isso permite conjuntos de dados enriquecidos sem a necessidade de um pipeline de ciência de dados separado.


Governança e segurança do fluxo de dados

Como camada central de preparação de dados, os fluxos de dados exigem controles de governança para garantir a qualidade e evitar alterações não autorizadas.

Permissões do espaço de trabalho controlam quem pode criar e editar fluxos de dados. A criação do fluxo de dados requer acesso de Colaborador ou Administrador ao workspace. Os consumidores (desenvolvedores de relatórios que se conectam ao fluxo de dados) precisam apenas de acesso de Visualizador. Essa separação de funções garante que a lógica de negócios nas camadas Bronze e Prata seja mantida por engenheiros de dados autorizados.

Certificação marca os fluxos de dados como aprovados por uma autoridade central. Um fluxo de dados certificado é destacado no seletor de fonte de dados no Power BI Desktop, direcionando os desenvolvedores de relatórios para a fonte de dados governada e confiável, em vez de criar a sua própria do zero.

Rótulos de confidencialidade aplicam rótulos de Proteção de Informações do Microsoft Purview a fluxos de dados que contêm dados confidenciais. Um fluxo de dados contendo PII recebe um rótulo "Confidencial", que é transmitido em cascata para qualquer relatório que consuma esse fluxo de dados.

Linhagem de dados no portal de administração do Power BI mostra o fluxo da origem → fluxo de dados → conjunto de dados → relatório. Quando um sistema de origem muda, a linhagem de dados ajuda a identificar todos os relatórios posteriores que podem ser afetados.

Monitoramento da atualização do fluxo de dados: o portal de administração do Power BI mostra o histórico, a duração e as falhas da atualização do fluxo de dados. A configuração de alertas por meio do Power Automate para atualizações de fluxo de dados com falha garante que os problemas de atualização de dados sejam detectados imediatamente, em vez de descobertos quando um usuário relata dados obsoletos.


Fluxos de dados versus data warehouse

Os fluxos de dados não substituem um data warehouse dedicado – eles são um complemento. Entender onde cada um se encaixa evita erros arquitetônicos.

CapacidadeFluxos de dadosArmazém de dados
Transformações do Power QueryNativoNão nativo
Transformações SQLNão suportadoNativo
Junções complexas em tabelas grandesLimitadoOtimizado
Custo de armazenamentoPreços gerenciados e fixosVariável
Controle de versão (dbt, GitHub)Não suportadoExcelente
Consumidores que não são do Power BI (Tableau, Python)LimitadoSim
Servindo múltiplas ferramentas de BISomente Power BIQualquer ferramenta
Maturidade da governação empresarialModeradoAlto

As organizações com práticas maduras de engenharia de dados devem usar um data warehouse como a principal camada de transformação e armazenamento, com fluxos de dados como uma transformação leve opcional para lógica específica do Power BI. As organizações sem recursos de engenharia de dados muitas vezes encontram fluxos de dados suficientes para as suas necessidades sem necessitarem de um armazém separado.


Perguntas frequentes

Qual é a diferença entre fluxos de dados do Power BI e conjuntos de dados do Power BI?

Os fluxos de dados são a camada de ETL/preparação de dados — eles extraem, transformam e armazenam dados como tabelas (entidades) no Azure Data Lake. Conjuntos de dados (modelos semânticos) são a camada analítica – eles definem medidas, hierarquias, relacionamentos e segurança sobre os dados armazenados. Um padrão comum: fluxos de dados preparam e armazenam dados limpos → conjuntos de dados são importados de fluxos de dados e adicionam lógica analítica → relatórios se conectam a conjuntos de dados. Eles desempenham funções diferentes na arquitetura.

Preciso do Power BI Premium para usar fluxos de dados?

Os fluxos de dados básicos estão disponíveis nos espaços de trabalho do Power BI Pro. Premium (ou Fabric) adiciona entidades computadas, insights de IA, atualização incremental e desempenho aprimorado. Para a maioria das organizações de pequeno e médio porte, os fluxos de dados de nível Pro são suficientes. Os recursos premium tornam-se importantes quando os volumes de transformação são grandes, é necessário enriquecimento de IA ou é necessária uma atualização incremental.

Posso conectar ferramentas que não sejam do Power BI a dados de fluxo de dados?

Sim. Os fluxos de dados do Power BI armazenam sua saída no Azure Data Lake Gen2 no formato CDM (Common Data Model). As organizações com Premium ou Fabric podem configurar o fluxo de dados para usar a sua própria conta Azure Data Lake, tornando os ficheiros parquet acessíveis a outras ferramentas (Azure Synapse Analytics, Azure Databricks, Python, Tableau). Essa configuração "traga seu próprio lago" está disponível nos espaços de trabalho Premium e Fabric.

Como os fluxos de dados lidam com o gerenciamento de credenciais de fontes de dados?

As credenciais da fonte de dados nos fluxos de dados são armazenadas no serviço Power BI e gerenciadas pelos administradores do workspace. Isso é uma melhoria em relação às credenciais em nível de relatório: em vez de cada desenvolvedor de relatório armazenar credenciais em seu arquivo .pbix, as credenciais são gerenciadas centralmente para o fluxo de dados. A autenticação da entidade de serviço (aplicativo do Azure AD) é recomendada para fluxos de dados de produção automatizados, em vez de credenciais pessoais de usuário que expiram quando o usuário sai da organização.

Os fluxos de dados podem chamar APIs REST ou fontes de dados não padrão?

Sim. Os fluxos de dados usam o mesmo ecossistema de conectores do Power Query que o Power BI Desktop, incluindo conectores de API REST por meio do conector Web, conectores personalizados (arquivos .mez) e conectores de função. Funções M personalizadas podem ser definidas no fluxo de dados para encapsular a lógica da API. Paginação complexa de API, fluxos de autenticação e limitação de taxa podem ser tratados no Power Query no ambiente de fluxo de dados.


Próximas etapas

Os fluxos de dados são a base de um ambiente de análise do Power BI governado e escalável. Investir antecipadamente na arquitetura de fluxo de dados correta evita o débito técnico de centenas de relatórios desconectados com lógica de preparação de dados duplicada e inconsistente.

Os serviços de modelagem de dados do Power BI da ECOSIRE incluem design de arquitetura de fluxo de dados, implementação de padrões de preparação de dados em camadas Bronze-Prata-Ouro e configuração de governança. Entre em contato conosco para avaliar seu ambiente atual e projetar uma estratégia de fluxo de dados que se adapte à sua organização.

E

Escrito por

ECOSIRE Research and Development Team

Construindo produtos digitais de nível empresarial na ECOSIRE. Compartilhando insights sobre integrações Odoo, automação de e-commerce e soluções de negócios com IA.

Converse no WhatsApp