Processar dados com o Cloud Data Fusion

O Cloud Data Fusion oferece um plug-in de origem do Dataplex Universal Catalog para ler dados de entidades (tabelas) do Dataplex Universal Catalog que residem em recursos do Cloud Storage ou do BigQuery. Com o plug-in de origem do Catálogo Universal do Dataplex, é possível tratar dados em recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL.

Antes de começar

  • Crie uma instância do Cloud Data Fusion, se você ainda não tiver uma. Esse plug-in está disponível em instâncias que executam o Cloud Data Fusion versão 6.6 ou mais recente.

  • Os dados de origem já precisam fazer parte de uma zona e um recurso do Universal Catalog do Dataplex (um bucket do Cloud Storage ou um conjunto de dados do BigQuery).

  • Para usar tabelas do Cloud Storage, configure um metastore para seu data lake.

  • Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao lake.

  • Não é possível usar dados CSV em entidades do Cloud Storage.

  • No projeto do Dataplex Universal Catalog, ative o Acesso privado do Google na sub-rede, que geralmente é definida como default, ou defina internal_ip_only como false.

Limitações

  • Para recursos do Cloud Storage: este plug-in não é compatível com a leitura de arquivos CSV. Ele aceita a leitura de formatos JSON, Avro, Parquet e ORC.

  • Para recursos do Cloud Storage, Data de início da partição e Data de término da partição não são aplicáveis.

Funções exigidas

Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Adicionar o plug-in ao pipeline

  1. No console Google Cloud , acesse a página Instâncias do Cloud Data Fusion.

    Acesse "Instâncias"

    Nesta página, é possível gerenciar suas instâncias.

  2. Clique em Ver instância para abrir sua instância na UI do Cloud Data Fusion.

  3. Acesse a página Studio, expanda o menu Origem e clique em Dataplex.

Configurar o plug-in

Depois de adicionar esse plug-in ao pipeline na página Studio, clique na origem do Catálogo Universal do Dataplex para configurar as propriedades dela.

Para mais informações sobre configurações, consulte a referência da fonte do Dataplex.

Opcional: começar a usar um pipeline de exemplo

Há exemplos de pipelines disponíveis, incluindo um pipeline de origem do SAP para um coletor do Dataplex Universal Catalog e um pipeline de origem do Dataplex Universal Catalog para um coletor do BigQuery.

Para usar um pipeline de amostra, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Catálogo universal do Dataplex. Uma caixa de diálogo será aberta para ajudar você a criar o pipeline.

A seguir