Traiter des données avec Cloud Data Fusion

Cloud Data Fusion fournit un plug-in de source Dataplex Universal Catalog pour lire les données des entités (tables) Dataplex Universal Catalog résidant sur des éléments Cloud Storage ou BigQuery. Le plug-in de source Dataplex Universal Catalog vous permet de traiter les données des éléments Cloud Storage comme des tables et de les filtrer avec des requêtes SQL.

Avant de commencer

  • Créez une instance Cloud Data Fusion, si vous n'en avez pas encore. Ce plug-in est disponible dans les instances exécutées dans Cloud Data Fusion version 6.6 ou ultérieure.

  • Les données sources doivent déjà faire partie d'une zone et d'un élément (bucket Cloud Storage ou ensemble de données BigQuery) Dataplex Universal Catalog.

  • Pour utiliser des tables depuis Cloud Storage, vous devez configurer un metastore pour votre lac.

  • Pour que les données puissent être lues à partir des entités Cloud Storage, Dataproc Metastore doit être associé au lac.

  • Les données CSV dans les entités Cloud Storage ne sont pas acceptées.

  • Dans le projet Dataplex Universal Catalog, activez l'accès privé à Google sur le sous-réseau, qui est généralement défini sur default, ou définissez internal_ip_only sur false.

Limites

  • Pour les composants Cloud Storage : ce plug-in n'est pas compatible avec la lecture de fichiers CSV. Il permet de lire les formats JSON, Avro, Parquet et ORC.

  • Pour les composants Cloud Storage, les champs Date de début de la partition et Date de fin de la partition ne s'appliquent pas.

Rôles requis

Pour obtenir les autorisations nécessaires pour gérer les rôles, demandez à votre administrateur de vous accorder les rôles IAM suivants sur l'agent de service Dataproc et l'agent de service Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Ajouter le plug-in à votre pipeline

  1. Dans la console Google Cloud , accédez à la page Instances de Cloud Data Fusion.

    Accéder à la page "Instances"

    Cette page vous permet de gérer vos instances.

  2. Cliquez sur Afficher l'instance pour ouvrir votre instance dans l'interface utilisateur de Cloud Data Fusion.

  3. Accédez à la page Studio, développez le menu Source, puis cliquez sur Dataplex.

Configurer le plug-in

Après avoir ajouté ce plug-in à votre pipeline sur la page Studio, cliquez sur la source Dataplex Universal Catalog pour configurer ses propriétés.

Pour en savoir plus sur les configurations, consultez la documentation de référence sur la source Dataplex.

Facultatif : Premiers pas avec un exemple de pipeline

Des exemples de pipelines sont disponibles, y compris un pipeline de source SAP vers un pipeline de récepteur Dataplex Universal Catalog et un pipeline de source Dataplex Universal Catalog vers un pipeline de récepteur BigQuery.

Pour utiliser un exemple de pipeline, ouvrez votre instance dans l'interface utilisateur Cloud Data Fusion, cliquez sur Hub > Pipelines, puis sélectionnez l'un des pipelines Dataplex Universal Catalog. Une boîte de dialogue s'ouvre pour vous aider à créer le pipeline.

Étapes suivantes