Memproses data dengan Cloud Data Fusion

Cloud Data Fusion menyediakan plugin Sumber Dataplex Universal Catalog untuk membaca data dari entitas (tabel) Dataplex Universal Catalog yang ada di aset Cloud Storage atau BigQuery. Plugin Sumber Dataplex Universal Catalog memungkinkan Anda memperlakukan data di aset Cloud Storage sebagai tabel dan memfilter data dengan kueri SQL.

Sebelum memulai

  • Buat instance Cloud Data Fusion, jika Anda belum memilikinya. Plugin ini tersedia di instance yang berjalan di Cloud Data Fusion versi 6.6 atau yang lebih baru.

  • Data sumber harus sudah menjadi bagian dari zona Dataplex Universal Catalog dan aset (baik bucket Cloud Storage maupun set data BigQuery).

  • Untuk menggunakan tabel dari Cloud Storage, Anda harus mengonfigurasi metastore untuk lake Anda.

  • Agar data dapat dibaca dari entity Cloud Storage, Dataproc Metastore harus dilampirkan ke data lake.

  • Data CSV di entitas Cloud Storage tidak didukung.

  • Di project Dataplex Universal Catalog, aktifkan Private Google Access di subnetwork, yang biasanya disetel ke default, atau setel internal_ip_only ke false.

Batasan

  • Untuk aset Cloud Storage: plugin ini tidak mendukung pembacaan dari file CSV. Alat ini mendukung pembacaan dari format JSON, Avro, Parquet, dan ORC.

  • Untuk aset Cloud Storage: Tanggal Mulai Partisi dan Tanggal Akhir Partisi tidak berlaku.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk mengelola peran, minta administrator untuk memberi Anda peran IAM berikut pada agen layanan Dataproc dan agen layanan Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Menambahkan plugin ke pipeline

  1. Di konsol Google Cloud , buka halaman Instances Cloud Data Fusion.

    Buka Instance

    Halaman ini memungkinkan Anda mengelola instance.

  2. Klik Lihat instance untuk membuka instance di UI Cloud Data Fusion.

  3. Buka halaman Studio, perluas menu Sumber, lalu klik Dataplex.

Mengonfigurasi plugin

Setelah menambahkan plugin ini ke pipeline di halaman Studio, klik sumber Dataplex Universal Catalog untuk mengonfigurasi propertinya.

Untuk mengetahui informasi selengkapnya tentang konfigurasi, lihat referensi Sumber Dataplex.

Opsional: Mulai menggunakan pipeline contoh

Pipeline contoh tersedia, termasuk pipeline sumber SAP ke sink Dataplex Universal Catalog dan pipeline sumber Dataplex Universal Catalog ke sink BigQuery.

Untuk menggunakan pipeline contoh, buka instance Anda di UI Cloud Data Fusion, klik Hub > Pipelines, lalu pilih salah satu pipeline Dataplex Universal Catalog. Dialog akan terbuka untuk membantu Anda membuat pipeline.

Langkah berikutnya