「GKE 中的 AI/機器學習自動化調度管理」說明文件

運用 Google Kubernetes Engine (GKE) 平台的自動化調度管理功能,執行最佳化的 AI/機器學習工作負載。您可以透過 Google Kubernetes Engine (GKE),導入可用於正式環境的穩固 AI/機器學習平台,同時享有代管 Kubernetes 的所有優點,以及下列功能:

  • 基礎架構自動化調度管理功能支援 GPU 和 TPU,可大規模處理訓練及提供模型的工作負載。
  • 能與分散式運算和資料處理架構彈性整合。
  • 以同一基礎架構支援多個團隊,讓資源獲得最大運用
本頁概述 GKE 的 AI/機器學習功能,以及如何開始在 GKE 上執行最佳化的 AI/機器學習工作負載,並搭配使用 GPU、TPU 和 Hugging Face TGI、vLLM 和 JetStream 等架構。
  • 取得 Gemini 2.0 Flash Thinking 的存取權
  • 每月免費使用 AI API 和 BigQuery 等熱門產品
  • 不會自動收費,也不會要求您一定要購買特定方案

繼續探索超過 20 項一律免費的產品

使用超過 20 項實用的免費產品,包括 AI API、VM 和 data warehouse 等。

說明文件資源

歡迎查看快速入門導覽課程、指南和重要參考資料。如有常見問題,也能取得協助。
透過自學課程、用途、參考架構和程式碼範例,瞭解如何使用及連結 Google Cloud 服務。
訓練
訓練與教學課程

瞭解如何透過 Hugging Face 的 Optimum TPU 服務架構,在 GKE 上使用 Tensor Processing Unit (TPU) 部署 LLM。

教學課程 AI/機器學習推論 TPU

訓練
訓練與教學課程

瞭解如何建立全代管 Parallelstore 執行個體支援的儲存空間,並以磁碟區的形式存取。CSI 驅動程式經過最佳化調整,適合涉及較小檔案大小和隨機讀取作業的 AI/機器學習訓練工作負載。

教學課程 AI/機器學習資料載入

訓練
訓練與教學課程

瞭解如何使用 Hyperdisk ML,簡化及加速在 GKE 上載入 AI/機器學習模型權重。

教學課程 AI/機器學習資料載入

訓練
訓練與教學課程

瞭解如何透過 PyTorch,使用 GKE 上的 Tensor Processing Unit (TPU) 和 JetStream 提供 LLM。

教學課程 AI/機器學習推論 TPU

訓練
訓練與教學課程

瞭解如何使用 vLLM 和 Text Generation Inference (TGI) 服務架構,在 GKE 上透過 GPU 最佳化 LLM 推論效能。

教學課程 AI/機器學習推論 GPU

訓練
訓練與教學課程

瞭解 NVIDIA GPU 運算子的使用時機,以及如何在 GKE 上啟用 NVIDIA GPU 運算子。

教學課程 GPU

訓練
訓練與教學課程

瞭解如何使用 GKE 水平 Pod 自動調度器 (HPA) 部署 Gemma LLM,並透過單一主機 JetStream 設定自動調度基礎架構。

教學課程 TPU

訓練
訓練與教學課程

瞭解如何使用 Hugging Face Transformers 程式庫,透過 GKE 上的 GPU 微調 Gemma LLM。

教學課程 AI/機器學習推論 GPU

訓練
訓練與教學課程

瞭解如何使用 TPU、Ray Serve 和 Ray Operator 外掛程式,在 GKE 上部署及提供 Stable Diffusion 模型。

教學課程 AI/機器學習推論 Ray TPU

訓練
訓練與教學課程

瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA),透過 Hugging Face Text Generation Interface (TGI) 服務架構部署 Gemma LLM,進而設定自動調度基礎架構。

教學課程 GPU

訓練
訓練與教學課程

瞭解如何在 A3 Mega 上執行以容器為基礎的 Megatron-LM PyTorch 工作負載。

教學課程 AI/機器學習訓練 GPU

訓練
訓練與教學課程

瞭解如何在 GKE Autopilot 工作負載中要求硬體加速器 (GPU) 資源。

教學課程 GPU

訓練
訓練與教學課程

瞭解如何使用 GKE 和多個 NVIDIA L4 GPU,提供 Llama 2 70B 或 Falcon 40B 模型。

教學課程 AI/機器學習推論 GPU

訓練
訓練與教學課程

瞭解如何在 Ray 叢集上執行工作負載,輕鬆開始在 GKE 上使用 Ray。

教學課程 Ray

訓練
訓練與教學課程

瞭解如何在 GKE 中使用 Ray 架構,提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b 服務。

教學課程 AI/機器學習推論 Ray GPU

訓練
訓練與教學課程

瞭解如何使用 JobSet 和 Kueue,在 GKE 上自動化調度管理多個 TPU Slice 的 Jax 工作負載。

教學課程 TPU

訓練
訓練與教學課程

瞭解如何使用 NVIDIA Data Center GPU Manager (DCGM) 觀察 GKE 上的 GPU 工作負載。

教學課程 AI/機器學習可觀測性 GPU

訓練
訓練與教學課程

本快速入門導覽課程說明如何在 GKE 中使用 GPU 部署訓練模型,並將預測結果儲存在 Cloud Storage 中。

教學課程 AI/機器學習訓練 GPU

訓練
訓練與教學課程

這部影片說明 GKE 如何解決大規模訓練大型 AI 模型時常見的挑戰,以及在 GKE 訓練及提供大型機器學習模型的最佳做法。

影片 AI/機器學習訓練 AI/機器學習推論

訓練
訓練與教學課程

這篇網誌文章提供逐步指南,說明如何建立、執行及拆解啟用 TensorFlow 的 Jupiter 筆記本。

網誌 AI/機器學習訓練 AI 機器學習推論 GPU

訓練
訓練與教學課程

本教學課程會使用 Kueue,說明如何實作 Job 排隊系統,以及在 GKE 上設定不同命名空間之間的工作負載資源和配額共用。

教學課程 AI/機器學習批次

訓練
訓練與教學課程

本教學課程說明如何整合以檢索擴增生成技術為基礎的大型語言模型應用程式,以及您上傳至 Cloud Storage 值區的 PDF 檔案。

教學課程 AI/機器學習資料載入

訓練
訓練與教學課程

本教學課程說明如何運用 BigQuery 儲存及處理資料、使用 Cloud Run 處理要求,以及使用 Gemma LLM 分析資料和進行預測,在 GKE 上分析大型資料集。

教學課程 AI/機器學習資料載入

用途
用途

瞭解如何運用 GKE 和 Ray,有效預先處理用於機器學習的大型資料集。

機器學習運作 訓練 Ray

用途
用途

瞭解如何縮短 Google Kubernetes Engine 上機器學習應用程式的資料載入時間。

推論 Hyperdisk ML Cloud Storage FUSE

用途
用途

瞭解如何微調 GKE 的水平 Pod 自動調度器,盡可能提高效率,進而降低 GPU 推論成本。

推論 GPU HPA

用途
用途

瞭解如何在 GKE 輕鬆部署最先進的 NVIDIA NIM 微服務,加速執行 AI 工作負載。

AI NVIDIA NIM

用途
用途

瞭解如何運用 GKE 上的 Ray Operator 簡化 AI/機器學習正式環境部署作業,進而提升效能及擴充性。

AI TPU Ray

用途
用途

瞭解如何盡可能提高 GKE 上 GPU 的大型語言模型 (LLM) 服務輸送量,包括基礎架構決策和模型伺服器最佳化。

LLM GPU NVIDIA

用途
用途

如何使用 Vertex AI Agent Builder、Vertex AI Search 和 GKE,透過 Google Cloud 建構搜尋引擎。

搜尋 代理程式 Vertex AI

用途
用途

瞭解 LiveX AI 如何運用 GKE 建構 AI 代理,提升顧客滿意度並降低成本。

GenAI NVIDIA GPU

用途
用途

參考架構:使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain,透過檢索增強生成 (RAG) 執行生成式 AI 應用程式。

GenAI RAG Ray

用途
用途

IPRally 如何運用 GKE 和 Ray,建構可擴充且有效率的機器學習平台,以更準確地加快專利搜尋速度。

AI Ray GPU

用途
用途

在 GKE 中,透過 Cloud GPU 和 Cloud TPU 使用 Gemma,提升推論和訓練效率。

AI Gemma 效能

用途
用途

使用一流的 Gemma 開放模型建構可攜式自訂 AI 應用程式,並部署至 GKE。

AI Gemma 效能

用途
用途

使用 KubeRay 和 Kueue 在 GKE 中自動調度管理 Ray 應用程式。

Kueue Ray KubeRay

用途
用途

在 GKE 上使用 Ray 訓練 AI/機器學習工作負載時,套用安全洞察和強化技術。

AI Ray 安全性

用途
用途

在 Google Cloud 上,為 AI 和機器學習工作負載選取最佳儲存空間選項組合。

AI ML 儲存空間

用途
用途

在 GKE 中自動安裝 Nvidia GPU 驅動程式。

GPU NVIDIA 安裝

用途
用途

使用 GKE 和 NVIDIA NeMo 架構訓練生成式 AI 模型。

GenAI NVIDIA NeMo

用途
用途

使用 GKE 執行 Ray 工作負載,提升擴充性、成本效益、容錯能力、隔離和可攜性。

AI Ray Scale

用途
用途

透過 GKE Autopilot,為 AI/機器學習工作負載取得更完善的 GPU 支援、提升效能,並降低價格。

GPU 自動駕駛 效能

用途
用途

新創公司運用 GKE 擴展個人化影片輸出內容。

GPU 規模 容器

用途
用途

瞭解 Ray 如何改變 Spotify 的機器學習開發作業。

機器學習 Ray 容器

用途
用途

Ordaōs Bio 是生物醫學研究和探索領域的頂尖 AI 加速器之一,致力於尋找腫瘤和慢性發炎疾病的新型免疫療法解決方案。

效能 TPU 成本最佳化

用途
用途

瞭解矽谷新創公司 Moloco 如何運用 GKE 和 TensorFlow 企業版的強大功能,大幅強化機器學習 (ML) 基礎架構。

機器學習 資源調度 成本最佳化

程式碼範例
程式碼範例

查看官方 GKE 產品教學課程中使用的範例應用程式。

程式碼範例
程式碼範例

查看實驗性範例,瞭解如何運用 GKE 加快 AI/機器學習計畫的進展。

相關影片