Diese Anleitung umfasst eine Schritt-für-Schritt-Anleitung für Cloud Shell. Darin werden Managed Service for Apache Spark gRPC APIs mithilfe von Google Cloud-Clientbibliotheken für Python programmatisch aufgerufen, um einen Cluster zu erstellen und einen Job an den Cluster zu senden.
In den folgenden Abschnitten wird die Verwendung des Anleitungscodes erläutert, der sich im GitHub-Repository GoogleCloudPlatform/python-dataproc befindet.
Schritt-für-Schritt-Anleitung für Cloud Shell ausführen
Klicken Sie zum Ausführen der Anleitung auf Open in Cloud Shell (In Google Cloud Shell öffnen).
Den Code verstehen
In diesem Abschnitt wird erläutert, wie der Anleitungscode die Cloud-Clientbibliotheken für Python verwendet, um sich zu authentifizieren Google Cloud, einen Cluster zu erstellen, einen Spark-Job zu senden und den Cluster zu löschen.
Standardanmeldedaten für Anwendungen
Die Schritt-für-Schritt-Anleitung für Cloud Shell in diesem Tutorial bietet eine Authentifizierung anhand der Anmeldedaten Ihres Google Cloud Projekts. Wenn Sie Code lokal ausführen, sollten Sie zum Authentifizieren Ihres Codes die Dienstkonto-Anmeldedaten verwenden.
Managed Service for Apache Spark-Cluster erstellen
Die folgenden Werte werden festgelegt, um den Cluster zu erstellen:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird.
- Der Name des Clusters.
- Die Clusterkonfiguration, die einen Master und zwei primäre Worker angibt.
Für die übrigen Clustereinstellungen werden die Standardkonfigurationseinstellungen verwendet. Sie können die Standardkonfigurationseinstellungen für den Cluster überschreiben. Sie können beispielsweise sekundäre VMs hinzufügen (Standard = 0) oder ein nicht standardmäßiges VPC-Netzwerk für den Cluster angeben. Weitere Informationen finden Sie unter CreateCluster.
Job senden
Die folgenden Werte werden festgelegt, um den Job zu senden:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird.
- Die Jobkonfiguration, die den Clusternamen und den Cloud Storage-Dateipfad (URI) des PySpark-Jobs angibt.
Weitere Informationen finden Sie unter SubmitJob.
Cluster löschen
Die folgenden Werte werden festgelegt, um den Cluster zu löschen:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird.
- Der Name des Clusters.
Weitere Informationen finden Sie unter DeleteCluster.