Apache Kafka est une plate-forme de streaming distribuée Open Source pour les pipelines de données et l'intégration de données en temps réel. Il fournit un système de streaming efficace et évolutif pour une utilisation dans diverses applications, y compris :
- Analyse en temps réel
- Traitement par flux
- Agrégation de journaux
- Messagerie distribuée
- Streaming d'événements
Objectifs
Installez Kafka sur un cluster Managed Service pour Apache Spark à haute disponibilité avec ZooKeeper (appelé "cluster Managed Service pour Apache Spark Kafka" dans ce tutoriel).
Créez des données client fictives, puis publiez-les dans un sujet Kafka.
Créez des tables Hive Parquet et ORC dans Cloud Storage pour recevoir les données de sujet Kafka diffusées.
Envoyez une tâche PySpark pour vous abonner au sujet Kafka et le diffuser dans Cloud Storage au format Parquet et ORC.
Exécutez une requête sur les données de la table Hive diffusées pour compter les messages Kafka diffusés.
Coûts
Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :
Pour obtenir une estimation des coûts en fonction de votre utilisation prévue, utilisez le simulateur de coût.
Une fois que vous avez terminé les tâches décrites dans ce document, supprimez les ressources que vous avez créées pour éviter que des frais vous soient facturés. Pour en savoir plus, consultez la section Effectuer un nettoyage.
Avant de commencer
Si ce n'est pas déjà fait, créez un projet Google Cloud .
- Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.- Dans la console Google Cloud , accédez à la page Buckets Cloud Storage.
- Cliquez sur Créer.
- Sur la page Créer un bucket, saisissez les informations concernant votre bucket. Pour passer à l'étape suivante, cliquez sur Continuer.
-
Dans la section Premiers pas, procédez comme suit :
- Saisissez un nom unique qui répond aux exigences relatives aux noms des buckets.
- Pour ajouter une étiquette de bucket, développez la section Étiquettes (), cliquez sur add_box
Ajouter une étiquette, puis spécifiez un élément
keyetvaluepour votre étiquette.
-
Dans la section Choisir l'emplacement de stockage de vos données, procédez comme suit :
- Sélectionnez un type d'emplacement.
- Choisissez un emplacement où les données de votre bucket seront stockées de manière permanente dans le menu déroulant Type d'emplacement.
- Si vous sélectionnez le type d'emplacement birégional, vous pouvez également choisir d'activer la réplication turbo à l'aide de la case à cocher correspondante.
- Pour configurer la réplication entre buckets, sélectionnez Ajouter une réplication entre buckets via le service de transfert de stockage et suivez ces étapes :
Configurer la réplication entre buckets
- Dans le menu Bucket, sélectionnez un bucket.
Dans la section Paramètres de réplication, cliquez sur Configurer pour configurer les paramètres du job de réplication.
Le volet Configurer la réplication entre buckets s'affiche.
- Pour filtrer les objets à répliquer en fonction du préfixe de leur nom, saisissez le préfixe avec lequel vous souhaitez inclure ou exclure des objets, puis cliquez sur Ajouter un préfixe.
- Pour définir une classe de stockage pour les objets répliqués, sélectionnez-en une dans le menu Classe de stockage. Si vous ignorez cette étape, les objets répliqués utiliseront la classe de stockage par défaut du bucket de destination.
- Cliquez sur OK.
-
Dans la section Choisir comment stocker vos données, procédez comme suit :
- Sélectionnez une classe de stockage par défaut pour le bucket ou classe automatique pour gérer automatiquement les classes de stockage des données de votre bucket.
- Pour activer l'espace de noms hiérarchique, dans la section Optimiser l'espace de stockage pour les charges de travail utilisant beaucoup de données, sélectionnez Activer l'espace de noms hiérarchique sur ce bucket.
- Dans la section Choisir comment contrôler l'accès aux objets, indiquez si votre bucket applique ou non la protection contre l'accès public et sélectionnez une méthode de contrôle des accès pour les objets de votre bucket.
-
Dans la section Choisir comment protéger les données d'objet, procédez comme suit :
- Sous Protection des données, sélectionnez les options que vous souhaitez définir pour votre bucket.
- Pour activer la suppression réversible, cochez la case Règle de suppression réversible (pour la récupération de données), puis spécifiez le nombre de jours pendant lesquels vous souhaitez conserver les objets après leur suppression.
- Pour configurer la gestion des versions d'objets, cochez la case Gestion des versions des objets (pour le contrôle des versions), puis spécifiez le nombre maximal de versions par objet et le nombre de jours après lesquels les versions obsolètes expirent.
- Pour activer la règle de conservation sur les objets et les buckets, cochez la case Conservation (pour la conformité), puis procédez comme suit :
- Pour activer le verrou de conservation des objets, cochez la case Activer la conservation des objets.
- Pour activer le verrou de bucket, cochez la case Définir une règle de conservation du bucket, puis choisissez une unité de temps et une durée pour votre période de conservation.
- Pour choisir comment vos données d'objet seront chiffrées, développez la section Chiffrement des données (), puis sélectionnez une méthode de chiffrement des données.
- Sous Protection des données, sélectionnez les options que vous souhaitez définir pour votre bucket.
-
Dans la section Premiers pas, procédez comme suit :
- Cliquez sur Créer.
Étapes du tutoriel
Procédez comme suit pour créer un cluster Managed Service pour Apache Spark Kafka afin de lire un sujet Kafka dans Cloud Storage au format Parquet ou ORC.
Copier le script d'installation de Kafka dans Cloud Storage
Le script d'action d'initialisationkafka.sh installe Kafka sur un cluster Managed Service pour Apache Spark.
Parcourez le code.
Copiez le script d'action d'initialisation
kafka.shdans votre bucket Cloud Storage. Ce script installe Kafka sur un cluster Managed Service pour Apache Spark.Ouvrez Cloud Shell, puis exécutez la commande suivante :
gcloud storage cp gs://goog-dataproc-initialization-actions-REGION/kafka/kafka.sh gs://BUCKET_NAME/scripts/
Effectuez les remplacements suivants :
- REGION :
kafka.shest stocké dans des buckets publics tagués par région dans Cloud Storage. Spécifiez une région Compute Engine géographiquement proche (par exemple,us-central1). - BUCKET_NAME : nom du bucket Cloud Storage.
- REGION :
Créer un cluster Kafka Managed Service pour Apache Spark
Ouvrez Cloud Shell, puis exécutez la commande
gcloud dataproc clusters createsuivante pour créer un cluster HA Managed Service pour Apache Spark qui installe les composants Kafka et ZooKeeper :gcloud dataproc clusters create KAFKA_CLUSTER \ --project=PROJECT_ID \ --region=REGION \ --image-version=2.1-debian11 \ --num-masters=3 \ --enable-component-gateway \ --initialization-actions=gs://BUCKET_NAME/scripts/kafka.sh
Remarques :
- KAFKA_CLUSTER : nom du cluster, qui doit être unique dans un projet. Le nom doit commencer par une lettre minuscule et peut contenir jusqu'à 51 lettres minuscules, chiffres et traits d'union. Il ne peut pas se terminer par un trait d'union. Le nom d'un cluster supprimé peut être réutilisé.
- PROJECT_ID : projet à associer à ce cluster.
- REGION : région Compute Engine dans laquelle le cluster sera situé, par exemple
us-central1.- Vous pouvez ajouter l'option facultative
--zone=ZONEpour spécifier une zone dans la région indiquée, par exempleus-central1-a. Si vous ne spécifiez pas de zone, la fonctionnalité de placement automatique des zones du service géré pour Apache Spark sélectionne une zone dans la région spécifiée.
- Vous pouvez ajouter l'option facultative
--image-version: la version d'image Managed Service pour Apache Spark2.1-debian11est recommandée pour ce tutoriel. Remarque : Chaque version d'image contient un ensemble de composants préinstallés, y compris le composant Hive utilisé dans ce tutoriel (consultez Versions d'image Managed Service for Apache Spark compatibles).--num-master:3nœuds maîtres créent un cluster à haute disponibilité. Le composant Zookeeper, requis par Kafka, est préinstallé sur un cluster à haute disponibilité.--enable-component-gateway: active la passerelle de composants Managed Service pour Apache Spark.- BUCKET_NAME : nom de votre bucket Cloud Storage contenant le script d'initialisation
/scripts/kafka.sh(voir Copier le script d'installation de Kafka dans Cloud Storage).
Créer un sujet custdata Kafka
Pour créer un sujet Kafka sur le cluster Kafka Managed Service pour Apache Spark :
Utilisez l'utilitaire SSH pour ouvrir une fenêtre de terminal sur la VM maître du cluster.
Créez un sujet
custdataKafka./usr/lib/kafka/bin/kafka-topics.sh \ --bootstrap-server KAFKA_CLUSTER-w-0:9092 \ --create --topic custdata
Remarques :
KAFKA_CLUSTER : insérez le nom de votre cluster Kafka.
-w-0:9092désigne le courtier Kafka s'exécutant sur le port9092du nœudworker-0.Vous pouvez exécuter les commandes suivantes après avoir créé le sujet
custdata:# List all topics. /usr/lib/kafka/bin/kafka-topics.sh \ --bootstrap-server KAFKA_CLUSTER-w-0:9092 \ --list
# Consume then display topic data. /usr/lib/kafka/bin/kafka-console-consumer.sh \ --bootstrap-server KAFKA_CLUSTER-w-0:9092 \ --topic custdata
# Count the number of messages in the topic. /usr/lib/kafka/bin/kafka-run-class.sh kafka.tools.GetOffsetShell \ --broker-list KAFKA_CLUSTER-w-0:9092 \ --topic custdata # Delete topic. /usr/lib/kafka/bin/kafka-topics.sh \ --bootstrap-server KAFKA_CLUSTER-w-0:9092 \ --delete --topic custdata
Publier du contenu dans le sujet Kafka custdata
Le script suivant utilise l'outil Kafka kafka-console-producer.sh pour générer des données client fictives au format CSV.
Copiez le script, puis collez-le dans le terminal SSH sur le nœud maître de votre cluster Kafka. Appuyez sur <return> pour exécuter le script.
for i in {1..10000}; do \ custname="cust name${i}" uuid=$(dbus-uuidgen) age=$((45 + $RANDOM % 45)) amount=$(echo "$(( $RANDOM % 99999 )).$(( $RANDOM % 99 ))") message="${uuid}:${custname},${age},${amount}" echo ${message} done | /usr/lib/kafka/bin/kafka-console-producer.sh \ --broker-list KAFKA_CLUSTER-w-0:9092 \ --topic custdata \ --property "parse.key=true" \ --property "key.separator=:"Remarques :
- KAFKA_CLUSTER : nom de votre cluster Kafka.
Exécutez la commande Kafka suivante pour vérifier que le sujet
custdatacontient 10 000 messages./usr/lib/kafka/bin/kafka-run-class.sh kafka.tools.GetOffsetShell \ --broker-list KAFKA_CLUSTER-w-0:9092 \ --topic custdata
Remarques :
- KAFKA_CLUSTER : nom de votre cluster Kafka.
Résultat attendu :
custdata:0:10000
Créer des tables Hive dans Cloud Storage
Créez des tables Hive pour recevoir les données de sujet Kafka diffusées.
Pour créer des tables Hive cust_parquet (Parquet) et cust_orc (ORC) dans votre bucket Cloud Storage, procédez comme suit :
Insérez votre BUCKET_NAME dans le script suivant, puis copiez-le et collez-le dans le terminal SSH sur le nœud maître de votre cluster Kafka. Appuyez ensuite sur <return> pour créer un script
~/hivetables.hql(Hive Query Language).Vous exécuterez le script
~/hivetables.hqlà l'étape suivante pour créer des tables Hive Parquet et ORC dans votre bucket Cloud Storage.cat > ~/hivetables.hql <<EOF drop table if exists cust_parquet; create external table if not exists cust_parquet (uuid string, custname string, age string, amount string) row format delimited fields terminated by ',' stored as parquet location "gs://BUCKET_NAME/tables/cust_parquet"; drop table if exists cust_orc; create external table if not exists cust_orc (uuid string, custname string, age string, amount string) row format delimited fields terminated by ',' stored as orc location "gs://BUCKET_NAME/tables/cust_orc"; EOF
Dans le terminal SSH du nœud maître de votre cluster Kafka, envoyez le job Hive
~/hivetables.hqlpour créer des tables Hivecust_parquet(Parquet) etcust_orc(ORC) dans votre bucket Cloud Storage.gcloud dataproc jobs submit hive \ --cluster=KAFKA_CLUSTER \ --region=REGION \ -f ~/hivetables.hql
Remarques :
- Le composant Hive est préinstallé sur le cluster Managed Service pour Apache Spark Kafka. Consultez les versions 2.1.x pour obtenir la liste des versions du composant Hive incluses dans les images 2.1 récemment publiées.
- KAFKA_CLUSTER : nom de votre cluster Kafka.
- REGION : région dans laquelle se trouve votre cluster Kafka.
Transférer par flux Kafka custdata vers des tables Hive
- Exécutez la commande suivante dans le terminal SSH sur le nœud maître de votre cluster Kafka pour installer la bibliothèque
kafka-python. Un client Kafka est nécessaire pour diffuser les données des sujets Kafka vers Cloud Storage.pip install kafka-python
Insérez votre BUCKET_NAME, puis copiez et collez le code PySpark suivant dans le terminal SSH sur le nœud maître de votre cluster Kafka, puis appuyez sur <return> pour créer un fichier
streamdata.py.Le script s'abonne au sujet Kafka
custdata, puis diffuse les données vers vos tables Hive dans Cloud Storage. Le format de sortie, qui peut être Parquet ou ORC, est transmis au script en tant que paramètre.cat > streamdata.py <<EOF #!/bin/python import sys from pyspark.sql.functions import * from pyspark.sql.types import * from pyspark.sql import SparkSession from kafka import KafkaConsumer def getNameFn (data): return data.split(",")[0] def getAgeFn (data): return data.split(",")[1] def getAmtFn (data): return data.split(",")[2] def main(cluster, outputfmt): spark = SparkSession.builder.appName("APP").getOrCreate() spark.sparkContext.setLogLevel("WARN") Logger = spark._jvm.org.apache.log4j.Logger logger = Logger.getLogger(__name__) rows = spark.readStream.format("kafka") \ .option("kafka.bootstrap.servers", cluster+"-w-0:9092").option("subscribe", "custdata") \ .option("startingOffsets", "earliest")\ .load() getNameUDF = udf(getNameFn, StringType()) getAgeUDF = udf(getAgeFn, StringType()) getAmtUDF = udf(getAmtFn, StringType()) logger.warn("Params passed in are cluster name: " + cluster + " output format(sink): " + outputfmt) query = rows.select (col("key").cast("string").alias("uuid"),\ getNameUDF (col("value").cast("string")).alias("custname"),\ getAgeUDF (col("value").cast("string")).alias("age"),\ getAmtUDF (col("value").cast("string")).alias("amount")) writer = query.writeStream.format(outputfmt)\ .option("path","gs://BUCKET_NAME/tables/cust_"+outputfmt)\ .option("checkpointLocation", "gs://BUCKET_NAME/chkpt/"+outputfmt+"wr") \ .outputMode("append")\ .start() writer.awaitTermination() if __name__=="__main__": if len(sys.argv) < 2: print ("Invalid number of arguments passed ", len(sys.argv)) print ("Usage: ", sys.argv[0], " cluster format") print ("e.g.: ", sys.argv[0], " <cluster_name> orc") print ("e.g.: ", sys.argv[0], " <cluster_name> parquet") main(sys.argv[1], sys.argv[2]) EOFDans le terminal SSH du nœud maître de votre cluster Kafka, exécutez
spark-submitpour diffuser des données vers vos tables Hive dans Cloud Storage.Insérez le nom de votre KAFKA_CLUSTER et de la sortie FORMAT, puis copiez et collez le code suivant dans le terminal SSH du nœud maître de votre cluster Kafka. Appuyez ensuite sur <return> pour exécuter le code et diffuser les données
custdataKafka au format Parquet dans vos tables Hive dans Cloud Storage.spark-submit --packages \ org.apache.spark:spark-streaming-kafka-0-10_2.12:3.1.3,org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.3 \ --conf spark.history.fs.gs.outputstream.type=FLUSHABLE_COMPOSITE \ --conf spark.driver.memory=4096m \ --conf spark.executor.cores=2 \ --conf spark.executor.instances=2 \ --conf spark.executor.memory=6144m \ streamdata.py KAFKA_CLUSTER FORMATRemarques :
- KAFKA_CLUSTER : insérez le nom de votre cluster Kafka.
- FORMAT : spécifiez
parquetouorccomme format de sortie. Vous pouvez exécuter la commande successivement pour diffuser les deux formats dans les tables Hive. Par exemple, lors de la première invocation, spécifiezparquetpour diffuser le thème Kafkacustdatadans la table Parquet Hive. Ensuite, lors de la deuxième invocation, spécifiez le formatorcpour diffusercustdatadans la table ORC Hive.
Une fois que la sortie standard s'arrête dans le terminal SSH, ce qui signifie que tous les
custdataont été diffusés, appuyez sur <control-c> dans le terminal SSH pour arrêter le processus.Répertoriez les tables Hive dans Cloud Storage.
gcloud storage ls gs://BUCKET_NAME/tables/* --recursive
Remarques :
- BUCKET_NAME : insérez le nom du bucket Cloud Storage contenant vos tables Hive (voir Créer des tables Hive).
Interroger les données en flux continu
Dans le terminal SSH du nœud maître de votre cluster Kafka, exécutez la commande
hivesuivante pour compter les messagescustdataKafka diffusés dans les tables Hive de Cloud Storage.hive -e "select count(1) from TABLE_NAME"
Remarques :
- TABLE_NAME : spécifiez
cust_parquetoucust_orccomme nom de table Hive.
Extrait de résultat attendu :
- TABLE_NAME : spécifiez
...
Status: Running (Executing on YARN cluster with App id application_....)
----------------------------------------------------------------------------------------------
VERTICES MODE STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED
----------------------------------------------------------------------------------------------
Map 1 .......... container SUCCEEDED 1 1 0 0 0 0
Reducer 2 ...... container SUCCEEDED 1 1 0 0 0 0
----------------------------------------------------------------------------------------------
VERTICES: 02/02 [==========================>>] 100% ELAPSED TIME: 9.89 s
----------------------------------------------------------------------------------------------
OK
10000
Time taken: 21.394 seconds, Fetched: 1 row(s)
Effectuer un nettoyage
Supprimer le projet
Supprimer un projet Google Cloud :
gcloud projects delete PROJECT_ID
Delete resources
-
Supprimez le bucket :
gcloud storage buckets delete BUCKET_NAME
- Supprimez votre cluster Kafka :
gcloud dataproc clusters delete KAFKA_CLUSTER \ --region=${REGION}