Formation Data Engineering sur Google Cloud Platform (DEGCP).
Score de satisfaction : 4.82/5
Durée :
4 jours
Distanciel et 16 villes en France
numero vert : 0805 950 800 (service et appel gratuits)
à partir de
3400 €HT
96% d'avis positifs* participants

Référence :
SF34392
Durée :
4 jours

En présentiel ou distanciel


  • 28 heures de formation
  • Exercices pratiques
  • Prise en charge OPCO possible
Vous souhaitez personnaliser cette formation ?
  • En entreprise ou à distance
  • Cadrage pédagogique gratuit
  • Programme de formation sur mesure
  • Formateur expert dédié
  • Prise en charge OPCO possible

Formation Data Engineering sur Google Cloud Platform (DEGCP).

Maîtriser la conception et l’implémentation de pipelines de données performants dans le cloud Google !

Cette formation intensive de quatre jours, animée par un formateur certifié, propose une immersion pratique dans la conception et le déploiement de systèmes de traitement de données sur Google Cloud Platform (GCP). Cette formation prépare à l’examen Google Cloud Certified – Professional Data Engineer.

Objectifs pédagogiques.

1Concevoir et développer des systèmes de traitement de données sur Google Cloud Platform.

2Mettre en œuvre des pipelines évolutifs pour des traitements batch et temps réel avec Cloud Dataflow.

3Exploiter BigQuery pour analyser de grands volumes de données et en extraire des insights métier.

4Créer, entraîner, évaluer et déployer des modèles de machine learning avec TensorFlow et Cloud ML.

5Traiter des données non structurées à l’aide de Spark et des API ML sur Cloud Dataproc.

6Mettre en place des architectures de streaming pour obtenir des analyses instantanées.

Prérequis : Avoir suivi le cours Google Cloud Fundamentals : Big Data and Machine Learning ou disposer d’une expérience équivalente.Connaissance pratique d’un langage de requête tel que SQL.Expérience des activités ETL et de la modélisation de données.Maîtrise d’un langage de programmation courant, tel que Python.Notions de base en statistiques et machine learning.
Partagez cette formation

Programme de formation Data Engineering sur Google Cloud Platform (DEGCP).

Module 1 : Introduction à Google Cloud Dataproc

Création et gestion de clusters
Utilisation de types de machines personnalisés et de nœuds préemptibles
Mise à l’échelle et suppression des clusters

Module 2 : Exécution de jobs Dataproc

Lancement de jobs Pig et Hive
Séparation du stockage et du calcul

Module 3 : Intégration de Dataproc avec Google Cloud Platform

Personnalisation des clusters avec des actions d’initialisation
Intégration avec BigQuery

Module 4 : Exploitation des données non structurées avec les API ML de Google

Présentation des API de machine learning
Cas d’usage courants
Appels aux API ML

Module 5 : Analyse de données serverless avec BigQuery

Introduction à BigQuery
Écriture de requêtes et utilisation de fonctions
Chargement et exportation des données
Gestion des champs imbriqués et répétés
Interrogation de tables multiples
Optimisation des performances et coûts

Module 6 : Pipelines de données autoscalables avec Dataflow

Le modèle de programmation Beam
Pipelines en Python et Java
Traitements distribués et MapReduce
Gestion du streaming et architecture de référence

Module 7 : Introduction au Machine Learning

Principes fondamentaux et typologies du ML
Généralisation et jeux de données adaptés

Module 8 : Création de modèles ML avec TensorFlow

Débuter avec TensorFlow
Construction et entraînement de modèles
Graphes, boucles et mécanismes de monitoring

Module 9 : Passage à l’échelle avec Cloud ML

Intérêt et cas d’usage de Cloud ML
Emballage et déploiement d’un modèle TensorFlow
Entraînement local et sur le cloud

Module 10 : Feature Engineering

Conception de variables pertinentes
Transformation et création de variables synthétiques
Prétraitement avec Cloud ML

Module 11 : Architectures de pipelines de streaming

Enjeux du traitement de flux
Gestion de volumes variables et données désordonnées ou retardées

Module 12 : Ingestion de volumes variables avec Cloud Pub/Sub

Concepts de topics et abonnements
Principes de fonctionnement

Module 13 : Implémentation de pipelines de streaming

Défis spécifiques au traitement en flux
Gestion des données tardives (watermarks, triggers, accumulation)

Module 14 : Analytique en flux et tableaux de bord

De la donnée brute à la prise de décision
Interrogation de données en streaming avec BigQuery
Découverte de Google Data Studio

Module 15 : Performance et faible latence avec Bigtable

Présentation de Cloud Spanner
Conception d’un schéma Bigtable
Ingestion et traitement des données dans Bigtable

Notre charte qualité et éthique.

A travers sa Charte Engagement Qualité, Sparks s’engage à tout mettre en œuvre pour que chaque session de formation soit un succès et que votre satisfaction soit totale.

Amandine de Sparks
Des chiffres étincelants.
20 années
à vos côtés
+ de 1000
sujets de formation
8702
stagiaires formés en 2024
252
formateurs actifs en 2024
97,9%
de stagiaires satisfaits
23793
heures de formation réalisées en 2024
HAUT