Formation Building Batch Data Analytics Solutions on AWS (BBDAS).
Score de satisfaction : 4.92/5
Durée :
1 jour
Distanciel et 16 villes en France
numero vert : 0805 950 800 (service et appel gratuits)
à partir de
850 €HT
98% d'avis positifs* participants

Référence :
SF34457
Durée :
1 jour

En présentiel ou distanciel


  • 7 heures de formation
  • Exercices pratiques
  • Prise en charge OPCO possible
Vous souhaitez personnaliser cette formation ?
  • En entreprise ou à distance
  • Cadrage pédagogique gratuit
  • Programme de formation sur mesure
  • Formateur expert dédié
  • Prise en charge OPCO possible

Formation Building Batch Data Analytics Solutions on AWS (BBDAS).

Construisez des pipelines d’analytique batch performants sur AWS avec Amazon EMR, Spark et Hadoop !

Cette formation vous apprend à concevoir et mettre en œuvre des solutions d’analyse de données en mode batch à l’aide d’Amazon EMR, le service managé d’AWS pour Apache Spark et Apache Hadoop. Vous découvrirez comment EMR s’appuie sur des composants open source tels que Apache Hive, Hue et HBase, et comment il s’intègre avec des services AWS comme AWS Glue et AWS Lake Formation. Le cours aborde l’ensemble de la chaîne data — collecte, ingestion, catalogage, stockage et traitement — dans un contexte Spark/Hadoop. Vous apprendrez également à exploiter EMR Notebooks pour des cas d’usage d’analytique et de machine learning, tout en appliquant les bonnes pratiques de sécurité, de performance et de maîtrise des coûts dans l’exploitation d’Amazon EMR. Cette formation s’inscrit dans le parcours de préparation à la certification AWS Certified Data Engineer – Associate.

Objectifs pédagogiques.

1Distinguer les apports des data warehouses, data lakes et des architectures data modernes.

2Concevoir et déployer une solution d’analytique batch de bout en bout.

3Optimiser le stockage des données (dont l’usage de la compression) selon les besoins.

4Choisir les approches adaptées pour ingérer, transformer et stocker les données.

5Sélectionner les bons paramètres EMR (types d’instances/nœuds, clusters, auto scaling, topologie réseau) selon le cas d’usage.

6Expliquer l’impact des choix de stockage et de traitement sur l’analyse et la visualisation des résultats.

7Mettre en place la sécurisation des données au repos et en transit.

8Surveiller les charges analytiques, diagnostiquer les incidents et appliquer les bonnes pratiques de pilotage des coûts.

Prérequis : Disposer idéalement d’au moins 1 an d’expérience sur des frameworks data open source (ex. Apache Spark ou Apache Hadoop).Recommandé : avoir suivi Architecting on AWS (AWSA) ou AWS Technical Essentials (AWSE).Recommandé : avoir suivi Building Data Lakes on AWS (BDLA) ou Getting Started with AWS Glue.
Partagez cette formation

Programme de formation Building Batch Data Analytics Solutions on AWS (BBDAS).

Module A : Panorama de l’analytique et du pipeline de données

Cas d’usage de l’analytique de données
Exploiter un pipeline data pour l’analyse

Module 1 : Prise en main d’Amazon EMR

Positionnement d’Amazon EMR dans des solutions analytiques
Architecture d’un cluster Amazon EMR
Démo : démarrer un cluster Amazon EMR
Stratégies de gestion et d’optimisation des coûts

Module 2 : Pipeline analytique avec Amazon EMR – Ingestion et stockage

Optimiser le stockage avec Amazon EMR
Techniques d’ingestion de données

Module 3 : Analytique batch haute performance avec Apache Spark sur Amazon EMR

Cas d’usage de Spark sur Amazon EMR
Pourquoi utiliser Spark sur Amazon EMR
Concepts clés de Spark
Démo : connexion à un cluster EMR et exécution de commandes Scala via le Spark shell
Transformation, traitement et analyse
Utilisation des notebooks avec Amazon EMR
TP : analytique à faible latence avec Apache Spark sur Amazon EMR

Module 4 : Traitement et analyse batch avec Amazon EMR et Apache Hive

Traiter des données batch avec Hive sur Amazon EMR
Transformation, traitement et analyse
TP : traitement batch avec Amazon EMR et Hive
Introduction à Apache HBase sur Amazon EMR

Module 5 : Traitement serverless des données

Traitement, transformation et analyse en mode serverless
Exploiter AWS Glue avec des workloads Amazon EMR
TP : orchestrer un traitement Spark avec AWS Step Functions

Module 6 : Sécurité et supervision des clusters Amazon EMR

Sécurisation des clusters EMR
Démo : chiffrement côté client avec EMRFS
Supervision et dépannage des clusters Amazon EMR
Démo : analyse de l’historique d’un cluster Apache Spark

Module 7 : Concevoir des solutions d’analytique batch

Cas d’usage d’analytique batch
Atelier : concevoir un workflow d’analytique batch

Module B : Développer des architectures data modernes sur AWS

Architectures data modernes sur AWS

Notre charte qualité et éthique.

A travers sa Charte Engagement Qualité, Sparks s’engage à tout mettre en œuvre pour que chaque session de formation soit un succès et que votre satisfaction soit totale.

Amandine de Sparks
Des chiffres étincelants.
20 années
à vos côtés
+ de 1000
sujets de formation
8702
stagiaires formés en 2024
252
formateurs actifs en 2024
97,9%
de stagiaires satisfaits
23793
heures de formation réalisées en 2024
HAUT