Formation PySpark.
Score de satisfaction : 4.58/5
Durée :
2 jours
26/05/2026 à Distance
numero vert : 0805 950 800 (service et appel gratuits)
à partir de
1400 €HT
92% d'avis positifs* participants

Référence :
SF34593
Durée :
2 jours

En présentiel ou distanciel


Réservez vos places pour la session du
  • 14 heures de formation
  • Exercices pratiques
  • Prise en charge OPCO possible
Vous souhaitez personnaliser cette formation ?
  • En entreprise ou à distance
  • Cadrage pédagogique gratuit
  • Programme de formation sur mesure
  • Formateur expert dédié
  • Prise en charge OPCO possible

Formation PySpark.

Maîtrisez PySpark pour traiter et analyser des volumes massifs de données !

Les métiers de Data Engineer et Data Analyst sont de plus en plus présents au sein des entreprises. Leur rôle est d'extraire de la valeur à partir de la donnée préparée et enrichie afin d'en tirer des informations métiers utiles. Pour faire face à la complexité et au volume de données à traiter toujours plus grand, il est essentiel de maîtriser un langage de programmation pour extraire, stocker et manipuler ces données. Le langage Python, très polyvalent, permet d'effectuer des analyses statistiques à partir des données. Cette formation vous présentera les bases de PySpark pour une prise en main rapide de vos données à travers des scripts, ainsi que le cycle complet de création d'un pipeline de données.

Objectifs pédagogiques.

1Manipuler des données massives avec Python et PySpark pour effectuer des analyses de données

2Expliquer l'architecture de PySpark et ses interactions avec les systèmes de stockage distribués tels qu'Azure Data Lake

3Configurer la connexion à des bases de données SQL Server et interagir avec elles via PySpark

4Concevoir un pipeline de transformation de données complet intégrant nettoyage, transformation et chargement en base de données

Prérequis : Notions de base sur le langage Python ; notions sur les environnements data (modèle en étoile, Azure)
Partagez cette formation

Programme de formation PySpark.

Environnement Python et prise en main

– Présentation du langage Python : positionnement, écosystème et cas d’usage en data engineering
– Installation de Python et des bibliothèques : mise en place de PySpark, pandas et des dépendances nécessaires
– Environnement virtuel : création et gestion d’un environnement isolé pour le projet
– Jupyter Notebooks : introduction à l’outil interactif pour l’exploration de données
– Bases de Python : rappel des fondamentaux du langage pour le traitement de données

Architecture et DataFrames PySpark

– DataFrames en Big Data : rôle central des DataFrames dans le traitement de données volumineuses
– Chargement des données : lecture de fichiers CSV, JSON et Parquet via PySpark
– Connexion aux systèmes de stockage : accès aux données depuis Azure Data Lake
– Filtrage, tri et agrégation : opérations de sélection et de regroupement sur les DataFrames
– Jointures entre DataFrames : croisement de plusieurs jeux de données
– Création de colonnes et transformations : enrichissement et restructuration des données
– Traitement des valeurs manquantes : détection et gestion des données incomplètes

Connexion à Azure Data Lake et SQL Server

– Architecture Azure Data Lake : présentation des couches de stockage et de leur organisation
– Lecture et écriture de fichiers : manipulation de données dans Azure Data Lake avec PySpark
– Authentification et clés d’accès : configuration sécurisée de la connexion aux ressources Azure
– Connexion SQL Server via JDBC : lecture et écriture de données dans une base relationnelle
– Exécution de requêtes SQL : sélection, transformation et extraction de données avec PySpark
– Sauvegarde des résultats : persistance des traitements dans les bases de données relationnelles

Pipeline de transformation de données

– Conception d’un pipeline complet : architecture du flux de données de bout en bout
– Chargement multi-sources : ingestion de données depuis Azure Data Lake et fichiers CSV
– Nettoyage des données : détection et correction des anomalies et incohérences
– Transformations avancées : jointures, agrégations et enrichissement des données
– Enregistrement en base de données : chargement des résultats transformés dans SQL Server
– Optimisations et bonnes pratiques : amélioration des performances et maintenabilité du pipeline

Notre charte qualité et éthique.

A travers sa Charte Engagement Qualité, Sparks s’engage à tout mettre en œuvre pour que chaque session de formation soit un succès et que votre satisfaction soit totale.

Amandine de Sparks
Des chiffres étincelants.
20 années
à vos côtés
+ de 1000
sujets de formation
8702
stagiaires formés en 2024
252
formateurs actifs en 2024
97,9%
de stagiaires satisfaits
23793
heures de formation réalisées en 2024
HAUT