SF34593
2 jours
En présentiel ou distanciel
- 14 heures de formation
- Exercices pratiques
- Prise en charge OPCO possible
Un renseignement ?
Contactez-nous !- En entreprise ou à distance
- Cadrage pédagogique gratuit
- Programme de formation sur mesure
- Formateur expert dédié
- Prise en charge OPCO possible
Formation PySpark.
Maîtrisez PySpark pour traiter et analyser des volumes massifs de données !
Les métiers de Data Engineer et Data Analyst sont de plus en plus présents au sein des entreprises. Leur rôle est d'extraire de la valeur à partir de la donnée préparée et enrichie afin d'en tirer des informations métiers utiles. Pour faire face à la complexité et au volume de données à traiter toujours plus grand, il est essentiel de maîtriser un langage de programmation pour extraire, stocker et manipuler ces données. Le langage Python, très polyvalent, permet d'effectuer des analyses statistiques à partir des données. Cette formation vous présentera les bases de PySpark pour une prise en main rapide de vos données à travers des scripts, ainsi que le cycle complet de création d'un pipeline de données.
Programme de formation PySpark.
Environnement Python et prise en main
– Présentation du langage Python : positionnement, écosystème et cas d’usage en data engineering
– Installation de Python et des bibliothèques : mise en place de PySpark, pandas et des dépendances nécessaires
– Environnement virtuel : création et gestion d’un environnement isolé pour le projet
– Jupyter Notebooks : introduction à l’outil interactif pour l’exploration de données
– Bases de Python : rappel des fondamentaux du langage pour le traitement de données
Architecture et DataFrames PySpark
– DataFrames en Big Data : rôle central des DataFrames dans le traitement de données volumineuses
– Chargement des données : lecture de fichiers CSV, JSON et Parquet via PySpark
– Connexion aux systèmes de stockage : accès aux données depuis Azure Data Lake
– Filtrage, tri et agrégation : opérations de sélection et de regroupement sur les DataFrames
– Jointures entre DataFrames : croisement de plusieurs jeux de données
– Création de colonnes et transformations : enrichissement et restructuration des données
– Traitement des valeurs manquantes : détection et gestion des données incomplètes
Connexion à Azure Data Lake et SQL Server
– Architecture Azure Data Lake : présentation des couches de stockage et de leur organisation
– Lecture et écriture de fichiers : manipulation de données dans Azure Data Lake avec PySpark
– Authentification et clés d’accès : configuration sécurisée de la connexion aux ressources Azure
– Connexion SQL Server via JDBC : lecture et écriture de données dans une base relationnelle
– Exécution de requêtes SQL : sélection, transformation et extraction de données avec PySpark
– Sauvegarde des résultats : persistance des traitements dans les bases de données relationnelles
Pipeline de transformation de données
– Conception d’un pipeline complet : architecture du flux de données de bout en bout
– Chargement multi-sources : ingestion de données depuis Azure Data Lake et fichiers CSV
– Nettoyage des données : détection et correction des anomalies et incohérences
– Transformations avancées : jointures, agrégations et enrichissement des données
– Enregistrement en base de données : chargement des résultats transformés dans SQL Server
– Optimisations et bonnes pratiques : amélioration des performances et maintenabilité du pipeline
Nos autres formations en Intelligence Artificielle (IA) et Data Science .
Formation Acculturation IA pour le CODIR/COMEX
Formation AIOps Foundation℠, avec certification AIOF
Formation Analyse statistique et modélisation
Formation Analyste de données Microsoft Power BI (PL-300)
Formation Big Data, Data Science et Machine Learning : concepts et enjeux pour l’entreprise
Formation ChatGPT : les bases du prompt engineering
A travers sa Charte Engagement Qualité, Sparks s’engage à tout mettre en œuvre pour que chaque session de formation soit un succès et que votre satisfaction soit totale.
