SF34308
3 jours
En présentiel ou distanciel
- 21 heures de formation
- Exercices pratiques
- Prise en charge OPCO possible
Un renseignement ?
Contactez-nous !- En entreprise ou à distance
- Cadrage pédagogique gratuit
- Programme de formation sur mesure
- Formateur expert dédié
- Prise en charge OPCO possible
Formation Apache Hop : orchestrer et automatiser vos flux de données ETL.
Maîtrisez Apache Hop pour extraire, transformer et charger vos données depuis des sources hétérogènes grâce à des pipelines visuels et des workflows automatisés.
Apache Hop est une plateforme ETL open source qui permet d'orchestrer des flux de données entre systèmes hétérogènes. Cette formation de 3 jours vous accompagne de la prise en main de l'outil jusqu'à son exploitation en production. Vous apprendrez à concevoir des pipelines de transformation, configurer les accès aux sources et cibles de données, manipuler et enrichir vos flux, puis automatiser et superviser leur exécution. L'approche progressive alterne théorie et travaux pratiques pour une montée en compétences immédiate sur l'outil.
Programme de formation Apache Hop : orchestrer et automatiser vos flux de données ETL.
Découverte d’Apache Hop et mise en place de l’environnement
– Positionnement d’Apache Hop : outil ETL open source et son rôle dans l’écosystème d’intégration de données
– Architecture de la plateforme : distinction entre pipelines (transformation) et workflows (orchestration)
– Historique et communauté : origines du projet, évolution depuis Kettle/Pentaho et gouvernance Apache
– Installation et configuration : mise en place de l’environnement de développement et premiers repères dans l’interface
**Exemples d’activités pratiques :**
– Installation d’Apache Hop et configuration d’un premier projet
– Navigation dans l’interface graphique et exploration des composants disponibles
Conception de pipelines et workflows
– Pipelines de transformation : création d’un flux de données de bout en bout, de la source à la cible
– Workflows d’orchestration : enchaînement et ordonnancement des pipelines pour automatiser un processus complet
– Exécution et supervision : lancement d’un pipeline et d’un workflow, lecture des résultats d’exécution
– Gestion des flux de données : appréhender le parcours des données à travers les étapes de transformation
**Exemples d’activités pratiques :**
– Conception d’un pipeline simple d’extraction et de chargement de données
– Élaboration d’un workflow orchestrant plusieurs pipelines séquentiels
Connexion aux sources et cibles de données
– Métadonnées de connexion : configuration et gestion centralisée des accès aux bases de données
– Connecteurs source et cible : panorama des systèmes supportés (bases relationnelles, fichiers, APIs)
– Jointures entre sources : liens et associations entre données issues de systèmes différents
– Alimentation en Insert/Update : stratégies d’insertion et de mise à jour des données cibles
**Exemples d’activités pratiques :**
– Configuration de connexions vers plusieurs bases de données
– Mise en place d’un flux d’alimentation avec gestion Insert/Update
Manipulation et transformation des flux de données
– Tri et ordonnancement : classement ascendant ou descendant des enregistrements d’un flux
– Dédoublement et filtrage : séparation d’un flux en sous-ensembles selon des critères métier
– Extraction de champs : récupération d’informations à partir de chaînes de caractères
– Remplacement et calculs : substitution de valeurs et opérations arithmétiques sur les données du flux
– Produit cartésien et jointures hétérogènes : croisement de données issues de sources différentes
– Comparaison de flux : détection de différences entre deux jeux de données
**Exemples d’activités pratiques :**
– Transformation d’un flux brut : tri, dédoublement et filtrage selon des règles métier
– Jointure de données issues de deux sources hétérogènes avec comparaison des résultats
Enrichissement des flux et gestion des variables
– Génération de logs : traçabilité des opérations et suivi de l’exécution des flux
– Variables et paramètres : création et récupération de variables (dates, numériques, alphanumériques) pour dynamiser les traitements
– Résultat de flux : exploitation de la sortie d’un pipeline dans un workflow ou un autre pipeline
– Propriétés d’ordonnancement : configuration des propriétés d’un flux et de son orchestrateur
**Exemples d’activités pratiques :**
– Paramétrage dynamique d’un pipeline à l’aide de variables de dates et de chemins
– Chaînage de deux pipelines en exploitant le résultat du premier comme entrée du second
Itérations et boucles
– Problématiques d’itération : cas d’usage nécessitant un traitement répétitif sur des jeux de données
– Boucles paramétrées : utilisation du composant « Copie lignes vers résultat » pour transmettre des données entre itérations
– Boucles avec récupération : combinaison des composants « Copie lignes vers résultat » et « Récupération lignes depuis le résultat » pour des traitements par lots
**Exemples d’activités pratiques :**
– Mise en place d’une boucle traitant un ensemble de fichiers de manière itérative
– Construction d’un workflow itératif avec passage de paramètres entre chaque tour de boucle
Exploitation, automatisation et mise en production
– Gestion des erreurs : détection, capture et traitement des erreurs dans les pipelines et workflows
– Débogage et alertes : analyse des traces d’exécution et mise en place de notifications en cas d’anomalie
– Parallélisation : exécution simultanée de plusieurs flux pour optimiser les temps de traitement
– Import/export des développements : portabilité des pipelines et workflows entre environnements
– Automatisation des tâches : planification et déclenchement automatique des traitements
– Documentation et normes : bonnes pratiques de nommage, commentaires et gestion des reprises sur erreur
**Exemples d’activités pratiques :**
– Exécution parallèle de plusieurs flux de données avec gestion des erreurs
– Automatisation d’un workflow complet avec planification et alertes en cas d’échec
Nos autres formations en SGBD (Systèmes de Gestion de Base de Données) .
Formation Administration des solutions Microsoft Azure SQL (DP-300)
Formation Apache Hop : orchestrer et automatiser vos flux de données ETL
Formation Bases de données : l’essentiel
Formation Bases de données NoSQL : introduction, enjeux et panorama des solutions
Formation Cassandra
Formation HBase : mise en œuvre et administration
A travers sa Charte Engagement Qualité, Sparks s’engage à tout mettre en œuvre pour que chaque session de formation soit un succès et que votre satisfaction soit totale.
