Formation Apache Hop : orchestrer et automatiser vos flux de données ETL.
Score de satisfaction : 4.92/5
Durée :
3 jours
Distanciel et 16 villes en France
numero vert : 0805 950 800 (service et appel gratuits)
à partir de
2400 €HT
98% d'avis positifs* participants

Référence :
SF34308
Durée :
3 jours

En présentiel ou distanciel


  • 21 heures de formation
  • Exercices pratiques
  • Prise en charge OPCO possible
Vous souhaitez personnaliser cette formation ?
  • En entreprise ou à distance
  • Cadrage pédagogique gratuit
  • Programme de formation sur mesure
  • Formateur expert dédié
  • Prise en charge OPCO possible

Formation Apache Hop : orchestrer et automatiser vos flux de données ETL.

Maîtrisez Apache Hop pour extraire, transformer et charger vos données depuis des sources hétérogènes grâce à des pipelines visuels et des workflows automatisés.

Apache Hop est une plateforme ETL open source qui permet d'orchestrer des flux de données entre systèmes hétérogènes. Cette formation de 3 jours vous accompagne de la prise en main de l'outil jusqu'à son exploitation en production. Vous apprendrez à concevoir des pipelines de transformation, configurer les accès aux sources et cibles de données, manipuler et enrichir vos flux, puis automatiser et superviser leur exécution. L'approche progressive alterne théorie et travaux pratiques pour une montée en compétences immédiate sur l'outil.

Objectifs pédagogiques.

1Identifier le positionnement d'Apache Hop dans l'écosystème ETL et configurer son environnement de travail

2Concevoir des pipelines de transformation et des workflows d'orchestration

3Configurer les connexions aux sources et cibles de données hétérogènes

4Appliquer les opérations de manipulation de flux : tri, filtrage, jointure, calculs et comparaison

5Utiliser les variables et les boucles pour enrichir et itérer sur les flux de données

6Diagnostiquer les erreurs, paralléliser les exécutions et automatiser les traitements en production

Prérequis : - Maîtrise du langage SQL (requêtes, jointures, types de données)- Connaissance des concepts de bases de données relationnelles
Partagez cette formation

Programme de formation Apache Hop : orchestrer et automatiser vos flux de données ETL.

Découverte d’Apache Hop et mise en place de l’environnement

– Positionnement d’Apache Hop : outil ETL open source et son rôle dans l’écosystème d’intégration de données
– Architecture de la plateforme : distinction entre pipelines (transformation) et workflows (orchestration)
– Historique et communauté : origines du projet, évolution depuis Kettle/Pentaho et gouvernance Apache
– Installation et configuration : mise en place de l’environnement de développement et premiers repères dans l’interface

**Exemples d’activités pratiques :**
– Installation d’Apache Hop et configuration d’un premier projet
– Navigation dans l’interface graphique et exploration des composants disponibles

Conception de pipelines et workflows

– Pipelines de transformation : création d’un flux de données de bout en bout, de la source à la cible
– Workflows d’orchestration : enchaînement et ordonnancement des pipelines pour automatiser un processus complet
– Exécution et supervision : lancement d’un pipeline et d’un workflow, lecture des résultats d’exécution
– Gestion des flux de données : appréhender le parcours des données à travers les étapes de transformation

**Exemples d’activités pratiques :**
– Conception d’un pipeline simple d’extraction et de chargement de données
– Élaboration d’un workflow orchestrant plusieurs pipelines séquentiels

Connexion aux sources et cibles de données

– Métadonnées de connexion : configuration et gestion centralisée des accès aux bases de données
– Connecteurs source et cible : panorama des systèmes supportés (bases relationnelles, fichiers, APIs)
– Jointures entre sources : liens et associations entre données issues de systèmes différents
– Alimentation en Insert/Update : stratégies d’insertion et de mise à jour des données cibles

**Exemples d’activités pratiques :**
– Configuration de connexions vers plusieurs bases de données
– Mise en place d’un flux d’alimentation avec gestion Insert/Update

Manipulation et transformation des flux de données

– Tri et ordonnancement : classement ascendant ou descendant des enregistrements d’un flux
– Dédoublement et filtrage : séparation d’un flux en sous-ensembles selon des critères métier
– Extraction de champs : récupération d’informations à partir de chaînes de caractères
– Remplacement et calculs : substitution de valeurs et opérations arithmétiques sur les données du flux
– Produit cartésien et jointures hétérogènes : croisement de données issues de sources différentes
– Comparaison de flux : détection de différences entre deux jeux de données

**Exemples d’activités pratiques :**
– Transformation d’un flux brut : tri, dédoublement et filtrage selon des règles métier
– Jointure de données issues de deux sources hétérogènes avec comparaison des résultats

Enrichissement des flux et gestion des variables

– Génération de logs : traçabilité des opérations et suivi de l’exécution des flux
– Variables et paramètres : création et récupération de variables (dates, numériques, alphanumériques) pour dynamiser les traitements
– Résultat de flux : exploitation de la sortie d’un pipeline dans un workflow ou un autre pipeline
– Propriétés d’ordonnancement : configuration des propriétés d’un flux et de son orchestrateur

**Exemples d’activités pratiques :**
– Paramétrage dynamique d’un pipeline à l’aide de variables de dates et de chemins
– Chaînage de deux pipelines en exploitant le résultat du premier comme entrée du second

Itérations et boucles

– Problématiques d’itération : cas d’usage nécessitant un traitement répétitif sur des jeux de données
– Boucles paramétrées : utilisation du composant « Copie lignes vers résultat » pour transmettre des données entre itérations
– Boucles avec récupération : combinaison des composants « Copie lignes vers résultat » et « Récupération lignes depuis le résultat » pour des traitements par lots

**Exemples d’activités pratiques :**
– Mise en place d’une boucle traitant un ensemble de fichiers de manière itérative
– Construction d’un workflow itératif avec passage de paramètres entre chaque tour de boucle

Exploitation, automatisation et mise en production

– Gestion des erreurs : détection, capture et traitement des erreurs dans les pipelines et workflows
– Débogage et alertes : analyse des traces d’exécution et mise en place de notifications en cas d’anomalie
– Parallélisation : exécution simultanée de plusieurs flux pour optimiser les temps de traitement
– Import/export des développements : portabilité des pipelines et workflows entre environnements
– Automatisation des tâches : planification et déclenchement automatique des traitements
– Documentation et normes : bonnes pratiques de nommage, commentaires et gestion des reprises sur erreur

**Exemples d’activités pratiques :**
– Exécution parallèle de plusieurs flux de données avec gestion des erreurs
– Automatisation d’un workflow complet avec planification et alertes en cas d’échec

Notre charte qualité et éthique.

A travers sa Charte Engagement Qualité, Sparks s’engage à tout mettre en œuvre pour que chaque session de formation soit un succès et que votre satisfaction soit totale.

Amandine de Sparks
Des chiffres étincelants.
20 années
à vos côtés
+ de 1000
sujets de formation
8702
stagiaires formés en 2024
252
formateurs actifs en 2024
97,9%
de stagiaires satisfaits
23793
heures de formation réalisées en 2024
HAUT