← Retour au portfolio

Pipeline Big Data - Croisement Données Financières

Python/PySpark • Big Data • Systèmes Financiers

ℹ️ Informations importantes
Toutes les données sont fictives. Les noms de colonnes/fichiers sont inventés. Ce projet démontre l'approche technique pour le traitement de jeux de données financiers à grande échelle.

🎯 Contexte & Objectif

Challenge : Multiples applications internes générant des fichiers de dettes et crédits sur différentes zones, sans vue centralisée pour la détection d'anomalies ou l'analyse nationale.

Solution : Conception d'un pipeline Python/PySpark pour collecter, fusionner, dédupliquer, enrichir et traiter des millions de transactions depuis 6+ sources vers un jeu de données unifié pour dashboards BI.

🔄 Workflow du Pipeline

1
Collecte Données
2
Fusion & Dédup
3
Enrichissement
4
Traitement PySpark

Partie 1 : Collecte & Préparation

Chargement de 6 fichiers (3 dettes + 3 crédits) de différentes applications, marquage de la présence utilisateur dans chaque source et renommage des colonnes pour éviter les collisions.

Part 1 Code

Partie 2 : Croisement & Agrégation

Fusion de toutes les sources par User_Id, création d'indicateurs multi-sources et agrégation des champs financiers clés (montants, statuts) avec logique de déduplication intelligente.

Part 2 Code

Partie 3 : Enrichissement & Export BI

Jointure avec fichiers de référence (Utilisateur, Entreprise), harmonisation des types, traduction des noms de champs en anglais et export du dataset final prêt pour intégration BI.

Part 3 Code

Partie 4 : PySpark pour Volumes Massifs

Utilisation de PySpark pour traiter les gros fichiers statistiques (trop volumineux pour pandas), réalisation de jointures distribuées, calculs window (total dettes/crédits par utilisateur) et catégorisation dynamique.

Part 4 Code 1 Part 4 Code 2

Opérations Clés :

✅ Résultats & Impact

🛠️ Stack : Python • PySpark • Pandas • CSV • Excel

Besoin d'un Pipeline Data ?

Je peux concevoir des pipelines Python/PySpark scalables pour traiter, enrichir et consolider de gros volumes de données provenant de sources multiples.

Me Contacter