Python/PySpark • Big Data • Systèmes Financiers
Challenge : Multiples applications internes générant des fichiers de dettes et crédits sur différentes zones, sans vue centralisée pour la détection d'anomalies ou l'analyse nationale.
Solution : Conception d'un pipeline Python/PySpark pour collecter, fusionner, dédupliquer, enrichir et traiter des millions de transactions depuis 6+ sources vers un jeu de données unifié pour dashboards BI.
Chargement de 6 fichiers (3 dettes + 3 crédits) de différentes applications, marquage de la présence utilisateur dans chaque source et renommage des colonnes pour éviter les collisions.
Fusion de toutes les sources par User_Id, création d'indicateurs multi-sources et agrégation des champs financiers clés (montants, statuts) avec logique de déduplication intelligente.
Jointure avec fichiers de référence (Utilisateur, Entreprise), harmonisation des types, traduction des noms de champs en anglais et export du dataset final prêt pour intégration BI.
Utilisation de PySpark pour traiter les gros fichiers statistiques (trop volumineux pour pandas), réalisation de jointures distribuées, calculs window (total dettes/crédits par utilisateur) et catégorisation dynamique.
Opérations Clés :
Je peux concevoir des pipelines Python/PySpark scalables pour traiter, enrichir et consolider de gros volumes de données provenant de sources multiples.
Me Contacter