Parseurs Python (regex, analyse syntaxique, nettoyage de corpus) et scripts Bash d'orchestration pour pipelines ETL. Modules C++ integres via bindings Python pour les traitements a haute performance. Automatisation bout-en-bout : extraction, nettoyage, validation, formatage.
Les parseurs Python utilisent des combinaisons de regex et d'analyse syntaxique pour extraire les donnees structurees et semi-structurees depuis des formats varies (CSV, JSON, XML, texte libre, formats proprietaires). Chaque parseur est specialise pour un type de source et produire un format intermediaire normalise.
Les traitements haute performance sont delegues a des modules C++ integres via des bindings Python (pybind11). Les operations de tokenisation, de calcul de similarite et de deduplication sur des millions d'enregistrements beneficient de la vitesse du C++ tout en restant pilotables depuis les scripts Python.
Les scripts Bash orchestrent les pipelines bout-en-bout : declenchement des parseurs dans le bon ordre, gestion des dependances entre etapes, logging, gestion d'erreurs et reprise automatique en cas d'echec partiel. Chaque execution produit un rapport detaille avec statistiques de qualite des donnees traitees.
Parseurs Python pour extraction et transformation de donnees structurees.
Scripts Bash pour automatisation de workflows et planification.
Integration avec composants C++ pour traitement haute performance.
Pipelines ETL pour preparation de donnees modeles IA.
Validation de donnees et controle qualite automatise.
Projet confidentiel (R&D intelligence artificielle).
Extraction et transformation
Automatisation scripts
Traitement haute performance
Brief, repo, ou appel rapide - on s'adapte.