Tous les projets
C
IA / Data

Python, Bash, C++, pipelines de traitement de donnees, automatisation

Parseurs Python (regex, analyse syntaxique, nettoyage de corpus) et scripts Bash d'orchestration pour pipelines ETL. Modules C++ integres via bindings Python pour les traitements a haute performance. Automatisation bout-en-bout : extraction, nettoyage, validation, formatage.

Python Principal
Bash Scripts
IA Domaine
Dev Role

Les parseurs Python utilisent des combinaisons de regex et d'analyse syntaxique pour extraire les donnees structurees et semi-structurees depuis des formats varies (CSV, JSON, XML, texte libre, formats proprietaires). Chaque parseur est specialise pour un type de source et produire un format intermediaire normalise.

Les traitements haute performance sont delegues a des modules C++ integres via des bindings Python (pybind11). Les operations de tokenisation, de calcul de similarite et de deduplication sur des millions d'enregistrements beneficient de la vitesse du C++ tout en restant pilotables depuis les scripts Python.

Les scripts Bash orchestrent les pipelines bout-en-bout : declenchement des parseurs dans le bon ordre, gestion des dependances entre etapes, logging, gestion d'erreurs et reprise automatique en cas d'echec partiel. Chaque execution produit un rapport detaille avec statistiques de qualite des donnees traitees.

Architecture technique

Parseurs Python pour extraction et transformation de donnees structurees.

Scripts Bash pour automatisation de workflows et planification.

Integration avec composants C++ pour traitement haute performance.

Pipelines ETL pour preparation de donnees modeles IA.

Validation de donnees et controle qualite automatise.

Projet confidentiel (R&D intelligence artificielle).

Points techniques

Python parseurs

Extraction et transformation

Bash

Automatisation scripts

C++

Traitement haute performance

Stack technique

Python
Bash
C++
Role Backend Developer
Duree 2020-2021
Engagement Contrat technique (Tier C)

Un projet technique similaire ?

Brief, repo, ou appel rapide - on s'adapte.