Data / Scraping

Python (BeautifulSoup, Selenium), PHP, MySQL, cronjobs, 100+ fichiers parseurs

Infrastructure de scraping avec 50+ parseurs Python/PHP, BeautifulSoup et Selenium, stockage MySQL, planification cron, gestion de proxies.

L'infrastructure repose sur plus de 50 parseurs developpes en Python (BeautifulSoup pour le HTML statique) et PHP. Selenium intervient pour les sites qui chargent leurs prix dynamiquement en JavaScript. Chaque parseur est specialise pour un site cible et gere les specificites de sa structure : pagination, lazy loading, variantes produits.

La gestion de proxies est l'element invisible mais crucial du systeme. Envoyer des centaines de requetes depuis la meme IP declenche les protections anti-bot. Un pool de proxies rotatifs repartit les requetes et un systeme de detection automatique identifie les proxies bloques pour les remplacer sans interruption.

Les taches cron orchestrent les cycles de collecte avec des frequences adaptees a chaque site (certains changent leurs prix quotidiennement, d'autres hebdomadairement). MySQL stocke l'historique des prix avec horodatage pour le suivi des tendances. Des scripts de nettoyage gerent les faux positifs et les anomalies de formatage.

Architecture technique

50+ parseurs Python (BeautifulSoup) pour extraction de donnees structurees.

Selenium pour sites avec rendu JavaScript dynamique.

Parseurs PHP complementaires executes en cronjobs.

Stockage MySQL pour produits, prix, historique et alertes.

Gestion de proxies et rotation pour eviter les blocages.

100+ fichiers parseurs dans les repertoires py_disabled/ et php_7771/.

Points techniques

Python

BeautifulSoup + Selenium

Cronjobs

Execution planifiee

MySQL

Historique prix et stock