
Acquisition et Nettoyage des données
Etablissement : ECOLE DU NUMERIQUE
Langue : Français
Formation(s) dans laquelle/lesquelles le cours apparait :
- MASTER DATA ET IA [ECTS : 3,00]
Période : S2
Bonnes connaissances des bases de données relationnelles et du SQL.
Avoir une solide compréhension de la programmation en Python
Avoir des connaissances de base en statistiques descriptives
Comprendre l’importance des principes d’acquisition et de nettoyage des données dans un projet de Data Science.
Apprendre à extraire des données à partir du web.
Apprendre à détecter, diagnostiquer et gérer les problèmes de qualité des données.
Assurer l’intégrité et la cohérence des données provenant de plusieurs sources.
Appliquer des techniques de visualisation des données.
Introduction à l’Acquisition et à l’Importance des Données
- Définitions des concepts de base
- Intérêt de l’acquisition des données
- Cycle de vie d’un projet de Data Science
- Types, formats et sources de données
- Principes et bonnes pratiques pour l’extraction de données web
- Outils pour l’extraction de données à partir du web, y compris l’utilisation des API REST
Apprendre à détecter et diagnostiquer les problèmes de qualité des données
- Manipulation et extraction de données depuis des fichiers
- Gestion des données manquantes et des valeurs aberrantes
- Gestion des doublons et des erreurs
- Application de techniques avancées de normalisation et de transformation
- Assurance de l’intégrité et de la cohérence des données provenant de différentes sources
Exploration et Visualisation des Données
- Statistiques descriptives : distribution, variance, corrélation, etc.
- Visualisation avec Matplotlib et Seaborn : histogrammes, boxplots, heatmaps, etc.
- Représentation des relations complexes sous forme d’arbres, de graphes, etc.
- Création de Dashboards : en Python et avec Power BI