Sciences de la donnée/Data science
Etablissement : ECOLE DU NUMERIQUE
Langue : Anglais
Formation(s) dans laquelle/lesquelles le cours apparait :
- Master UX & Marketing Digital [ECTS : 2,00]
Période : S4
– Les bases de Python (variables, boucles, librairies, manipulation de données, etc.)
– Les méthodes statistiques et mathématiques de base.
– Outils informatique : PC avec Python et Jupyter Notebook
– Comprendre les concepts fondamentaux : les statistiques, les mathématiques,
l’apprentissage automatique, la manipulation de données, la visualisation, etc.
– Maîtriser les outils pour de la science des données : Python, librairies de machine
learning, librairies de manipulation et visualisation de données.
– Utiliser les techniques de nettoyage et de préparation de données.
– Concevoir, évaluer et utiliser des modèles prédictifs d’apprentissage automatique.
– Analyser, interpréter et partager les résultats d’une étude d’apprentissage
automatique.
– Avoir conscience des sujets éthiques autour des données et savoir communiquer les
conclusions d’un projet de science de la donnée.
Cours 1: Introduction à la science des données
– Présentation générale de la science des données et de son importance dans le monde
actuel.
– Les concepts fondamentaux et les différentes étapes du processus de la science des
données
– Exemples d’applications de la science des données dans différents domaines
Cours 2 : Exploration et prétraitement des données
– Les différentes techniques de nettoyage des données : suppression des doublons,
normalisation, encodage des variables catégorielles, etc.
– Les techniques de sélection des caractéristiques les plus importantes
– Les différentes méthodes de division des données en ensembles d’entraînement et de test
TP 1 : Exploration et prétraitement des données
– Utilisation d’un outil de manipulation de données (comme Pandas en Python) pour explorer
un ensemble de données
– Traitement des données manquantes et des valeurs aberrantes
– Visualisation des données à l’aide de graphiques et de diagrammes
– Analyse des tendances et des relations entre les variables
– Application des techniques de nettoyage et de préparation des données à un ensemble de
données réel
Cours 3: Modélisation des données
– Introduction aux principaux algorithmes de modélisation : régression linéaire/logistique,
arbres de décision, clustering, classification (k-means/K-NN), etc.
– Les différentes méthodes de division des données en ensembles d’entraînement et de test
– Les différentes techniques d’évaluation des modèles : validation croisée, métriques de
performance, etc.
TP 2 : Modélisation des données
– Application des techniques de modélisation à un ensemble de données réel
– Évaluation des performances des modèles à l’aide de métriques appropriées
– Comparaison des résultats obtenus avec différents algorithmes de modélisation
Cours 4 : Interprétation et communication des résultats
– Techniques d’interprétation des modèles et d’explication des prédictions
– Présentation des résultats de manière claire et compréhensible
Cours 5 : Introduction au deep learning et textmining
– Le deep learning et les concepts fondamentaux
– Pré-traitement et analyse de données textuelles