Big Data
Etablissement : ECOLE DU NUMERIQUE
Langue : Français
Formation(s) dans laquelle/lesquelles le cours apparait :
- MASTER DATA ET IA [ECTS : 5,00]
Période : S3
Connaissance de base en Algèbre Linéaire
Connaissance de base en programmation : Terminal/Bash, SQL, Python
Cette formation a pour but de vous familiariser à l’univers du Big Data à travers la compréhension des enjeux qu’il permet de résoudre, les concepts méthodologiques et technologiques qui lui sont propres.
Lors de cette formation, vous apprendrez à déployer une infrastructure Big Data, à réaliser un ETL et de modèles de machine learning sur une volumétrie importante de données de façon distribuées et à utiliser des framework de calcul distribué sur ces données.
1 – Les enjeux et les concepts du Big Data
– La réalité économique et l’histoire du Big Data
- Les enjeux du Big Data
- Les 3 V du Big Data
- Les chiffres clés
– Les concepts fondamentaux du Big Data
- Diviser (et distribuer) pour régner
- Le paradigme Map Reduce
2 – Les technologies du Big Data
– Le Framework Hadoop : Architecture et composants
- Hadoop MapReduce
- HDFS
– Les principales distributions Hadoop du marché (Cloudera, MapR, Hortonworks, AWS)
– EMR: Le cluster Big Data d’Amazon
– L’ecosystème Hadoop (HUE, Oozie, …)
TD/TP : Installation d’une plateforme Big Data Hadoop et réalisation d’un WordCount en Map Reduce
3- Le NoSQL & Architecture Big Data
– Les familles NoSQL
– Le théorème de CAP
4 – Spark
– Qu’est-ce que Spark ?
– Les modules de Spark
– Les grands concepts (RDD, DataFrame, DAG, …)
– Spark UI
TD/TP: Spark Dataframe + SQL library (API python)
5 – La Data Science
– Courte Introduction à la Data Science
– Spark Streaming
Cours/TP: MLlib Machine Learning Preprocessing
Cours/TP: Machine Learning avec Spark
TD/TP: Spark Streaming
Cours/TP: Case study Banking