Formation/Cours

Logo UCL monochrome

Big Data

Etablissement : ECOLE DU NUMERIQUE

Langue : Français

Période : S3

Connaissance de base en Algèbre Linéaire

Connaissance de base en programmation : Terminal/Bash, SQL, Python

Cette formation a pour but de vous familiariser à l’univers du Big Data à travers la compréhension des enjeux qu’il permet de résoudre, les concepts méthodologiques et technologiques qui lui sont propres.

Lors de cette formation, vous apprendrez à déployer une infrastructure Big Data, à réaliser un ETL et de modèles de machine learning sur une volumétrie importante de données de façon distribuées et à utiliser des framework de calcul distribué sur ces données.

1 – Les enjeux et les concepts du Big Data

– La réalité économique et l’histoire du Big Data

  • Les enjeux du Big Data
  • Les 3 V du Big Data
  • Les chiffres clés

– Les concepts fondamentaux du Big Data

  • Diviser (et distribuer) pour régner
  • Le paradigme Map Reduce

2 – Les technologies du Big Data

– Le Framework Hadoop : Architecture et composants

  • Hadoop MapReduce
  • HDFS

– Les principales distributions Hadoop du marché (Cloudera, MapR, Hortonworks, AWS)

– EMR: Le cluster Big Data d’Amazon

– L’ecosystème Hadoop (HUE, Oozie, …)

TD/TP : Installation d’une plateforme Big Data Hadoop et réalisation d’un WordCount en Map Reduce

3- Le NoSQL & Architecture Big Data


– Les familles NoSQL
– Le théorème de CAP

4 – Spark

– Qu’est-ce que Spark ?

– Les modules de Spark

– Les grands concepts (RDD, DataFrame, DAG, …)

– Spark UI

TD/TP: Spark Dataframe + SQL library (API python)

5 – La Data Science


– Courte Introduction à la Data Science
– Spark Streaming

Cours/TP: MLlib Machine Learning Preprocessing
Cours/TP: Machine Learning avec Spark
TD/TP: Spark Streaming
Cours/TP: Case study Banking