Formation/Cours

Logo UCL monochrome

Natural Language Processing

Etablissement : ECOLE DU NUMERIQUE

Langue : Français

Période : S3

Avoir suivi le cours NLP 1 du Master 1

Ce module est une suite du module NLP dispensé en Master 1 où l’aspect algorithmique était davantage enseigné avec la mise en œuvre de systèmes tels que la reconnaissance d’entités nommées, l’identification des parts of speech, ou encore l’analyse de sentiments à l’aide d’algorithmes de machine learning.
Avec l’apparition de ChatGPT en 2023, il est important de comprendre comment cette architecture a vu le jour.

Dans cette continuité, ce module vise à approfondir non seulement les techniques utilisées pour créer de tels systèmes, mais également la manière de les contextualiser dans des environnements complexes.

L’objectif final est de doter les étudiants des compétences nécessaires pour concevoir, adapter et évaluer des systèmes avancés de traitement du langage naturel, tout en étant conscients des implications éthiques et des limites de ces technologies.

Les objectifs sont

– La compréhension des architectures NLP (avantages, inconvénients)

– Comprendre les liens historiques liant ces architectures

– Être en mesure de faire un choix architectural face à une situation donnée

Vectorisation des mots et des textes :

  • Rappels de Master 1

    • Bag of Words
    • Term frequency inverse document frequency

  • Word2Vec

    • Similarité sémantique
    • Compréhension du context
    • Analogie et relation
    • Architecture

      • CBOW
      • SKIP-GRAM
      • Avantages et inconvénients des architectures

  • Fast Text
  • GLOVE

Architectures récurrentes

  • RNN

    • Formulation d’une fonction récurrente
    • Représentation d’un RNN
    • Rôle de l’état caché
    • Fonctionnement du RNN
    • La disparition du gradient
    • Quels sont les inconvénients du RNN ?

  • LSTM (Long Short Term Memory)

    • Composition d’une cellule LSTM
    • Rôle de la mémoire à court terme
    • LSTM et la notion de gradient

      • Disparition du gradient
      • Explosion du gradient

    • Mécanisme d’apprentissage

      • Phase de propagation
      • Phase de rétropropagation

  • GRU (Gated Recurrent Unit)

    • GRU vs LSTM
    • Quand utiliser l’architecture LSTM ou GRU

  • BI-LSTM

    • Lecture Bi-directionnelle
    • Comment cela fonctionne ?

  • BI-LSTM-CRF

    • CRF (Conditional random fields) : Rappel de M1
    • Architecture BI-LSTM-CRF

      • Named entity recognition et CRF
      • Named entity recognition et RNN
      • Named entity recognition et LSTM
      • Named entity recognition et BI-LSTM
      • Named entity recognition et BI-LSTM-CRF

  • Sequence to Sequence (SEQ2SEQ)

    • Fonctionnement
    • Notions d’encodeur et de décodeurs
    • Utilisation de tokens spécifiques
    • Les phases d’apprentissage

Architecture Transformer

  • Self attention

    • Etapes du mécanisme
    • Calcul des scores d’attention
    • Conversion des scores en probabilités
    • Pondération avec les vecteurs V

  • L’encodeur

    • Multi-head attention
    • FeedForward
    • Positional encoding
    • La couche Add & Norm
    • Vue d’ensemble de l’encodeur

  • Le décodeur

    • Rôle et fonctionnement
    • Vectorisation de l’output
    • Masked multi-head attention
    • Multi-head attention
    • Feed Forward et Add & Norm
    • Les couches Linear et softmax
    • Vue d’ensemble du décodeur

  • Vue d’ensemble de l’architecture transformer

Architecture BERT

  • Pre- training et fine tuning
  • BERT et le Pre-training

    • Vectorisation des données d’entrée
    • Stratégies de pré-training

      • Qu’est-ce que le « language modeling » ?
      • Masked Language Modeling
      • Next Sentence prediction

  • BERT et le fine tuning

    • Exemples de fine tuning
    • Comment cela fonctionne ?

  • BERT, langages et spécialisations

    • BERT et les langues
    • BERT amélioré
    • BERT et les spécialisations fonctionnelles

Architectures GPT

  • GPT vs BERT