1. Accueil
  2. Formations
  3. Mastère Spécialisé ®
  4. Expert Big Data Engineer

Programme détaillé du Mastère Spécialisé® Expert Big Data Engineer

UE 0 : Socle théorique pour la data science
Durée : 30 H / Crédits : 0 ECTS

Objectifs :
  • Voir ou revoir les modèles usuels en science des données
  • Voir ou revoir les approches usuelles de traitement des valeurs manquantes ou atypiques
  • Pratiquer Python et les SGBD
Cours :
  • 0.1 Modèles pour la data science
  • 0.2 Valeurs Manquantes et Valeurs Atypiques
  • 0.3 Python et SGBD
UE 1 : Introduction au Big Data
Durée : 30 H / Crédits : 3 ECTS

Objectifs :
  • Connaître l’écosystème du Big Data et les métiers
  • Faire le diagnostic data d’une problématique
  • Manager un projet data
Cours :
  • 1.1 Présentation de l’écosystème du Big Data
  • 1.2 Transition digitale et changement de paradigme en entreprise
  • 1.3 Conception et Management de projets data
UE 2 : Données d’entreprise :: Gouvernance et stratégies
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Faire l’état des lieux dans un projet data pour identifier les risques inhérents au stockage et aux traitements des Big Data
  • Définir une politique de gouvernance respectueuse des lois et des standards de sécurité
Cours :
  • 2.1 : Droit des données et Aspects éthiques
  • 2.2 : Cloud computing et sécurité
  • 2.3 : Analyse de risque liée à la donnée
UE 3 : Stockage de données réutilisables
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Proposer, compte tenu des spécificités du contexte, une stratégie de stockage des données réutilisables en fonction de leur valeur intrinsèque et des besoins
  • S’initier à la notion de données réutilisables par l’utilisation d’outil BI
Cours :
  • 3.1 : Entrepôts de données opérationnelles
  • 3.2 : Open Data - enjeux et stratégie
  • 3.3 : Bases de données actionnables
UE 4 : MLOpset IA générative
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
Le MLOps

  • Comprendre le métier et les enjeux d'un MLOps.
  • Application d'un use case avec MLflow.
  • Intérêts : mieux gérer le cycle de vie des modèles  (Versioning et stockage des données et du modèle, historique, traçabilité, monitoring, etc.)
Serving et déploiement de modèles
  • Utiliser une APIs de serving de modèle pour rendre accessible l'inférence d'un modèle
  • Savoir containeriser des modèles de Machine Learning avec Docker et les déployer sur un cluster Kubernetes
  • Rendre accessible et à l'échelle l'inférence des modèles entrainés et déployer de façon scalable des modèles de ML
L'IA Générative
  • Comprendre ce qu’est l’IA générative et ses cas d’usages
  • Présentation du LLMOps et des outils utilisés pour mettre en production un LLM
  • Comprendre le RAG et les VectorDB
  • Comprendre comment construire son chatbot
  • Prompt engineering
Cours :
  • 4.1 MLIAG1 – Le MLOps
  • 4.2 MLIAG2 - Serving et déploiement de modèles
  • 4.3 MLIAG3 – L’IA Générative
UE 5 : Conception et gestion de bases de données avancées
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Modéliser et concevoir des bases de données répondant aux trois dimensions du Big Data : volume, vélocité, variété tout en prenant en compte les besoins
  • Choisir les bases de données selon la problématique et le besoin en entreprise
  • Dimensionner des ressources pour du stockage distribué
Cours :
  • 5.1 : SQL vs NoSQL : présentation générale
  • 5.2 : Bases de données orientées colonne (BigTable, HyperTable, etc.)
  • 5.3 : Solutions Open Source pour la gestion de données massives
UE 6 : Langages et outils de programmation
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Programmer en R et dans un autre langage (tel que Python ou Scala)
  • Mettre en œuvre les phases d’un projet Big Data sur R et Python (depuis la collecte jusqu’à la visualisation)
Cours :
  • 6.1 : Programmation R pour l’analyse décisionnelle en entreprise
  • 6.2 : Autres langages de programmation
  • 6.3 : Indexation et Systèmes de Fichiers 
UE 7 : Apprentissage automatique
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Introduire les concepts de l’apprentissage automatique et des algorithmes d’intelligence artificielle 
  • Comprendre et modéliser des problèmes de régression et de classification
  • Conception et déploiement d’une chaîne de traitement de données ainsi que son intégration continue pour résoudre des problèmes concrets et complexes (DevOps)
Cours : 
  • 7.1 : Fondamentaux pour l’apprentissage automatique
  • 7.2 : Apprentissage et devops
UE 8 : Intelligence artificielle en grande dimension
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Mettre en œuvre des algorithmes d’intelligence artificielle pour le traitement de grandes masses de données
  • Programmer et prendre en compte des situations émergentes et la complexité de certaines problématiques
Cours :
  • 8.1 Introduction au Data mining
  • 8.2 Machine Learning avancée pour la production d’indicateurs
  • 8.3 Deep Learning et applications
UE 9 : Traitements Distribués
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Différencier les compromis qui peuvent être faits entre le mode centralisé et le mode décentralisé
  • Reconnaître les cas qui peuvent être implémentés avec Hadoop
  • Dimensionner les ressources et mettre en œuvre une architecture de calcul distribué
Cours :
  • 9.1 : Résolution distribuée des problèmes complexes
  • 9.2 : Parallélisations en haute dimension
  • 9.3 : Hadoop & MapReduce par la pratique
UE 10 : Information Retrieval (Extraction d’Information)
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Connaître le rôle et utiliser des graphes dans la modélisation
  • Utiliser des outils de modélisation en grande dimension
  • Savoir enrichir les données et créer des indicateurs
  • Connaître la modélisation et la représentation des réseaux sociaux
Cours :
  • 10.1 : Knowledge discovery
  • 10.2 : Outils pour la visualisation de tendances en grandes dimensions
  • 10.3 : Enrichissement de données et calcul d’indicateurs
  • 10.4 : Interconnexion et visualisation de graphes sociaux distribués
UE 11 : Visualisation Dynamique
Durée : 35 H / Crédits : 4 ECTS

Objectifs :
  • Appréhender la variabilité intrinsèque des données cibles pour les restituer lors de la visualisation
  • Mettre en œuvre des projets de restitution de donnée complexes (dynamiques en temps, espace, etc.)
Cours :
  • 11.1 : Visualisation interactive
  • 11.2 : Analyse et visualisation spatio-temporelles
  • 11.3 : Scalable Multimedia Analytics
UE FIL ROUGE
Durée : 15 H / Crédits : 2 ECTS

Objectifs :
  • Savoir analyser un problème appartenant à un domaine non familier et utiliser les technologies de la Data Science pour le résoudre
  • Avoir expérimenté tous les aspects de la Data Science, de la récupération des données à la présentation des résultats au client, en passant par le nettoyage et la modélisation des données
  • Être familiarisé aux données “de vie réelle” et à la prise en compte et l’intégration de leurs aléas dans un projet de Data Science (formatage, data augmentation, choix de l’algorithme, ...)
  • Développer son autonomie et sa capacité à approfondir des notions sans aide extérieure
  • Savoir évaluer, synthétiser, vulgariser son travail pour le présenter à des tiers spécialisés dans d’autres disciplines
Cours :
  • Analyse RGPD, analyse de risques, sécurisation et anonymisation des données 
  • Compréhension des données, data visualisation, données manquantes 
  • Nettoyage de données et contrôle qualité 
  • Analyse exploratoire et réduction de dimension 
  • Choix du modèle, des paramètres d’apprentissage, des métriques d’évaluation et préparation de la cohorte
  • Évaluation, synthèse, critique des résultats et vulgarisation
mise à jour le 07 novembre 2025