Le Data Mining (fouille de données) est un ensemble de méthodes génériques pour extraire d'une masse de données de l'information pertinente. Ces méthodes peuvent être basées sur des outils de statistique exploratoire combinés avec des outils de machine learning (apprentissage automatique), que nous étudierons dans ce cours.
Le cours sera illustré de TPs effectué avec la langage Python. Les séances de TPs seront effectuées par Dorian Baudry.
Pour les TPs, nous recommandons l'installation d'Anaconda et la réalisation d'un jupyter notebook. Vous pouvez suivre les instructions données ici pour l'installation et la prise en mains de ces outils.
- Cours 1: Introduction à l'apprentissage supervisé. Algorithme des k plus proches voisins.
- Cours 2: Classification optimale et méthodes d'apprentissage que l'on peut en déduire. Notebook illustratif.
- TP 1: Prise en mains de Python, Classifieur des k-plus proches voisins. Code.
- Cours 3: Régression linéaire, Régression logistique. Notebook illustratif.
- TP2: Méthodes de régression, sélection de variables.Code.
- Cours 4: Arbres de décision.
- Cours 5: SVM linéaires.
- TP3: Arbres de décision, SVM.
- Cours 6: SVM non linéaires.
- Cours 7: Apprentissage non supervisé. k-means, clustering hiérarchique.
- TP4: Apprentissage non supervisé.
- TP5: TP final.
Quelques sujets des années précédents: Examen 2017. Rattrapage 2017. Examen 2018. Rattrapage 2018. Examen 2019. Rattrapage 2019.
Quelques références
- Introduction au Machine Learning, Chloé-Agathe Azencott. Le livre est disponible en ligne.
- An Introduction to Statistical Learning, with applications in R. James, Witten, Hastie et Tibshirani. Le livre est disponible sur cette page web.
- The Elements of
Statistical Learning:
Data Mining, Inference, and Prediction. Hastie, Tibshirani et Friedman (disponible en ligne ici)
- Data Mining et statistique décisionnelle. Stéphane Tufféry
- Le site Wikistats
- Le cours en ligne de Machine Learning de Andrew Ng sur Coursera
- Kaggle, une plateforme de Data Science où vous trouverez de nombreux examples de jeux de données et d'études de ceux-ci (sous R et Python)