![](https://ecampus.paris-saclay.fr/pluginfile.php/458559/course/overviewfiles/rawcoverimage.gif)
Cette UC débutera par une présentation des données "-omiques" et de la façon dont elles ont été acquises. Nous présenterons ensuite les limites du modèle linéaire standard ainsi que des méthodes régularisées pour faire de la sélection de variables ou de la réduction de dimension dans les modèles linéaires en grande dimension (Lasso, Ridge, Elasticnet, PLS). Les algorithmes utilisés pour mettre en place ces méthodes et les techniques usuelles de choix de paramètres de régularisation seront également présentées (cross-validation, stability selection) ainsi que le package R glmnet. Nous expliquerons également comment étendre ces méthodes au cas multivarié et nous présenterons la notion de courbes ROC qui permet de comparer les performances de différentes méthodes. Nous présenterons également les arbres de régression et les arbres de modèles. Chaque méthode présentée sera appliquée aux données réelles associées au problème biologique de départ lors de séances en salle informatique à l'aide du logiciel R. Deux séances seront ensuite consacrées à l'interprétation biologique des résultats obtenus par les méthodes statistiques et/ou algorithmiques via la consultation de différentes bases de données. Quatre séances seront enfin réservées à la réalisation d'un travail personnel en binôme qui permettra aux étudiants d'appliquer les méthodes vues en cours à des données associées à de vraies questions biologiques et de préparer la restitution orale qui aura lieu à la fin de l'UC. Cette UC s'achèvera par les présentations orales des étudiants en binôme.
- Enseignant: Antoine CORNUEJOLS
- Enseignant: Gwendal Cueff
- Enseignant: Céline LÉVY-LEDUC
- Enseignant: Sarah OUADAH
- Enseignant: Loïc RAJJOU
- Enseignant: Laure SANSONNET
Année: 20/21