Enrolment options

Ce cours propose une introduction aux principales techniques d'apprentissage statistique, supervisé
et non supervisé, utilisées dans l'analyse des données multivariées.
Ces méthodes sont particulièrement adaptées pour des problèmes et applications en sciences du
vivant.
Dans le cadre de l’apprentissage supervisé, qui vise à fournir des outils de modélisation et
d’interprétation de données étiquetées, nous aborderons des méthodes de prédiction et de
classification telles que le modèle linéaire, la régression logistique et la méthode des k plus proches
voisins. Nous apprendrons à ajuster ces modèles aux données et à les utiliser pour faire des
prédiction pour des nouvelles données non étiquetées. Une attention particulière sera portée à
l’évaluation des modèles prédictifs. Nous verrons également comment utiliser les tests statistiques
dans les modèles statistiques pour évaluer la significativité des variables explicatives et guider
l'interprétation des résultats.
Concernant l’apprentissage non supervisé, dont l’objectif est de faciliter l’exploration et la
visualisation des données, le cours couvrira des techniques telles que le clustering (K-moyennes,
classification ascendante hiérarchique) et la réduction de dimension (analyse en composantes
principales). Ces méthodes permettent notamment de mettre en évidence des structures sous-
jacentes dans les données, telles que des groupes homogènes ou des directions principales de
variation.
Les différentes méthodes seront illustrées sur de nombreux exemples de données en sciences du
vivant.
Cette UE comprend des cours magistraux, des travaux dirigés et des travaux pratiques sur le logiciel
R. Une autoformation pour acquérir les bases du langage R est proposée en début de semestre.
L’évaluation de l’UE se compose d’un partiel écrit et d’une soutenance orale d’un projet réalisé en
groupes de trois étudiant·e·s.
Modalités:
ECTS:
Type:
Complexité:
Condition d'accès:
Année: 25/26
Guests cannot access this course. Please log in.