# Le module `pandas`


Le module `pandas` permet de manipuler facilement et efficacement des tableaux de données appelés DataFrames. 
Il est ainsi possible d'automatiser des tâches que l'on ferait avec un tableur (Excel par exemple) et de bénéficier de capacités de calcul dépassant largement celles des tableurs.

In [None]:
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

%matplotlib inline
%config InlineBackend.figure_format = 'retina'
matplotlib.rcParams['savefig.dpi'] = 80

In [None]:
# help(pd.DataFrame)

**Exercice 1 : création d'une `DataFrame`**

> 1. Créez et affichez le tableau ci-dessous en utilisant la colonne "Prénom Nom" comme `index` :
>
>| Prénom Nom        | Naissance  | Décès      | Découverte                  |
>|      ---          |     ---    |     ---    |    ---                      |
>| Marie Curie       | 07/11/1867 | 04/07/1934 | Radioactivité               |
>| Rosalind Franklin | 25/07/1920 | 16/04/1958 | Structure de l'ADN          |
>| Chien-Shiung Wu   | 31/05/1912 | 16/02/1997 | Enrichissement de l'Uranium |
>| Louis Pasteur     | 27/12/1822 | 28/09/1895 | Vaccin contre la rage       |
>| Nikola Tesla      | 10/07/1856 | 07/01/1943 | Courant alternatif          |
>
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html">pd.DataFrame</a> pour créer la DataFrame et <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html">pd.DataFrame.set_index</a> pour  préciser l'index.
></div>

> 2. Afficher le nom et le type de données contenue dans chaque colonne. Que remarquez-vous ?
>
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html">pd.DataFrame.columns</a> 
></div>

> 3. Convertir les données des colonnes "Naissance" et "Décès" en `datetime64`, puis ajouter une colonne contenant l'âge (en années) de chaque scientifique au moment de son décès.
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html">pd.to_datetime</a> pour la conversion, puis <a href="https://stackoverflow.com/questions/18215317/extracting-days-from-a-numpy-timedelta64-value">np.timedelta64</a> pour obtenir l'âge en années au lieu de jours.
></div>

> 4. Classez ces scientifiques chronologiquement en utilisant leurs dates de naissance
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html">pd.DataFrame.sort_values</a>
></div>

> 5. Affichez les élements suivants du tableau :
>
>    `[1,2]`
>
>    `[1:3,2]`
>
>    `["Marie Curie", "Naissance"]`
>
>    `[["Marie Curie","Louis Pasteur"], "Naissance"]`
>
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iat.html">pd.DataFrame.iat</a>, 
    <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html">pd.DataFrame.iloc</a>,
    <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.at.html">pd.DataFrame.at</a> et
    <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html">pd.DataFrame.loc</a>
></div>

**Exercice 2 : Lecture et analyse d'un tableau**

Le module `pandas` est très utile lorsque l'on dispose de données sous forme de fichier `csv` ou `Excel`.

> 1. Charger le fichier "TP09_effectifs-etudiants.csv" dans une `DataFrame` (ce fichier a été récupéré sur `https://www.data.gouv.fr`) puis afficher le résumé de son contenu.
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">pd.read_csv</a> et <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html">pd.DataFrame.info</a>
></div>

> 2. Affichez la taille du tableau, les 2 premières lignes et les 2 dernières lignes
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html">pd.DataFrame.shape</a>,
<a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html">pd.DataFrame.head</a>,
<a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html">pd.DataFrame.tail</a>
></div>

> 2. Affichez les lignes du tableau correspondant à l'UFR de Sciences de l'Université Paris-Saclay en 2022.
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>    Le libellé de l'établîssement et le libellé de la composante à rechercher sont respectivement "UNIVERSITE PARIS-SACLAY" et "UFR SCIENCES"
></div>

> 3. Affichez toutes les années pour lesquelles des données sont disponibles ainsi que tous les types d'établissements présents.
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>    Utilisez <a href="https://numpy.org/doc/stable/reference/generated/numpy.unique.html">np.unique</a> sur la colonne dans laquelle se trouve les années.
></div>

> 4. Tracez l'évolution au fil des années de la proportion de lycéens inscrits dans des établissements public, comparez avec la proportion d'inscrits dans des établissements privés. 

> 5. Créez une nouvelle `DataFrame` contenant le cumul des effectifs (totaux, hommes et femmes) par année et par type d'établissement. Elle doit ressembler à :
>
>| année | catégorie d'établissement  | effectif   | hommes  | femmes  |
>|  ---  |         ---                |     ---    |   ---   |  ---    |
>| 2023  | Écoles vétérinaires        | 3757       |  935    | 2822    |
>| 2022  | Écoles vétérinaires        | 3585       |  883    | 2702    |
>| 2021  | Écoles vétérinaires        | 3442       |  835    | 2607    |
>| ...   | ...                        | ...        | ...     | ...     |

> 6. Ajoutez deux colonnes avec les proportions d'hommes et de femmes (en %)
> 7. Tracez l'évolution au fil des années du pourcentage de femmes présentes dans chaque type d'établissement

> 8. A partir de la colonne "gps", créez deux nouvelles colonnes "latitude" et "longitude". Appliquez ensuite la fonction `latlon_lambert93` qui convertit des coordonnées GPS (latitude, longitude) en coordonnées cartésiennes (X,Y) afin de créer deux autres colonnes "X" et "Y".
><div class="alert alert-block alert-info">
><b>Indications : </b> 
>    Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.str.split.html">pd.Series.str.split</a> sur la colonne "gps" pour séparer les valeurs de latitude et de longitude. 
    Ensuite vous pourrez utiliser <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html">pd.DataFrame.apply</a> pour appliquer la fonction latlon_lambert93 à chaque ligne du tableau.
></div>

In [None]:
def latlon_lambert93(lat,lon):
    lat_rad, lon_rad = lat*np.pi/180, lon*np.pi/180
    ## lat,lon => projection en Lambert 93 (X,Y)
    ee = 0.08181919104281579 # Première excentricité de l'ellipsoïde GRS80
    lat0, lon0 = 46.5, 3. # en degrés, la longitude d'origine correspond à l'Est (Greenwich)
    lat0_rad, lon0_rad = lat0*np.pi/180, lon0*np.pi/180
    X0, Y0 = 700000, 12655612.049876 # coordonnées en projection du pôle
    lat_iso = np.log(np.tan(np.pi/4+lat_rad/2)*((1-ee*np.sin(lat_rad))/(1+ee*np.sin(lat_rad)))**(ee/2))
    C = 11754255.426096 # constante de la projection 
    n = 0.7256077650532670 # exposant de la projection
    Xl93 = X0 + C*np.exp(-n*lat_iso)*np.sin(n*(lon_rad-lon0_rad))
    Yl93 = Y0 - C*np.exp(-n*lat_iso)*np.cos(n*(lon_rad-lon0_rad))
    return Xl93, Yl93

> 9. Tracez un point par coordonnées "X" et "Y". Que reconnaîssez-vous ?
><div class="alert alert-block alert-info">
><b>Indications : </b> 
>    Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.scatter.html">pd.DataFrame.plot.scatter</a>. Tracez uniquement les points compris dans [0., 1.5e6]x[5.9e6, 7.4e6]
></div>