# Le module `pandas`

In [None]:
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

%matplotlib inline
%config InlineBackend.figure_format = 'retina'
matplotlib.rcParams['savefig.dpi'] = 80

print(pd.__version__)
pd.options.mode.copy_on_write = True  # compatibilité avec pandas 3

**Exercice 1 : données météorologiques**

> 1. Chargez le fichier `synop_1996_2024_temp.csv.gz` dans une `DataFrame` (l'extension `.gz` ne pose pas de problème et permet de manipuler des fichiers compressés donc moins volumineux). Utilisez la colonne "num" comme index.
> 2. Chargez également le fichier `synop_stations.csv` afin d'avoir des informations sur les stations de mesure. Utilisez la colonne "ID" comme index.
> 3. Affichez les trois premières lignes des deux `DataFrame` créées ainsi que leurs dimensions.

Ces données proviennent de [https://donneespubliques.meteofrance.fr](https://donneespubliques.meteofrance.fr/?fond=produit&id_produit=90&id_rubrique=32). Pour alléger la taille des fichiers, seules les mesures de température ont été conservées. Etant donné le nombre de lignes du fichier contenant les mesures, il ne pourrait pas être ouvert avec un tableur.

> 4. Tracez sur une carte les positions des stations de mesure. Vous pouvez vous inspirer de ce que vous avez fait pour le TP `pandas` précédent.

In [None]:
def latlon_lambert93(lat,lon):
    lat_rad, lon_rad = lat*np.pi/180, lon*np.pi/180
    ## lat,lon => projection en Lambert 93 (X,Y)
    ee = 0.08181919104281579 # Première excentricité de l'ellipsoïde GRS80
    lat0, lon0 = 46.5, 3. # en degrés, la longitude d'origine correspond à l'Est (Greenwich)
    lat0_rad, lon0_rad = lat0*np.pi/180, lon0*np.pi/180
    X0, Y0 = 700000, 12655612.049876 # coordonnées en projection du pôle
    lat_iso = np.log(np.tan(np.pi/4+lat_rad/2)*((1-ee*np.sin(lat_rad))/(1+ee*np.sin(lat_rad)))**(ee/2))
    C = 11754255.426096 # constante de la projection 
    n = 0.7256077650532670 # exposant de la projection
    Xl93 = X0 + C*np.exp(-n*lat_iso)*np.sin(n*(lon_rad-lon0_rad))
    Yl93 = Y0 - C*np.exp(-n*lat_iso)*np.cos(n*(lon_rad-lon0_rad))
    return Xl93, Yl93

> 5. Convertir la colonne où se trouvent les dates des mesures au format `datetime64`.
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Utilisez <a href="https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html">pd.to_datetime</a> pour la conversion.
></div>

> 6. Pour certaines lignes la température indiquée est "mq" ce qui signifie que la donnée est manquante. Ne conservez pas ces lignes dans la DataFrame. Convertissez ensuite la colonne des températures de type "object" en valeurs numériques (float). 
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Pour la conversion vous pouvez utiliser <a href="https://pandas.pydata.org/docs/reference/api/pandas.to_numeric.html">pd.to_numeric</a> 
></div>

> 7. Ajoutez une colonne que l'on appelera "temp" avec la température en degré Celsius (soit la température en Kelvin moins 273.15).

> 8.1 Créez une `DataFrame` ne contenant que les lignes concernant la station nommée `ORLY`.
><div class="alert alert-block alert-info">
><b>Indications : </b> 
>Commencez par rechercher l'ID de la station d'ORLY dans la DataFrame des stations. Utilisez ensuite cet ID pour filtrer les données de températures.
></div>
> 8.2 Utilisez la colonne "date" comme index pour la `DataFrame` `ORLY` et assurez-vous que toutes les lignes sont bien dans l'ordre chronologique. 
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Pour trier l'index d'une DataFrame vous pouvez utiliser : <a href="https://pandas.pydata.org/docs/reference/api/pandas.Index.sort_values.html">pd.index.sort_values</a> avec l'argument "return_indexer=True" afin de pouvoir récupérer le nouvel ordre et l'appliquer à toutes les colonnes.
></div>
> 8.3 Tracez l'évolution de la température mesurée à la station d'Orly

> 8.4 Au lieu d'avoir une mesure de température toutes les 3h, on souhaite avoir une valeur moyenne par jour. Créez une nouvelle DataFrame contenant ces valeurs moyennes journalières et tracez le graphe des températures.
> 
><div class="alert alert-block alert-info">
><b>Indication : </b> 
>Vous pouvez vous inspirer de ce fil de discussion (ancien) <a href="https://stackoverflow.com/questions/52599774/compute-daily-mean-with-pandas">compute-daily-mean-with-pandas</a> ou bien utiliser la commande <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.resample.html">resample</a>.
></div>

> 9.1 [difficile] En faisant avec les autres stations métropolitaine ce qui vient d'être fait pour la station d'Orly, construisez la DataFrame suivante :
>
>|             | ABBEVILLE  | LILLE-LESQUIN  | PTE DE LA HAGUE  | ...  |
>|      ---    |     ---    |     ---        |    ---           | ---  |
>| 1996-01-01  | 3.47000	| 2.90000	     |   8.78625        | ...  |
>| 1996-01-02  | 2.58375	| 1.11000	     |   8.86000        | ...  |
>| 1996-01-03  | 1.38250	| -0.07875	     |   7.35875        | ...  |
>| ...         | ...        | ...            | ...              | ...  |


>9.2 Tracez l'évolution de la température moyenne en France métropolitaine. 

>9.3[hors programme...] Peut-on dire que les températures journalières des stations sont corrélées ? 