# `DataFrame`

La structure `DataFrame` est une structure de données bi-dimensionnelle et labélisée. 
Les lignes et les colonnes n'ont pas le même statut _a priori_ ! Une bonne représentation est de penser chaque colonne comme une `Serie` dont les labels sont partagés. C'est-à-dire que tous les éléments d'une même colonne doivent avoir le même type. En revanche, sur une ligne, il est possible de trouver des objets de types différents.

C'est généralement la structure de données de `pandas` la plus utilisée. Cela permet de traiter des données un peu comme on le ferait à l'aide d'une base SQL ou un tableur type Excel.

In [1]:
import numpy as np
import pandas as pd
from string import ascii_letters

gen = np.random.default_rng() 

## Création d'un `DataFrame`

Afin de créer un `DataFrame`, il est possible d'utiliser la fonction `DataFrame` qui prend en arguments différents types d'objets comme
- un dictionnaire dont les valeurs sont des itérables ou des `Series`
- un `ndarray` à deux dimensions
- une `Series`
- un autre `DataFrame`

En plus des données, il est également possible de passer à cette fonction les labels des lignes et des colonnes.

In [2]:
# help(pd.DataFrame)

In [3]:
# création à partir d'un dictionnaire de Series, de ndarray et de list
N = 10
df = pd.DataFrame(
    {
        'column 1': pd.Series(gen.random((N,)), index=list(ascii_letters[:N])),
        'column 2': gen.integers(0, 100, size=(N,)),
        'column 3': [
            ascii_letters[gen.integers(len(ascii_letters), endpoint=False)]
            for _ in range(N)
        ]
    }
)
display(df)

Unnamed: 0,column 1,column 2,column 3
a,0.979538,88,m
b,0.378463,33,p
c,0.296174,60,L
d,0.23132,98,I
e,0.329907,24,l
f,0.95919,77,n
g,0.327213,60,v
h,0.779471,44,z
i,0.397671,26,b
j,0.714868,61,m


Il est possible de récupérer des informations sur le `DataFrame` comme
- la forme, le nombre de ligne et le nombre de colonne
- l'intitulé des labels de lignes et de colonnes

In [4]:
print(f"La forme :              {df.shape}")
print(f"Le nombre de lignes :   {df.shape[0]}")
print(f"Le nombre de colonnes : {df.shape[1]}")

La forme :              (10, 3)
Le nombre de lignes :   10
Le nombre de colonnes : 3


In [5]:
print("Les indices de lignes sont ", df.index)
print("Les labels de colonnes sont ", df.columns)

Les indices de lignes sont  Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')
Les labels de colonnes sont  Index(['column 1', 'column 2', 'column 3'], dtype='object')


In [6]:
# création à partir d'un autre DataFrame
df2 = pd.DataFrame(df)
display(df2)
df3 = pd.DataFrame(df, index=['a', 'c', 'i'], columns=['column 1', 'column 3'])
display(df3)

Unnamed: 0,column 1,column 2,column 3
a,0.979538,88,m
b,0.378463,33,p
c,0.296174,60,L
d,0.23132,98,I
e,0.329907,24,l
f,0.95919,77,n
g,0.327213,60,v
h,0.779471,44,z
i,0.397671,26,b
j,0.714868,61,m


Unnamed: 0,column 1,column 3
a,0.979538,m
c,0.296174,L
i,0.397671,b


Il est également possible de créer un `DataFrame` à partir d'une liste de disctionnaires même si cette utilisation est plus rare. Cela correspond à avoir les données stockées par ligne plutôt que par colonne.

In [7]:
data = [
    {
        'a': gen.integers(100),
        'b': gen.integers(k+1),
        'c': ascii_letters[gen.integers(len(ascii_letters))]
    }
    for k in range(5)
]
df = pd.DataFrame(data)
display(df)

Unnamed: 0,a,b,c
0,79,0,E
1,1,1,w
2,98,2,o
3,44,1,C
4,11,3,q


<div class="alert alert-block alert-warning">
    <b>Attention : </b>
    Lorsque des données sont manquantes à la création d'un `DataFrame`, la valeur `np.nan` est utilisée.
</div>

## Accès aux données en lecture et en écriture

Création d'un `DataFrame` à l'aide d'une matrice `ndarray` à deux dimensions.
Puis modification des labels de lignes et de colonnes à l'aide des champs `index` et `columns`.

In [18]:
N, M = 10, 3
df = pd.DataFrame(gen.random((N, M)))
# display(df)
df.index = list(ascii_letters[:N])
# display(df)
df.columns = [f"c{k:1d}" for k in range(1, M+1)]
display(df)

Unnamed: 0,c1,c2,c3
a,0.867482,0.071169,0.69326
b,0.658703,0.392305,0.176445
c,0.930722,0.243085,0.697766
d,0.319038,0.533481,0.239658
e,0.778772,0.343434,0.845723
f,0.403803,0.124644,0.504975
g,0.504794,0.559813,0.184087
h,0.235679,0.430796,0.313461
i,0.332689,0.709699,0.726776
j,0.66329,0.386182,0.205418


Lorsque l'on a un `DataFrame`, l'opérateur crochet permet d'accéder directement à une ou plusieurs colonnes. Si un seul label est demandé, l'opérateur `[ ]` retourne une `Serie`. Si un ou plusieurs labels sont demandés à l'aide d'une liste ou d'un tuple, l'opérateur `[ ]` retourne un `DataFrame`.

In [25]:
print(type(df["c1"]))
display(df["c1"])
print(type(df[["c1"]]))
display(df[["c1"]])
display(df[["c1","c3"]])

<class 'pandas.core.series.Series'>


a    0.867482
b    0.658703
c    0.930722
d    0.319038
e    0.778772
f    0.403803
g    0.504794
h    0.235679
i    0.332689
j    0.663290
Name: c1, dtype: float64

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,c1
a,0.867482
b,0.658703
c,0.930722
d,0.319038
e,0.778772
f,0.403803
g,0.504794
h,0.235679
i,0.332689
j,0.66329


Unnamed: 0,c1,c3
a,0.867482,0.69326
b,0.658703,0.176445
c,0.930722,0.697766
d,0.319038,0.239658
e,0.778772,0.845723
f,0.403803,0.504975
g,0.504794,0.184087
h,0.235679,0.313461
i,0.332689,0.726776
j,0.66329,0.205418


In [27]:
help(df.iloc)

Help on _iLocIndexer in module pandas.core.indexing object:

class _iLocIndexer(_LocationIndexer)
 |  Purely integer-location based indexing for selection by position.
 |  
 |  .. deprecated:: 2.2.0
 |  
 |     Returning a tuple from a callable is deprecated.
 |  
 |  ``.iloc[]`` is primarily integer position based (from ``0`` to
 |  ``length-1`` of the axis), but may also be used with a boolean
 |  array.
 |  
 |  Allowed inputs are:
 |  
 |  - An integer, e.g. ``5``.
 |  - A list or array of integers, e.g. ``[4, 3, 0]``.
 |  - A slice object with ints, e.g. ``1:7``.
 |  - A boolean array.
 |  - A ``callable`` function with one argument (the calling Series or
 |    DataFrame) and that returns valid output for indexing (one of the above).
 |    This is useful in method chains, when you don't have a reference to the
 |    calling object, but would like to base your selection on
 |    some value.
 |  - A tuple of row and column indexes. The tuple elements consist of one of the
 |    abov

## Traitement des colonnes comme des séries

L'utilisation classique des `DataFrame` consiste à faire des opérations sur une sélection de colonnes. Il est possible de placer le résultat dans une nouvelle colonne ou bien de faire les calculs en place. Voici quelques exemples :

Création d'un `DataFrame` à l'aide d'une matrice `ndarray` à deux dimensions.
Puis modification des labels de lignes et de colonnes à l'aide des champs `index` et `columns`.

In [None]:
N, M = 10, 3
df = pd.DataFrame(gen.random((N, M)))
# display(df)
df.index = list(ascii_letters[:N])
# display(df)
df.columns = [f"c{k:1d}" for k in range(1, M+1)]
display(df)

Création d'une nouvelle colonne nommé "moyenne" avec un calcul sur les colonnes précédentes. Puis création d'une colonne "flag" pour indiquer si le coefficient de la colonne moyenne est supérieur à la moyenne totale du tableau.

In [10]:
# df["moyenne"] = df.mean(axis=1)  # Autre solution
df["moyenne"] = (df["c1"] + df["c2"] + df["c3"]) / 3
df["flag"] = df["moyenne"] >= df["moyenne"].mean()
display(df)

Unnamed: 0,c1,c2,c3,moyenne,flag
a,0.490647,0.185949,0.067632,0.248076,False
b,0.532965,0.956144,0.618507,0.702539,True
c,0.076987,0.352942,0.965099,0.465009,False
d,0.618195,0.3821,0.067017,0.355771,False
e,0.64695,0.737044,0.98941,0.791135,True
f,0.893731,0.817685,0.903811,0.871742,True
g,0.8673,0.025683,0.919416,0.604133,True
h,0.513363,0.858309,0.915804,0.762492,True
i,0.002266,0.432617,0.191308,0.20873,False
j,0.199454,0.686077,0.087949,0.324493,False


Il est possible également d'ajouter une `Serie` dont les labels ne sont pas exactement les mêmes que ceux du `DataFrame`. Dans ce cas, ce sont les labels du `DataFrame` qui priment.

In [17]:
index = list(df.index)
N = len(index)
index[0] *= 2
index[-1] *= 2
s = pd.Series(gen.random((N,)), index=index)
display(s)
df["new"] = s
display(df)

aa    0.960414
b     0.662536
c     0.075970
d     0.272854
e     0.075515
f     0.251471
g     0.111705
h     0.242065
i     0.749165
jj    0.424514
dtype: float64

Unnamed: 0,c1,c2,c3,flag,new
a,0.490647,0.185949,0.067632,False,
b,0.532965,0.956144,0.618507,True,0.662536
c,0.076987,0.352942,0.965099,False,0.07597
d,0.618195,0.3821,0.067017,False,0.272854
e,0.64695,0.737044,0.98941,True,0.075515
f,0.893731,0.817685,0.903811,True,0.251471
g,0.8673,0.025683,0.919416,True,0.111705
h,0.513363,0.858309,0.915804,True,0.242065
i,0.002266,0.432617,0.191308,False,0.749165
j,0.199454,0.686077,0.087949,False,


Il est possible de supprimer une ou plusieurs colonnes à l'aide de la fonction `pop`.

In [11]:
moyenne = df.pop("moyenne")
display(df)
display(moyenne)

Unnamed: 0,c1,c2,c3,flag
a,0.490647,0.185949,0.067632,False
b,0.532965,0.956144,0.618507,True
c,0.076987,0.352942,0.965099,False
d,0.618195,0.3821,0.067017,False
e,0.64695,0.737044,0.98941,True
f,0.893731,0.817685,0.903811,True
g,0.8673,0.025683,0.919416,True
h,0.513363,0.858309,0.915804,True
i,0.002266,0.432617,0.191308,False
j,0.199454,0.686077,0.087949,False


a    0.248076
b    0.702539
c    0.465009
d    0.355771
e    0.791135
f    0.871742
g    0.604133
h    0.762492
i    0.208730
j    0.324493
Name: moyenne, dtype: float64