@prefix cw: <http://ns.cubicweb.org/cubicweb/0.0/> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

<http://beta.logilab.fr/1595> cw:tags <https://www.logilab.fr/13252264>,
        <https://www.logilab.fr/19793722>,
        <https://www.logilab.fr/25653872> .

<https://www.logilab.fr/13252764> cw:wf_info_for <https://www.logilab.fr/13252264> .

<https://www.logilab.fr/13252831> cw:tags <https://www.logilab.fr/13252264>,
        <https://www.logilab.fr/19793722> .

<https://www.logilab.fr/13252832> cw:tags <https://www.logilab.fr/13252264>,
        <https://www.logilab.fr/19793722> .

<https://www.logilab.fr/13252833> cw:tags <https://www.logilab.fr/13252264>,
        <https://www.logilab.fr/19793722> .

<https://www.logilab.fr/13252846> cw:tags <https://www.logilab.fr/13252264>,
        <https://www.logilab.fr/19793722> .

<https://www.logilab.fr/16367153> cw:wf_info_for <https://www.logilab.fr/16367140> .

<https://www.logilab.fr/19794027> cw:wf_info_for <https://www.logilab.fr/19793722> .

<https://www.logilab.fr/24394964> cw:tags <https://www.logilab.fr/16367140>,
        <https://www.logilab.fr/19793722> .

<https://www.logilab.fr/25653876> cw:tags <https://www.logilab.fr/25653872> .

<https://www.logilab.fr/25653884> cw:wf_info_for <https://www.logilab.fr/25653872> .

<https://www.logilab.fr/16367140> a cw:BlogEntry,
        <siocBlogPost> ;
    cw:content """400 mots - Temps de lecture 2 min\r
\r
![](https://www.logilab.fr/file/16368263/raw/748bab1cd694a1a4fa0703996_200px.png)\r
\r
Le 10 mars 2022 a eu lieu le lancement de la « boite-à-outils Resourcecode » devant plus d’une centaine de partenaires du projet. Logilab est fière d’avoir pu participer à ce projet.\r
\r
[Resourcecode](http://resourcecode.info/) est un projet visant à soutenir les investissements et la croissance dans le secteur de l’énergie houlomotrice et maréomotrice par la création d’une boîte à outils intégrée de données marines.\r
\r
Concrètement, des données décrivant l’état de la mer (vitesse du vent, hauteur des vagues, direction du courant, etc) sont enregistrées par des bouées de l’[IFREMER](https://ifremer.fr/) (*Institut Français de Recherche pour l'Exploitation de la Mer*) et de ses partenaires. Des données de 1994 à 2020 sont disponibles pour des milliers de points de l’océan Atlantique et de la mer du Nord avec une résolution temporelle de l’ordre de l’heure. Une fois ces données enregistrées, elles peuvent être interpolées sur les points d’un maillage triangulaire.\r
\r
\r
\r
Logilab a remporté un appel d’offre, déposé par l’Ifremer, dans le cadre de ce projet. Nous avons eu la charge de réaliser :\r
\r
- une application web [resourcecode.ifremer.fr](https://resourcecode.ifremer.fr) permettant la visualisation des points où les données sont accessibles et proposant des outils statiques ou interactifs basés sur des calepins [Jupyter](jupyter.org/) afin d’étudier la mer au point considéré.\r
- produire une bibliothèque python [resourcecode](https://pypi.org/project/resourcecode) permettant de télécharger localement les données d’un point sous forme de `DataFrame` Pandas. L'intégration continue de la forge GitLab de l'IFREMER génère avec Sphinx la [documentation](https://resourcecode.gitlab-pages.ifremer.fr/resourcecode/) de cette bibliothèque.\r
- intégrer à cette bibliothèque des codes de calculs écrits par l’IFREMER et ses partenaires (codes écrits en R, MATLAB ou Python)\r
- mettre en place une architecture permettant à l’IFREMER et ses partenaires de construire des nouveaux outils (statiques ou interactifs). Ces outils sont développés et maintenus par l’IFREMER et ses partenaires, et *automatiquement* intégré à l’application web. Ils sont développés sur l’instance [GitLab de l’Ifremer](https://gitlab.ifremer.fr/resourcecode/tools).\r
\r
Lors de cet événement de lancement de Resourcecode, une démonstration en direct a pu être effectuée auprès du public : la bibliothèque a été installée et un dépôt de code contenant un calepin Jupyter a été cloné puis exécuté. Cela a permis de démontrer la facilité d'utilisation de cet outil, ainsi que la répétabilité offerte par ce type d’architecture, qui correspond aux attentes actuelles en matière de science ouverte (*Open Science*).\r
\r
![](https://www.logilab.fr/file/16367129/raw/748bab1cd694a1a4fa0703995.png)""" ;
    cw:content_format "text/markdown" ;
    cw:creation_date "2022-04-12T14:57:13.521377+00:00"^^xsd:dateTime ;
    cw:cw_source <http://beta.logilab.fr1> ;
    cw:entry_of <https://www.logilab.fr/3792644> ;
    cw:has_creator <https://www.logilab.fr/19794100> ;
    cw:heading "Le 10 mars 2022, l'IFREMER a présenté les résultats du projet http://resourcecode.info/ devant plus d’une centaine de parties prenantes." ;
    cw:in_state <http://beta.logilab.fr1339> ;
    cw:modification_date "2022-04-12T15:29:50.904539+00:00"^^xsd:dateTime ;
    cw:title "Resourcecode" ;
    cw:word_count 378 ;
    dcterms:title "Resourcecode" ;
    <sioccontent> """400 mots - Temps de lecture 2 min\r
\r
![](https://www.logilab.fr/file/16368263/raw/748bab1cd694a1a4fa0703996_200px.png)\r
\r
Le 10 mars 2022 a eu lieu le lancement de la « boite-à-outils Resourcecode » devant plus d’une centaine de partenaires du projet. Logilab est fière d’avoir pu participer à ce projet.\r
\r
[Resourcecode](http://resourcecode.info/) est un projet visant à soutenir les investissements et la croissance dans le secteur de l’énergie houlomotrice et maréomotrice par la création d’une boîte à outils intégrée de données marines.\r
\r
Concrètement, des données décrivant l’état de la mer (vitesse du vent, hauteur des vagues, direction du courant, etc) sont enregistrées par des bouées de l’[IFREMER](https://ifremer.fr/) (*Institut Français de Recherche pour l'Exploitation de la Mer*) et de ses partenaires. Des données de 1994 à 2020 sont disponibles pour des milliers de points de l’océan Atlantique et de la mer du Nord avec une résolution temporelle de l’ordre de l’heure. Une fois ces données enregistrées, elles peuvent être interpolées sur les points d’un maillage triangulaire.\r
\r
\r
\r
Logilab a remporté un appel d’offre, déposé par l’Ifremer, dans le cadre de ce projet. Nous avons eu la charge de réaliser :\r
\r
- une application web [resourcecode.ifremer.fr](https://resourcecode.ifremer.fr) permettant la visualisation des points où les données sont accessibles et proposant des outils statiques ou interactifs basés sur des calepins [Jupyter](jupyter.org/) afin d’étudier la mer au point considéré.\r
- produire une bibliothèque python [resourcecode](https://pypi.org/project/resourcecode) permettant de télécharger localement les données d’un point sous forme de `DataFrame` Pandas. L'intégration continue de la forge GitLab de l'IFREMER génère avec Sphinx la [documentation](https://resourcecode.gitlab-pages.ifremer.fr/resourcecode/) de cette bibliothèque.\r
- intégrer à cette bibliothèque des codes de calculs écrits par l’IFREMER et ses partenaires (codes écrits en R, MATLAB ou Python)\r
- mettre en place une architecture permettant à l’IFREMER et ses partenaires de construire des nouveaux outils (statiques ou interactifs). Ces outils sont développés et maintenus par l’IFREMER et ses partenaires, et *automatiquement* intégré à l’application web. Ils sont développés sur l’instance [GitLab de l’Ifremer](https://gitlab.ifremer.fr/resourcecode/tools).\r
\r
Lors de cet événement de lancement de Resourcecode, une démonstration en direct a pu être effectuée auprès du public : la bibliothèque a été installée et un dépôt de code contenant un calepin Jupyter a été cloné puis exécuté. Cela a permis de démontrer la facilité d'utilisation de cet outil, ainsi que la répétabilité offerte par ce type d’architecture, qui correspond aux attentes actuelles en matière de science ouverte (*Open Science*).\r
\r
![](https://www.logilab.fr/file/16367129/raw/748bab1cd694a1a4fa0703995.png)""" .

<https://www.logilab.fr/25653872> a cw:BlogEntry,
        <siocBlogPost> ;
    cw:content """Les AFPYRo reprennent et le prochain aura lieu dans nos locaux parisiens entre Denfert Rochereau et la Place d'Italie !\r
\r
Un AFPYRo est un événement organisé par l’[AFPy](https://www.afpy.org/) − Association Francophone Python − pour regrouper des personnes souhaitant discuter du langage de programmation Python dans un cadre convivial.  Après une ou deux présentations (vous pouvez [proposer la vôtre](https://discuss.afpy.org/t/pour-les-parisiens-afpyro-chez-logilab-le-16-mars/1384)), nous échangerons autour de quelques pizzas.\r
\r
Le prochain AFPYRo sera donc à Logilab, au 104 Boulevard Auguste Blanqui 75013 Paris, le 16 mars 2023 de 19h à 21h et nous offrirons les pizzas.\r
\r
N’hésitez pas à [vous inscrire](https://discuss.afpy.org/t/pour-les-parisiens-afpyro-chez-logilab-le-16-mars/1384) et à passer nous voir !""" ;
    cw:content_format "text/markdown" ;
    cw:creation_date "2023-02-27T17:09:05.523939+00:00"^^xsd:dateTime ;
    cw:cw_source <http://beta.logilab.fr1> ;
    cw:entry_of <http://beta.logilab.fr1377> ;
    cw:has_creator <https://www.logilab.fr/19794100> ;
    cw:heading "Les AFPYRo reprennent et le prochain aura lieu dans nos locaux parisiens entre Denfert Rochereau et la Place d'Italie !" ;
    cw:in_state <http://beta.logilab.fr1339> ;
    cw:modification_date "2023-02-27T17:09:52.077200+00:00"^^xsd:dateTime ;
    cw:title "AFPYRo du 16 mars 2023" ;
    cw:word_count 101 ;
    dcterms:title "AFPYRo du 16 mars 2023" ;
    <sioccontent> """Les AFPYRo reprennent et le prochain aura lieu dans nos locaux parisiens entre Denfert Rochereau et la Place d'Italie !\r
\r
Un AFPYRo est un événement organisé par l’[AFPy](https://www.afpy.org/) − Association Francophone Python − pour regrouper des personnes souhaitant discuter du langage de programmation Python dans un cadre convivial.  Après une ou deux présentations (vous pouvez [proposer la vôtre](https://discuss.afpy.org/t/pour-les-parisiens-afpyro-chez-logilab-le-16-mars/1384)), nous échangerons autour de quelques pizzas.\r
\r
Le prochain AFPYRo sera donc à Logilab, au 104 Boulevard Auguste Blanqui 75013 Paris, le 16 mars 2023 de 19h à 21h et nous offrirons les pizzas.\r
\r
N’hésitez pas à [vous inscrire](https://discuss.afpy.org/t/pour-les-parisiens-afpyro-chez-logilab-le-16-mars/1384) et à passer nous voir !""" .

<https://www.logilab.fr/13252264> a cw:BlogEntry,
        <siocBlogPost> ;
    cw:content """_Temps de lecture estimé 10 minutes._\r
\r
Nous proposons une série de quelques articles où nous allons utiliser la\r
bibliothèque Pandas pour analyser les licences sportives en France. En chemin,\r
nous réaliserons une interface utilisateur avec des widgets.\r
\r
Cette série sera découpée en trois articles. Dans le premier, nous allons\r
explorer le jeu de données à notre disposition en utilisant la bibliothèque\r
Pandas. Dans le second, nous introduirons *Jupyter* et les *ipywidgets* qui\r
nous permettront de faire une interface utilisateur. Nous terminerons la série\r
en présentant *Voilà* ainsi que le thème *jupyter-flex*.\r
\r
# *Pandas, jupyter, ipywidgets, voilà* ? De quoi parle-t-on ?\r
\r
- [Pandas](https://pandas.pydata.org/) est une bibliothèque Python très connue,\r
  qui permet d’analyser et  d’étudier des jeux de données. Elle est conçue pour\r
  traiter des jeux de données tabulaires (ceux pouvant être lus par un tableur).\r
  Les données peuvent être de différents types (nombres, dates, chaînes de\r
  caractères, etc). Pandas est, comme nous le verrons, très efficace. Les\r
  fonctions coûteuses de Pandas sont généralement écrites en C, et Python est\r
  utilisé pour manipuler et appeler ces fonctions.\r
- [Jupyter](https://jupyter.org/) est une plateforme, utilisable dans un\r
  navigateur web qui permet   d’exécuter des calepins (*notebooks*). Un calepin\r
  est un fichier   qui combine des cellules de différents types : du code\r
  exécutable, du texte,   des visualisations, etc.\r
- Les [Ipywidgets](https://ipywidgets.readthedocs.io/en/latest/) sont des\r
  éléments graphiques interactifs que l’on peut ajouter à des calepins\r
  *Jupyter*. Ils vont nous permettre de proposer aux utilisateurs de choisir un\r
  fichier, choisir un élément dans une liste, cliquer sur un bouton, etc.\r
  Chacune des actions de l’utilisateur peut être associée à une fonction Python,\r
  et donc rendre le calepin interactif.\r
- [Voilà](https://github.com/voila-dashboards/voila) est une application qui\r
  permet d’exécuter des calepins, mais sans afficher le code source − qui est\r
  visible par défaut dans *Jupyter*. L’énorme intérêt à cela est qu’un calepin\r
  *Jupyter* devient alors une application web à part entière, utilisable dans le\r
  navigateur, et seuls les éléments indispensables à son utilisation sont\r
  visibles.\r
\r
Après cette petite phase de présentation, découvrons les données que nous allons\r
manipuler aujourd’hui.\r
\r
# Présentation des données\r
\r
Dans cette série d’articles nous utilisons des données issues de\r
[https://data.gouv.fr](https://data.gouv.fr). Il s’agit du nombre de licences\r
sportives, par sexe, par catégorie d’âges, par municipalité pour les années 2012\r
à 2018. Les données brutes peuvent être téléchargées\r
[ici](https://www.data.gouv.fr/fr/datasets/donnees-geocodees-issues-du-recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-des-sports/).\r
\r
Nous avons réalisé une opération de nettoyage sur ces données, afin de nous\r
assurer d’avoir une structure cohérente pour chaque année. Nous avons également\r
remplacé les municipalités par leur département, ce qui permet d’alléger les\r
données à manipuler. Au final, nous obtenons six fichiers csv, un par année,\r
dont la structure est la suivante :\r
\r
```csv\r
dep_code,dep_name,fed_code,fed_name,gender,age,lic_holders\r
01,Ain,101,Fédération Française d'athlétisme,F,00-04,0\r
01,Ain,101,Fédération Française d'athlétisme,F,05-09,75\r
01,Ain,101,Fédération Française d'athlétisme,F,10-14,251\r
01,Ain,101,Fédération Française d'athlétisme,F,15-19,130\r
01,Ain,101,Fédération Française d'athlétisme,F,20-29,39\r
01,Ain,101,Fédération Française d'athlétisme,F,30-44,105\r
01,Ain,101,Fédération Française d'athlétisme,F,45-59,105\r
01,Ain,101,Fédération Française d'athlétisme,F,60-74,23\r
01,Ain,101,Fédération Française d'athlétisme,F,75+,0\r
01,Ain,101,Fédération Française d'athlétisme,M,00-04,0\r
01,Ain,101,Fédération Française d'athlétisme,M,05-09,106\r
01,Ain,101,Fédération Française d'athlétisme,M,10-14,278\r
[…]\r
```\r
\r
| Nom de colonne | Description                                                                                                              |\r
| --------:       | --------                                                                                                                 |\r
| `dep_code`     | Code (unique) du département                                                                                             |\r
| `dep_name`     | Nom du département                                                                                                       |\r
| `fed_code`     | Code (unique) de la fédération sportive                                                                                  |\r
| `fed_name`     | Nom de la fédération sportive                                                                                            |\r
| `gender`       | Genre (peut être `M` ou `F`)                                                                                             |\r
| `age`          | La tranche d’âge considérée (peut être `00-04`, `05-09`, `10-14`, `15-19`, `20-29`, `30-44`, `44-59`, `60-74`, `75+`) |\r
| `lic_holders`  | Le nombre de licenciés dans le département, enregistrés dans cette fédération, de ce genre et de cette tranche d’âge.  |\r
\r
\r
# Chargement de données pour une année\r
\r
Pandas offre un nombre important de fonctions permettant de charger des données\r
depuis différents formats: CSV, Excel, tableaux HTML, JSON, bases SQL, HDF5, etc.\r
Nous allons utiliser la fonction `read_csv`. Cette fonction utilise les éléments\r
de la première ligne comme noms de colonnes. Pandas essaie également de détecter\r
les types de colonnes à utiliser (nombre, date, chaîne de caractères) en se\r
basant sur les premiers éléments lus. Nous spécifions donc à Pandas que la\r
colonne `dep_code` est de type `str`, pour prendre en compte les départements\r
Corse (`2A` et `2B`), sans quoi Pandas émettra un avertissement.\r
\r
```python\r
from pathlib import Path\r
import pandas as pd\r
\r
DATA_DIR = Path().resolve() / "data"  # en supposant que les données sont dans le dossier data\r
\r
d2012 = pd.read_csv(\r
    DATA_DIR / "sport_license_holders_2012.csv", dtype={"dep_code": str}\r
)\r
```\r
\r
Nous obtenons alors la *DataFrame* suivante :\r
\r
![](https://www.logilab.fr/file/13252396/raw/748bab1cd694a1a4fa0703927.png)\r
\r
# Premières analyses\r
\r
À partir de là, nous pouvons commencer à étudier le jeu de données. Par exemple,\r
en demandant le nom de chaque fédération :\r
\r
```python\r
>>> d2012["fed_name"].unique()\r
array(["Fédération Française d'athlétisme",\r
       "Fédération Française des sociétés d'aviron",\r
       'Fédération Française de badminton',\r
       'Fédération Française de basketball',\r
       'Fédération Française de boxe',\r
       'Fédération Française de canoë-kayak',\r
       'Fédération Française de cyclisme',\r
       "Fédération Française d'équitation",\r
       "Fédération Française d'escrime",\r
       […],\r
       'Fédération française de pentathlon moderne',\r
       'Fédération Française de javelot tir sur cible',\r
       'Fédération Flying Disc France', 'Fédération Française Maccabi',\r
       'Fédération Française de la course camarguaise',\r
       'Fédération Française de la course landaise',\r
       'Fédération Française de ballon au poing'], dtype=object)\r
```\r
\r
Nous pouvons facilement compter le nombre total, toutes catégories\r
confondues, de licenciés :\r
\r
```python\r
>>> d2012["lic_holders"].sum()\r
12356101\r
```\r
\r
Une des forces de Pandas réside dans la possibilité de créer des filtres, ou des\r
groupes simplement. Par exemple, pour compter le nombre de licenciés hommes, nous\r
pouvons créer un masque (`True` si le genre est `M` et `False` sinon), puis\r
appliquer ce masque à notre *DataFrame*.\r
\r
\r
```python\r
>>> mask_male = d2012["gender"] == "M"\r
>>> d2012[mask_male]["lic_holders"].sum()\r
7806235\r
```\r
\r
Ainsi, en 2012, il y avait 7 806 235 licenciés masculins de sport en France.\r
\r
Combien y a-t-il de licenciés, en 2012, par tranche d’âge ? Pour répondre à\r
cette question, nous utilisons la méthode `groupby` de Pandas, en donnant le nom\r
de la colonne sur laquelle nous souhaitons faire le groupe :\r
\r
```python\r
>>> d2012.groupby("age")["lic_holders"].sum()\r
```\r
\r
![](https://www.logilab.fr/file/13252442/raw/748bab1cd694a1a4fa0703921.png)\r
\r
\r
Cette méthode permet de constituer des groupes, selon une clé (généralement le\r
nom d’une ou plusieurs colonnes), puis d’appliquer sur chaque groupe partageant\r
la même clé une fonction d’agrégation. Dans notre exemple, la clé de chaque\r
groupe est l’âge, et la fonction d’agrégation la somme sur la colonne\r
`lic_holders`.\r
\r
Nous pouvons effectuer le même type de calcul, mais en groupant cette fois-ci\r
sur le genre et l’âge, ce qui donne le résultat suivant :\r
\r
```python\r
>>> d2012.groupby(["gender", "age"])["lic_holders"].sum()\r
```\r
\r
![](https://www.logilab.fr/file/13252463/raw/748bab1cd694a1a4fa0703920.png)\r
\r
\r
Les deux résultats que nous venons d’obtenir sont ce qu’on appelle des `Series`.\r
C’est-à-dire, des *DataFrames* mais constituées d’une seule colonne.\r
On observe que les groupes sont directement constitués par l’index.  Dans le cas\r
d’un `groupby()` avec une seule colonne, nous avons un *index simple* et dans le\r
cas où plusieurs colonnes sont utilisées, nous obtenons ce qu’on appelle un\r
*index multiple* ou un *index hiérarchique*. Nous allons étudier cela un peu\r
plus en profondeur dans la suite.\r
\r
\r
# Créer un index sur mesure\r
\r
Dans la *DataFrame* que nous avons chargée, de très nombreuses données sont\r
répétées et ne sont utilisées que pour définir des groupes (`dep_code`,\r
`dep_name`, `gender`, `age` etc). Nous allons mettre toutes ces données dans\r
l’index de la *DataFrame*. Cela permet d’avoir dans l’index les données de\r
chaque groupe, et dans la *DataFrame* les données desdits groupes (ici le nombre\r
de licenciés sportifs).\r
\r
Pour ce faire, nous utilisons la méthode `set_index` :\r
\r
```python\r
>>> d2012.set_index(\r
   ["dep_code", "dep_name", "fed_code", "fed_name", "gender", "age"], inplace=True\r
)\r
>>> d2012\r
```\r
\r
![](https://www.logilab.fr/file/13252487/raw/748bab1cd694a1a4fa070391f.png)\r
\r
\r
Nous avons ainsi une *DataFrame* à une seule colonne, et avec un index à six\r
niveaux. Nous pouvons toujours grouper par genre et par âge, en utilisant le\r
mot-clé `level`, indiquant qu’il faut grouper en utilisant l’index :\r
\r
```python\r
>>> d2012.groupby(level=["gender", "age"]).sum()\r
```\r
\r
![](https://www.logilab.fr/file/13252506/raw/748bab1cd694a1a4fa070391e.png)\r
\r
\r
# Dans quels départements la course camarguaise est-elle pratiquée ?\r
\r
La course camarguaise est un sport traditionnel dans lequel les participants\r
tentent d'attraper des attributs primés fixés au frontal et aux cornes d'un\r
bœuf. Pour savoir dans quels départements ce sport est le plus pratiqué, nous\r
allons :\r
\r
1. Filtrer sur l’index pour n’avoir que les enregistrements correspondant à ce\r
   sport (le code de la fédération est 215) ;\r
2. Grouper par code et nom de département, et compter le nombre de licenciés ;\r
3. Afficher les groupes triés par ordre décroissant de licenciés.\r
\r
```python\r
>>> d2012_camarg = d2012.xs(\r
    215, level="fed_code"\r
)  # Only keep the rows with index equal to 215 at level ``fed_code``\r
>>> d2012_camarg_depts = d2012_camarg.groupby(\r
    ["dep_code", "dep_name"]\r
).sum()  # Group the data by department (only keep departments with non-null values)\r
>>> d2012_camarg_depts.sort_values(\r
    by="lic_holders", ascending=False\r
)  # Sort the data in decreasing order\r
```\r
\r
![](https://www.logilab.fr/file/13252526/raw/748bab1cd694a1a4fa070391d.png)\r
\r
\r
Sans trop de surprise, on observe que c’est le Gard (où est la Camargue), les\r
Bouches-du-Rhône, l’Hérault et le Vaucluse (départements qui entourent le Gard)\r
qui ont le plus de licenciés dans ce sport.\r
\r
# Quels sont les sports les plus pratiqués par les femmes ?\r
\r
Nous allons :\r
\r
1. Sélectionner les enregistrements correspondant à `gender = 'F'` ;\r
2. Grouper par fédération et compter le nombre de licenciées ;\r
3. Afficher les dix sports avec le plus de licenciées.\r
\r
```python\r
>>> d2012_females_top_10 = d2012.xs("F", level="gender")\r
    .groupby(["fed_code", "fed_name"])\r
    .sum()\r
    .nlargest(10, "lic_holders")\r
>>> d2012_females_top_10\r
```\r
\r
![](https://www.logilab.fr/file/13252554/raw/748bab1cd694a1a4fa070391c.png)\r
\r
Pandas permet également de faire des graphiques. Par défaut c’est la\r
bibliothèque [matplotlib](https://matplotlib.org/) qui est utilisée. Nous\r
pouvons par exemple utiliser un diagramme en bâtons pour afficher le top 10 des\r
sports pratiqués par les femmes :\r
\r
```python\r
>>> d2012_females_top_10.plot(\r
    kind="bar",\r
    legend=False,\r
    xlabel="Sport federation",\r
    ylabel="Number of license holders",\r
    color="#CC0066",\r
    title="Female sport license holders in 2012 (top 10)",\r
)\r
```\r
\r
![](https://www.logilab.fr/file/13252574/raw/748bab1cd694a1a4fa070391a.png)\r
\r
# Charger les données pour toutes les années\r
\r
Dans la section précédente, nous avons chargé uniquement les données de l’année\r
2012. Mais nous avons bien plus de données que cela. Nous allons donc charger\r
chaque fichier, puis renommer la colonne `lic_holders` en fonction de l’année en\r
cours. Nous aurons ainsi une *DataFrame*, avec en colonne le nombre de licenciés\r
par année, et en index les différents groupes.\r
\r
Nous allons faire une liste `years_dfs` qui va contenir toutes les *DataFrames*,\r
une par année, puis nous allons simplement les concaténer. Cela donne donc :\r
\r
```python\r
>>> years_dfs = []\r
>>> for year in range(2012, 2019):\r
...    fname = f"sport_license_holders_{year}.csv"\r
...    yr_df = pd.read_csv(\r
...        DATA_DIR / fname,\r
...        dtype={"dep_code": str},\r
...        index_col=["dep_code", "dep_name", "fed_code", "fed_name", "gender", "age"],\r
...    )\r
...    yr_df.rename(columns={"lic_holders": str(year)}, inplace=True)\r
...    year_dfs.append(yr_df)\r
>>>\r
```\r
\r
On concatène toutes les *DataFrames*, en fonction de l’index (`axis=1`) :\r
\r
```python\r
>>> data = pd.concat(years_df, axis=1)\r
>>> data\r
```\r
\r
![](https://www.logilab.fr/file/13252596/raw/748bab1cd694a1a4fa070391b.png)\r
\r
Nous avons ainsi une *DataFrame* avec plus de 1.6 million de lignes, et 7\r
colonnes.\r
\r
On peut maintenant afficher, par exemple, les 10 sports les plus pratiqués en\r
fonction des années :\r
\r
```python\r
>>> data_sport = data.groupby(level=["fed_code", "fed_name"]).sum()\r
>>> data_sport.nlargest(10, "2012")\r
```\r
\r
![](https://www.logilab.fr/file/13252618/raw/748bab1cd694a1a4fa0703928.png)\r
\r
Nous avons ainsi le nombre de licenciés, par fédération et par année pour les\r
10 plus grosses fédérations de 2012. Le tri est effectué par rapport aux données\r
de 2012.\r
\r
On notera qu’en 2018 il y a 0 licencié de Karaté. Cela est probablement une\r
erreur dans les données, ce qui peut arriver.\r
\r
# Tracer l'évolution du nombre de licenciés avec Plotly\r
\r
Nous pouvons maintenant suivre l’évolution du nombre de licenciés dans certaines\r
disciplines. Nous sélectionnons les sports dont le code de fédération est 109,\r
115, 242, 117.\r
\r
```python\r
>>> sel_data_sports = data_sports.loc[\r
...    [109, 115, 242, 117]\r
... ] # Select the rows whose value at the first level of the index (``fed_code``)\r
... # is one of the list items\r
>>> # Drop the first level of the index (``fed_code``)\r
>>> sel_data_sports = sel_data_sports.droplevel(0)\r
>>> # Will be used as the title of the legend\r
>>> sel_data_sports.index.name = "Federations"\r
>>> sel_data_sports.transpose().plot(\r
...    title="Sport license holders", xlabel="year", ylabel="number of license holders"\r
...)  # Transpose to have the years as the index (will be the X axis)\r
```\r
\r
![](https://www.logilab.fr/file/13252640/raw/748bab1cd694a1a4fa0703929.png)\r
\r
Comme nous le disions, par défaut Pandas utilise la bibliothèque *matplotlib*\r
pour générer les graphiques. La figure produite ici est statique, elle peut\r
facilement être insérée dans un rapport par exemple, mais cela présente des\r
difficultés lors de la phase d’exploration.\r
\r
Depuis quelque temps maintenant, Pandas est compatible avec plusieurs\r
bibliothèques de visualisation. Il y a notamment\r
[Plotly](https://plotly.com/python/), qui permet de faire des graphiques\r
interactifs utilisables dans le navigateur web.\r
\r
Pour utiliser *Plotly*, il est nécessaire de changer la bibliothèque utilisée\r
par défaut.\r
\r
```python\r
# Choose Plotly as the plotting back-end\r
# this has to be done only once, usually at the begining of the code\r
>>> pd.options.plotting.backend = "plotly"\r
```\r
\r
Une fois *Plotly* configurée, nous pouvons retracer le graphique, comme\r
précédemment :\r
\r
```python\r
>>> fig = sel_data_sports.transpose().plot(title="Sport license holders")\r
>>> fig.update_layout(xaxis_title="year", yaxis_title="number of license holders")\r
>>> fig\r
```\r
\r
Dans un environnement *Jupyter*, la figure produite est celle-ci, et il est\r
possible de sélectionner/désélectionner les courbes à afficher :\r
\r
![](https://www.logilab.fr/file/13252662/raw/748bab1cd694a1a4fa070392a.png)\r
\r
# Quelle est la prochaine étape ?\r
\r
Nous avons dans ce premier article, chargé avec Pandas des données textuelles au\r
format CSV.\r
Nous avons vu comment et pourquoi utiliser un index multiple. Cela nous a permis\r
de calculer quelques statistiques simples sur des groupes d’individus. Nous\r
avons également produit des visualisations avec *matplotlib* et avec *Plotly*.\r
\r
Dans le prochain article, nous utiliserons des widgets *Jupyter* pour manipuler\r
dynamiquement les données à afficher sur les graphiques.""" ;
    cw:content_format "text/markdown" ;
    cw:creation_date "2022-02-04T16:51:12.912814+00:00"^^xsd:dateTime ;
    cw:cw_source <http://beta.logilab.fr1> ;
    cw:entry_of <https://www.logilab.fr/3792644> ;
    cw:has_creator <https://www.logilab.fr/19794100> ;
    cw:heading "Nous proposons une série de quelques articles où nous allons analyser les licences sportives en France à l’aide de Pandas, et nous réaliserons une interface utilisateur avec des widgets." ;
    cw:in_state <http://beta.logilab.fr1339> ;
    cw:modification_date "2022-02-04T17:07:00.265045+00:00"^^xsd:dateTime ;
    cw:title "Pandas, Plotly et Jupyter : De l'analyse de données à l'application en ligne (1/3)" ;
    cw:word_count 1957 ;
    dcterms:title "Pandas, Plotly et Jupyter : De l'analyse de données à l'application en ligne (1/3)" ;
    <sioccontent> """_Temps de lecture estimé 10 minutes._\r
\r
Nous proposons une série de quelques articles où nous allons utiliser la\r
bibliothèque Pandas pour analyser les licences sportives en France. En chemin,\r
nous réaliserons une interface utilisateur avec des widgets.\r
\r
Cette série sera découpée en trois articles. Dans le premier, nous allons\r
explorer le jeu de données à notre disposition en utilisant la bibliothèque\r
Pandas. Dans le second, nous introduirons *Jupyter* et les *ipywidgets* qui\r
nous permettront de faire une interface utilisateur. Nous terminerons la série\r
en présentant *Voilà* ainsi que le thème *jupyter-flex*.\r
\r
# *Pandas, jupyter, ipywidgets, voilà* ? De quoi parle-t-on ?\r
\r
- [Pandas](https://pandas.pydata.org/) est une bibliothèque Python très connue,\r
  qui permet d’analyser et  d’étudier des jeux de données. Elle est conçue pour\r
  traiter des jeux de données tabulaires (ceux pouvant être lus par un tableur).\r
  Les données peuvent être de différents types (nombres, dates, chaînes de\r
  caractères, etc). Pandas est, comme nous le verrons, très efficace. Les\r
  fonctions coûteuses de Pandas sont généralement écrites en C, et Python est\r
  utilisé pour manipuler et appeler ces fonctions.\r
- [Jupyter](https://jupyter.org/) est une plateforme, utilisable dans un\r
  navigateur web qui permet   d’exécuter des calepins (*notebooks*). Un calepin\r
  est un fichier   qui combine des cellules de différents types : du code\r
  exécutable, du texte,   des visualisations, etc.\r
- Les [Ipywidgets](https://ipywidgets.readthedocs.io/en/latest/) sont des\r
  éléments graphiques interactifs que l’on peut ajouter à des calepins\r
  *Jupyter*. Ils vont nous permettre de proposer aux utilisateurs de choisir un\r
  fichier, choisir un élément dans une liste, cliquer sur un bouton, etc.\r
  Chacune des actions de l’utilisateur peut être associée à une fonction Python,\r
  et donc rendre le calepin interactif.\r
- [Voilà](https://github.com/voila-dashboards/voila) est une application qui\r
  permet d’exécuter des calepins, mais sans afficher le code source − qui est\r
  visible par défaut dans *Jupyter*. L’énorme intérêt à cela est qu’un calepin\r
  *Jupyter* devient alors une application web à part entière, utilisable dans le\r
  navigateur, et seuls les éléments indispensables à son utilisation sont\r
  visibles.\r
\r
Après cette petite phase de présentation, découvrons les données que nous allons\r
manipuler aujourd’hui.\r
\r
# Présentation des données\r
\r
Dans cette série d’articles nous utilisons des données issues de\r
[https://data.gouv.fr](https://data.gouv.fr). Il s’agit du nombre de licences\r
sportives, par sexe, par catégorie d’âges, par municipalité pour les années 2012\r
à 2018. Les données brutes peuvent être téléchargées\r
[ici](https://www.data.gouv.fr/fr/datasets/donnees-geocodees-issues-du-recensement-des-licences-et-clubs-aupres-des-federations-sportives-agreees-par-le-ministere-charge-des-sports/).\r
\r
Nous avons réalisé une opération de nettoyage sur ces données, afin de nous\r
assurer d’avoir une structure cohérente pour chaque année. Nous avons également\r
remplacé les municipalités par leur département, ce qui permet d’alléger les\r
données à manipuler. Au final, nous obtenons six fichiers csv, un par année,\r
dont la structure est la suivante :\r
\r
```csv\r
dep_code,dep_name,fed_code,fed_name,gender,age,lic_holders\r
01,Ain,101,Fédération Française d'athlétisme,F,00-04,0\r
01,Ain,101,Fédération Française d'athlétisme,F,05-09,75\r
01,Ain,101,Fédération Française d'athlétisme,F,10-14,251\r
01,Ain,101,Fédération Française d'athlétisme,F,15-19,130\r
01,Ain,101,Fédération Française d'athlétisme,F,20-29,39\r
01,Ain,101,Fédération Française d'athlétisme,F,30-44,105\r
01,Ain,101,Fédération Française d'athlétisme,F,45-59,105\r
01,Ain,101,Fédération Française d'athlétisme,F,60-74,23\r
01,Ain,101,Fédération Française d'athlétisme,F,75+,0\r
01,Ain,101,Fédération Française d'athlétisme,M,00-04,0\r
01,Ain,101,Fédération Française d'athlétisme,M,05-09,106\r
01,Ain,101,Fédération Française d'athlétisme,M,10-14,278\r
[…]\r
```\r
\r
| Nom de colonne | Description                                                                                                              |\r
| --------:       | --------                                                                                                                 |\r
| `dep_code`     | Code (unique) du département                                                                                             |\r
| `dep_name`     | Nom du département                                                                                                       |\r
| `fed_code`     | Code (unique) de la fédération sportive                                                                                  |\r
| `fed_name`     | Nom de la fédération sportive                                                                                            |\r
| `gender`       | Genre (peut être `M` ou `F`)                                                                                             |\r
| `age`          | La tranche d’âge considérée (peut être `00-04`, `05-09`, `10-14`, `15-19`, `20-29`, `30-44`, `44-59`, `60-74`, `75+`) |\r
| `lic_holders`  | Le nombre de licenciés dans le département, enregistrés dans cette fédération, de ce genre et de cette tranche d’âge.  |\r
\r
\r
# Chargement de données pour une année\r
\r
Pandas offre un nombre important de fonctions permettant de charger des données\r
depuis différents formats: CSV, Excel, tableaux HTML, JSON, bases SQL, HDF5, etc.\r
Nous allons utiliser la fonction `read_csv`. Cette fonction utilise les éléments\r
de la première ligne comme noms de colonnes. Pandas essaie également de détecter\r
les types de colonnes à utiliser (nombre, date, chaîne de caractères) en se\r
basant sur les premiers éléments lus. Nous spécifions donc à Pandas que la\r
colonne `dep_code` est de type `str`, pour prendre en compte les départements\r
Corse (`2A` et `2B`), sans quoi Pandas émettra un avertissement.\r
\r
```python\r
from pathlib import Path\r
import pandas as pd\r
\r
DATA_DIR = Path().resolve() / "data"  # en supposant que les données sont dans le dossier data\r
\r
d2012 = pd.read_csv(\r
    DATA_DIR / "sport_license_holders_2012.csv", dtype={"dep_code": str}\r
)\r
```\r
\r
Nous obtenons alors la *DataFrame* suivante :\r
\r
![](https://www.logilab.fr/file/13252396/raw/748bab1cd694a1a4fa0703927.png)\r
\r
# Premières analyses\r
\r
À partir de là, nous pouvons commencer à étudier le jeu de données. Par exemple,\r
en demandant le nom de chaque fédération :\r
\r
```python\r
>>> d2012["fed_name"].unique()\r
array(["Fédération Française d'athlétisme",\r
       "Fédération Française des sociétés d'aviron",\r
       'Fédération Française de badminton',\r
       'Fédération Française de basketball',\r
       'Fédération Française de boxe',\r
       'Fédération Française de canoë-kayak',\r
       'Fédération Française de cyclisme',\r
       "Fédération Française d'équitation",\r
       "Fédération Française d'escrime",\r
       […],\r
       'Fédération française de pentathlon moderne',\r
       'Fédération Française de javelot tir sur cible',\r
       'Fédération Flying Disc France', 'Fédération Française Maccabi',\r
       'Fédération Française de la course camarguaise',\r
       'Fédération Française de la course landaise',\r
       'Fédération Française de ballon au poing'], dtype=object)\r
```\r
\r
Nous pouvons facilement compter le nombre total, toutes catégories\r
confondues, de licenciés :\r
\r
```python\r
>>> d2012["lic_holders"].sum()\r
12356101\r
```\r
\r
Une des forces de Pandas réside dans la possibilité de créer des filtres, ou des\r
groupes simplement. Par exemple, pour compter le nombre de licenciés hommes, nous\r
pouvons créer un masque (`True` si le genre est `M` et `False` sinon), puis\r
appliquer ce masque à notre *DataFrame*.\r
\r
\r
```python\r
>>> mask_male = d2012["gender"] == "M"\r
>>> d2012[mask_male]["lic_holders"].sum()\r
7806235\r
```\r
\r
Ainsi, en 2012, il y avait 7 806 235 licenciés masculins de sport en France.\r
\r
Combien y a-t-il de licenciés, en 2012, par tranche d’âge ? Pour répondre à\r
cette question, nous utilisons la méthode `groupby` de Pandas, en donnant le nom\r
de la colonne sur laquelle nous souhaitons faire le groupe :\r
\r
```python\r
>>> d2012.groupby("age")["lic_holders"].sum()\r
```\r
\r
![](https://www.logilab.fr/file/13252442/raw/748bab1cd694a1a4fa0703921.png)\r
\r
\r
Cette méthode permet de constituer des groupes, selon une clé (généralement le\r
nom d’une ou plusieurs colonnes), puis d’appliquer sur chaque groupe partageant\r
la même clé une fonction d’agrégation. Dans notre exemple, la clé de chaque\r
groupe est l’âge, et la fonction d’agrégation la somme sur la colonne\r
`lic_holders`.\r
\r
Nous pouvons effectuer le même type de calcul, mais en groupant cette fois-ci\r
sur le genre et l’âge, ce qui donne le résultat suivant :\r
\r
```python\r
>>> d2012.groupby(["gender", "age"])["lic_holders"].sum()\r
```\r
\r
![](https://www.logilab.fr/file/13252463/raw/748bab1cd694a1a4fa0703920.png)\r
\r
\r
Les deux résultats que nous venons d’obtenir sont ce qu’on appelle des `Series`.\r
C’est-à-dire, des *DataFrames* mais constituées d’une seule colonne.\r
On observe que les groupes sont directement constitués par l’index.  Dans le cas\r
d’un `groupby()` avec une seule colonne, nous avons un *index simple* et dans le\r
cas où plusieurs colonnes sont utilisées, nous obtenons ce qu’on appelle un\r
*index multiple* ou un *index hiérarchique*. Nous allons étudier cela un peu\r
plus en profondeur dans la suite.\r
\r
\r
# Créer un index sur mesure\r
\r
Dans la *DataFrame* que nous avons chargée, de très nombreuses données sont\r
répétées et ne sont utilisées que pour définir des groupes (`dep_code`,\r
`dep_name`, `gender`, `age` etc). Nous allons mettre toutes ces données dans\r
l’index de la *DataFrame*. Cela permet d’avoir dans l’index les données de\r
chaque groupe, et dans la *DataFrame* les données desdits groupes (ici le nombre\r
de licenciés sportifs).\r
\r
Pour ce faire, nous utilisons la méthode `set_index` :\r
\r
```python\r
>>> d2012.set_index(\r
   ["dep_code", "dep_name", "fed_code", "fed_name", "gender", "age"], inplace=True\r
)\r
>>> d2012\r
```\r
\r
![](https://www.logilab.fr/file/13252487/raw/748bab1cd694a1a4fa070391f.png)\r
\r
\r
Nous avons ainsi une *DataFrame* à une seule colonne, et avec un index à six\r
niveaux. Nous pouvons toujours grouper par genre et par âge, en utilisant le\r
mot-clé `level`, indiquant qu’il faut grouper en utilisant l’index :\r
\r
```python\r
>>> d2012.groupby(level=["gender", "age"]).sum()\r
```\r
\r
![](https://www.logilab.fr/file/13252506/raw/748bab1cd694a1a4fa070391e.png)\r
\r
\r
# Dans quels départements la course camarguaise est-elle pratiquée ?\r
\r
La course camarguaise est un sport traditionnel dans lequel les participants\r
tentent d'attraper des attributs primés fixés au frontal et aux cornes d'un\r
bœuf. Pour savoir dans quels départements ce sport est le plus pratiqué, nous\r
allons :\r
\r
1. Filtrer sur l’index pour n’avoir que les enregistrements correspondant à ce\r
   sport (le code de la fédération est 215) ;\r
2. Grouper par code et nom de département, et compter le nombre de licenciés ;\r
3. Afficher les groupes triés par ordre décroissant de licenciés.\r
\r
```python\r
>>> d2012_camarg = d2012.xs(\r
    215, level="fed_code"\r
)  # Only keep the rows with index equal to 215 at level ``fed_code``\r
>>> d2012_camarg_depts = d2012_camarg.groupby(\r
    ["dep_code", "dep_name"]\r
).sum()  # Group the data by department (only keep departments with non-null values)\r
>>> d2012_camarg_depts.sort_values(\r
    by="lic_holders", ascending=False\r
)  # Sort the data in decreasing order\r
```\r
\r
![](https://www.logilab.fr/file/13252526/raw/748bab1cd694a1a4fa070391d.png)\r
\r
\r
Sans trop de surprise, on observe que c’est le Gard (où est la Camargue), les\r
Bouches-du-Rhône, l’Hérault et le Vaucluse (départements qui entourent le Gard)\r
qui ont le plus de licenciés dans ce sport.\r
\r
# Quels sont les sports les plus pratiqués par les femmes ?\r
\r
Nous allons :\r
\r
1. Sélectionner les enregistrements correspondant à `gender = 'F'` ;\r
2. Grouper par fédération et compter le nombre de licenciées ;\r
3. Afficher les dix sports avec le plus de licenciées.\r
\r
```python\r
>>> d2012_females_top_10 = d2012.xs("F", level="gender")\r
    .groupby(["fed_code", "fed_name"])\r
    .sum()\r
    .nlargest(10, "lic_holders")\r
>>> d2012_females_top_10\r
```\r
\r
![](https://www.logilab.fr/file/13252554/raw/748bab1cd694a1a4fa070391c.png)\r
\r
Pandas permet également de faire des graphiques. Par défaut c’est la\r
bibliothèque [matplotlib](https://matplotlib.org/) qui est utilisée. Nous\r
pouvons par exemple utiliser un diagramme en bâtons pour afficher le top 10 des\r
sports pratiqués par les femmes :\r
\r
```python\r
>>> d2012_females_top_10.plot(\r
    kind="bar",\r
    legend=False,\r
    xlabel="Sport federation",\r
    ylabel="Number of license holders",\r
    color="#CC0066",\r
    title="Female sport license holders in 2012 (top 10)",\r
)\r
```\r
\r
![](https://www.logilab.fr/file/13252574/raw/748bab1cd694a1a4fa070391a.png)\r
\r
# Charger les données pour toutes les années\r
\r
Dans la section précédente, nous avons chargé uniquement les données de l’année\r
2012. Mais nous avons bien plus de données que cela. Nous allons donc charger\r
chaque fichier, puis renommer la colonne `lic_holders` en fonction de l’année en\r
cours. Nous aurons ainsi une *DataFrame*, avec en colonne le nombre de licenciés\r
par année, et en index les différents groupes.\r
\r
Nous allons faire une liste `years_dfs` qui va contenir toutes les *DataFrames*,\r
une par année, puis nous allons simplement les concaténer. Cela donne donc :\r
\r
```python\r
>>> years_dfs = []\r
>>> for year in range(2012, 2019):\r
...    fname = f"sport_license_holders_{year}.csv"\r
...    yr_df = pd.read_csv(\r
...        DATA_DIR / fname,\r
...        dtype={"dep_code": str},\r
...        index_col=["dep_code", "dep_name", "fed_code", "fed_name", "gender", "age"],\r
...    )\r
...    yr_df.rename(columns={"lic_holders": str(year)}, inplace=True)\r
...    year_dfs.append(yr_df)\r
>>>\r
```\r
\r
On concatène toutes les *DataFrames*, en fonction de l’index (`axis=1`) :\r
\r
```python\r
>>> data = pd.concat(years_df, axis=1)\r
>>> data\r
```\r
\r
![](https://www.logilab.fr/file/13252596/raw/748bab1cd694a1a4fa070391b.png)\r
\r
Nous avons ainsi une *DataFrame* avec plus de 1.6 million de lignes, et 7\r
colonnes.\r
\r
On peut maintenant afficher, par exemple, les 10 sports les plus pratiqués en\r
fonction des années :\r
\r
```python\r
>>> data_sport = data.groupby(level=["fed_code", "fed_name"]).sum()\r
>>> data_sport.nlargest(10, "2012")\r
```\r
\r
![](https://www.logilab.fr/file/13252618/raw/748bab1cd694a1a4fa0703928.png)\r
\r
Nous avons ainsi le nombre de licenciés, par fédération et par année pour les\r
10 plus grosses fédérations de 2012. Le tri est effectué par rapport aux données\r
de 2012.\r
\r
On notera qu’en 2018 il y a 0 licencié de Karaté. Cela est probablement une\r
erreur dans les données, ce qui peut arriver.\r
\r
# Tracer l'évolution du nombre de licenciés avec Plotly\r
\r
Nous pouvons maintenant suivre l’évolution du nombre de licenciés dans certaines\r
disciplines. Nous sélectionnons les sports dont le code de fédération est 109,\r
115, 242, 117.\r
\r
```python\r
>>> sel_data_sports = data_sports.loc[\r
...    [109, 115, 242, 117]\r
... ] # Select the rows whose value at the first level of the index (``fed_code``)\r
... # is one of the list items\r
>>> # Drop the first level of the index (``fed_code``)\r
>>> sel_data_sports = sel_data_sports.droplevel(0)\r
>>> # Will be used as the title of the legend\r
>>> sel_data_sports.index.name = "Federations"\r
>>> sel_data_sports.transpose().plot(\r
...    title="Sport license holders", xlabel="year", ylabel="number of license holders"\r
...)  # Transpose to have the years as the index (will be the X axis)\r
```\r
\r
![](https://www.logilab.fr/file/13252640/raw/748bab1cd694a1a4fa0703929.png)\r
\r
Comme nous le disions, par défaut Pandas utilise la bibliothèque *matplotlib*\r
pour générer les graphiques. La figure produite ici est statique, elle peut\r
facilement être insérée dans un rapport par exemple, mais cela présente des\r
difficultés lors de la phase d’exploration.\r
\r
Depuis quelque temps maintenant, Pandas est compatible avec plusieurs\r
bibliothèques de visualisation. Il y a notamment\r
[Plotly](https://plotly.com/python/), qui permet de faire des graphiques\r
interactifs utilisables dans le navigateur web.\r
\r
Pour utiliser *Plotly*, il est nécessaire de changer la bibliothèque utilisée\r
par défaut.\r
\r
```python\r
# Choose Plotly as the plotting back-end\r
# this has to be done only once, usually at the begining of the code\r
>>> pd.options.plotting.backend = "plotly"\r
```\r
\r
Une fois *Plotly* configurée, nous pouvons retracer le graphique, comme\r
précédemment :\r
\r
```python\r
>>> fig = sel_data_sports.transpose().plot(title="Sport license holders")\r
>>> fig.update_layout(xaxis_title="year", yaxis_title="number of license holders")\r
>>> fig\r
```\r
\r
Dans un environnement *Jupyter*, la figure produite est celle-ci, et il est\r
possible de sélectionner/désélectionner les courbes à afficher :\r
\r
![](https://www.logilab.fr/file/13252662/raw/748bab1cd694a1a4fa070392a.png)\r
\r
# Quelle est la prochaine étape ?\r
\r
Nous avons dans ce premier article, chargé avec Pandas des données textuelles au\r
format CSV.\r
Nous avons vu comment et pourquoi utiliser un index multiple. Cela nous a permis\r
de calculer quelques statistiques simples sur des groupes d’individus. Nous\r
avons également produit des visualisations avec *matplotlib* et avec *Plotly*.\r
\r
Dans le prochain article, nous utiliserons des widgets *Jupyter* pour manipuler\r
dynamiquement les données à afficher sur les graphiques.""" .

<https://www.logilab.fr/19793722> a cw:BlogEntry,
        <siocBlogPost> ;
    cw:content """Temps de lecture estimé 10 minutes.\r
\r
Dans un [article précédent](https://www.logilab.fr/blogentry/13252264) nous vous proposions une analyse de données à l’aide de la bibliothèque Pandas. Nous y avions construit une série de graphiques simples pour réaliser cette analyse. Dans cet épisode, nous allons aborder les *widgets* qui vont nous permettre de rendre ces graphiques dynamiques.\r
\r
Il est conseillé d’avoir lu l’article précédent qui détaille la structure des données utilisées.\r
\r
## Qu’est-ce qu’un *widget* ?\r
\r
Dans un calepin jupyter, le code peut facilement être édité et rejoué. Il est donc assez simple d’effectuer des changements. Il est toutefois possible que les utilisateurs finaux de l’application ne sachent pas programmer ou simplement qu’on préfère avoir un moyen simple d'interagir (sans avoir à relire le code Python et à le modifier). Dans de tels cas, les *widgets* constituent une bonne solution.\r
\r
Les *widgets* sont des objets qui sont rendus dynamiquement dans les calepins Jupyter, et avec lesquels il est possible d’interagir.\r
\r
La bibliothèque de base pour construire ces *widgets* est [`ipywidgets`](https://ipywidgets.readthedocs.io/en/latest/).\r
\r
Dans l’exemple ci-dessous, la bibliothèque est importée puis un curseur glissant est construit.\r
\r
```ipython\r
>>> import ipywidgets as ipw\r
>>> ipw.IntSlider(min=0, max=20, step=2)\r
```\r
\r
À l’exécution de la cellule Jupyter, le *widget* est affiché.\r
\r
![](https://www.logilab.fr/file/19793781/raw/e852cfbe7238489c4ae60251c.png)\r
\r
La connexion entre le *widget* affiché dans la page Web et l’objet python a été automatiquement définie. Cela signifie que si l’objet python est modifié, le rendu du *widget* est modifié et vice-versa. Dans le cas présent, l’attribut ``value`` du *widget* vaut ``6``.\r
\r
À titre d’exemple, on peut construire un curseur glissant comme ceci :\r
\r
```ipython\r
>>> slider = ipw.IntSlider(min=0, max=20, step=2)\r
>>> slider\r
```\r
\r
puis modifier dynamiquement la valeur de cet objet. Le rendu sera alors mis à jour.\r
\r
```ipython\r
>>> from time import sleep\r
>>> for i in range(0, 22, 2):\r
...    sleep(1)\r
...    slider.value = i\r
```\r
\r
![](https://www.logilab.fr/file/19793850/raw/e852cfbe7238489c4ae602520.20.15.gif)\r
\r
Les *widgets* deviennent très intéressants dès lors que l’on associe des fonctions python à des évènements. Dans l’exemple ci-dessous, nous avons défini deux *widgets* de type “curseur glissant” et un *widget* d’affichage. Nous voulons afficher dans ce dernier *widget* la somme des deux curseurs.\r
\r
On construit un *widget* de type Bouton, et on associe le clic sur ce bouton à l’appel de la fonction `compute_add` qui somme les valeurs des deux curseurs et met à jour l’affichage.\r
\r
```ipython\r
>>> from IPython.display import clear_output\r
>>> sld1 = ipw.IntSlider(min=0, max=20)\r
>>> sld2 = ipw.IntSlider(min=0, max=20)\r
>>>\r
>>> out = ipw.Output()\r
>>> with out:\r
...    print("0 + 0 = 0")\r
...\r
>>> def compute_add(evt):\r
...    with out:\r
...       clear_output()\r
...       res = sld1.value + sld2.value\r
...       print(f"{sld1.value} + {sld2.value} = {res}")\r
...\r
>>> btn = ipw.Button(description="Sum")\r
>>> btn.on_click(compute_add)\r
>>> ipw.HBox([ipw.VBox([sld1, sld2, btn]), out])\r
```\r
\r
Le rendu est alors le suivant : \r
\r
![](https://www.logilab.fr/file/19793893/raw/e852cfbe7238489c4ae602520.20.15.gif)\r
\r
\r
## Utiliser un *widget* pour sélectionner les données à afficher\r
\r
Dans l’épisode précédent, nous avions écrit une fonction pour charger toutes les données des licenciés inscrits dans les fédérations sportives pour les années 2012 à 2019. La fonction est la suivante : \r
\r
```ipython\r
>>> from pathlib import Path\r
>>> import pandas as pd\r
>>> DATA_DIR = Path().resolve() / "data"\r
>>> def load_data():\r
...    year_dfs = []\r
...    for year in range(2012, 2019):\r
...       fname = f"sport_license_holders_{year}.csv"\r
...       yr_df = pd.read_csv(\r
...          DATA_DIR / fname,\r
...          dtype={"dep_code": str},\r
...          index_col=["dep_code", "dep_name", "fed_code", "fed_name", "gender", "age"],\r
...       )\r
...       yr_df.rename(columns={"lic_holders": str(year)}, inplace=True)\r
...       year_dfs.append(yr_df)\r
...    data = pd.concat(year_dfs, axis=1)\r
...    return data\r
...\r
>>> d = load_data()\r
```\r
\r
![](https://www.logilab.fr/file/19793929/raw/e852cfbe7238489c4ae60251c.png)\r
\r
Le `DataFrame` résultant contient plus de 1.6 millions de lignes et 7 colonnes. Nous pouvons maintenant écrire une fonction très simple qui affiche l’évolution du nombre de licenciés de 2012 à 2019 pour les fédérations qui sont données en paramètre.\r
\r
\r
```ipython\r
>>> pd.options.plotting.backend = "plotly"  # Choose Plotly as the plotting back-end\r
>>> def plot_license_holders_evolution_by_sport(data, fed_codes):\r
...    data_sports = data.groupby(level=["fed_code", "fed_name"]).sum()\r
...    sel_data_sports = data_sports.loc[list(fed_codes)]\r
...    sel_data_sports = sel_data_sports.droplevel(0)\r
...    sel_data_sports.index.name = "Federations"\r
...    fig = sel_data_sports.transpose().plot(title="Sport license holders")\r
...    fig.update_layout(xaxis_title="year", yaxis_title="number of license holders")\r
...    return fig\r
...\r
>>> plot_license_holders_evolution_by_sport(d, [109, 115, 242, 117])\r
```\r
\r
![](https://www.logilab.fr/file/19793957/raw/e852cfbe7238489c4ae60251c.png)\r
\r
\r
Nous souhaitons utiliser un *widget* proposant de sélectionner une ou plusieurs disciplines, puis afficher le graphique correspondant lorsque la sélection est validée.\r
\r
La première chose que nous réalisons est un dictionnaire contenant en clef le nom des fédérations sportives et en valeur leur numéro associé. Ce dictionnaire pourra être fourni à un *widget* de type `SelectMultiple`.\r
\r
Nous utilisons le code suivant pour obtenir le dictionnaire de correspondance :\r
\r
```ipython\r
>>> def extract_federation_names_codes(data):\r
...    codes = data.index.get_level_values(\r
...        "fed_code"\r
...    )  # Extract all the values from the level ``fed_codes`` of the index\r
...    names = data.index.get_level_values(\r
...        "fed_name"\r
...    )  # Extract all the values from the level ``fed_names`` of the index\r
...    dic = {name: code for code, name in zip(codes, names)}\r
...    return dic\r
...\r
```\r
\r
Et finalement, la fonction suivante permet de construire l’interface souhaitée :\r
\r
```ipython\r
>>> from IPython.display import display\r
>>> def build_gui(data):\r
...    fed_values = extract_federation_names_codes(data)\r
...    fed_wdg = ipw.SelectMultiple(\r
...        options=fed_values, description="Sport federations", rows=20\r
...    )\r
...    plt_btn = ipw.Button(description="Plot")\r
...    out_wdg = ipw.Output()\r
...    # Define the hook function that will be called each time the button is clicked\r
...    def refresh_plot(evt):\r
...        fed_codes = fed_wdg.value\r
...        with out_wdg:\r
...            clear_output()\r
...            display(plot_license_holders_evolution_by_sport(data, fed_codes))\r
...\r
...    plt_btn.on_click(refresh_plot)\r
...    gui_wdg = ipw.HBox([ipw.VBox([fed_wdg, plt_btn]), out_wdg])\r
...    return gui_wdg\r
...\r
>>> build_gui(d)\r
```\r
\r
![](https://www.logilab.fr/file/19793992/raw/e852cfbe7238489c4ae602520.20.15.gif)\r
\r
Nous venons ainsi de faire une fonction qui construit une interface utilisateur, composée d’un *widget* permettant de faire une sélection multiple. Lorsque la sélection est validée, la fonction d’affichage du graphique est rappelée, mettant ainsi le composant à jour. Le développement de cette interface utilisateur est bien plus simple que ce que nous aurions eu à faire avec d'autres solutions comme Qt, Tkinter ou même Flask + Javascript.\r
\r
On voit que cela permet à tous les utilisateurs de faire leur propre analyse sans avoir à changer une seule ligne de code.\r
\r
Dans le prochain épisode, nous présenterons *Voila* qui permet de transformer un calepin Jupyter en une petite application Web, utilisable sans aucune connaissance de Python. Nous utiliserons également *jupyter-flex* pour obtenir une jolie application Web dotée de bulles d’aides, d’onglets et d’un menu latéral.""" ;
    cw:content_format "text/markdown" ;
    cw:creation_date "2022-06-27T12:33:43.519231+00:00"^^xsd:dateTime ;
    cw:cw_source <http://beta.logilab.fr1> ;
    cw:entry_of <https://www.logilab.fr/3792644> ;
    cw:has_creator <https://www.logilab.fr/19794100> ;
    cw:heading "Dans un article prédécent nous vous proposions une analyse de données à l’aide de la bibliothèque Pandas. Nous y avions construit une série de graphiques simples pour réaliser cette analyse. Dans cet épisode, nous allons aborder les widgets qui vont nous permettre de rendre ces graphiques dynamiques" ;
    cw:in_state <http://beta.logilab.fr1339> ;
    cw:modification_date "2022-06-27T13:11:13.019559+00:00"^^xsd:dateTime ;
    cw:title "Pandas, Plotly et Jupyter : De l’analyse de données à l’application en ligne (2/3)" ;
    cw:word_count 860 ;
    dcterms:title "Pandas, Plotly et Jupyter : De l’analyse de données à l’application en ligne (2/3)" ;
    <sioccontent> """Temps de lecture estimé 10 minutes.\r
\r
Dans un [article précédent](https://www.logilab.fr/blogentry/13252264) nous vous proposions une analyse de données à l’aide de la bibliothèque Pandas. Nous y avions construit une série de graphiques simples pour réaliser cette analyse. Dans cet épisode, nous allons aborder les *widgets* qui vont nous permettre de rendre ces graphiques dynamiques.\r
\r
Il est conseillé d’avoir lu l’article précédent qui détaille la structure des données utilisées.\r
\r
## Qu’est-ce qu’un *widget* ?\r
\r
Dans un calepin jupyter, le code peut facilement être édité et rejoué. Il est donc assez simple d’effectuer des changements. Il est toutefois possible que les utilisateurs finaux de l’application ne sachent pas programmer ou simplement qu’on préfère avoir un moyen simple d'interagir (sans avoir à relire le code Python et à le modifier). Dans de tels cas, les *widgets* constituent une bonne solution.\r
\r
Les *widgets* sont des objets qui sont rendus dynamiquement dans les calepins Jupyter, et avec lesquels il est possible d’interagir.\r
\r
La bibliothèque de base pour construire ces *widgets* est [`ipywidgets`](https://ipywidgets.readthedocs.io/en/latest/).\r
\r
Dans l’exemple ci-dessous, la bibliothèque est importée puis un curseur glissant est construit.\r
\r
```ipython\r
>>> import ipywidgets as ipw\r
>>> ipw.IntSlider(min=0, max=20, step=2)\r
```\r
\r
À l’exécution de la cellule Jupyter, le *widget* est affiché.\r
\r
![](https://www.logilab.fr/file/19793781/raw/e852cfbe7238489c4ae60251c.png)\r
\r
La connexion entre le *widget* affiché dans la page Web et l’objet python a été automatiquement définie. Cela signifie que si l’objet python est modifié, le rendu du *widget* est modifié et vice-versa. Dans le cas présent, l’attribut ``value`` du *widget* vaut ``6``.\r
\r
À titre d’exemple, on peut construire un curseur glissant comme ceci :\r
\r
```ipython\r
>>> slider = ipw.IntSlider(min=0, max=20, step=2)\r
>>> slider\r
```\r
\r
puis modifier dynamiquement la valeur de cet objet. Le rendu sera alors mis à jour.\r
\r
```ipython\r
>>> from time import sleep\r
>>> for i in range(0, 22, 2):\r
...    sleep(1)\r
...    slider.value = i\r
```\r
\r
![](https://www.logilab.fr/file/19793850/raw/e852cfbe7238489c4ae602520.20.15.gif)\r
\r
Les *widgets* deviennent très intéressants dès lors que l’on associe des fonctions python à des évènements. Dans l’exemple ci-dessous, nous avons défini deux *widgets* de type “curseur glissant” et un *widget* d’affichage. Nous voulons afficher dans ce dernier *widget* la somme des deux curseurs.\r
\r
On construit un *widget* de type Bouton, et on associe le clic sur ce bouton à l’appel de la fonction `compute_add` qui somme les valeurs des deux curseurs et met à jour l’affichage.\r
\r
```ipython\r
>>> from IPython.display import clear_output\r
>>> sld1 = ipw.IntSlider(min=0, max=20)\r
>>> sld2 = ipw.IntSlider(min=0, max=20)\r
>>>\r
>>> out = ipw.Output()\r
>>> with out:\r
...    print("0 + 0 = 0")\r
...\r
>>> def compute_add(evt):\r
...    with out:\r
...       clear_output()\r
...       res = sld1.value + sld2.value\r
...       print(f"{sld1.value} + {sld2.value} = {res}")\r
...\r
>>> btn = ipw.Button(description="Sum")\r
>>> btn.on_click(compute_add)\r
>>> ipw.HBox([ipw.VBox([sld1, sld2, btn]), out])\r
```\r
\r
Le rendu est alors le suivant : \r
\r
![](https://www.logilab.fr/file/19793893/raw/e852cfbe7238489c4ae602520.20.15.gif)\r
\r
\r
## Utiliser un *widget* pour sélectionner les données à afficher\r
\r
Dans l’épisode précédent, nous avions écrit une fonction pour charger toutes les données des licenciés inscrits dans les fédérations sportives pour les années 2012 à 2019. La fonction est la suivante : \r
\r
```ipython\r
>>> from pathlib import Path\r
>>> import pandas as pd\r
>>> DATA_DIR = Path().resolve() / "data"\r
>>> def load_data():\r
...    year_dfs = []\r
...    for year in range(2012, 2019):\r
...       fname = f"sport_license_holders_{year}.csv"\r
...       yr_df = pd.read_csv(\r
...          DATA_DIR / fname,\r
...          dtype={"dep_code": str},\r
...          index_col=["dep_code", "dep_name", "fed_code", "fed_name", "gender", "age"],\r
...       )\r
...       yr_df.rename(columns={"lic_holders": str(year)}, inplace=True)\r
...       year_dfs.append(yr_df)\r
...    data = pd.concat(year_dfs, axis=1)\r
...    return data\r
...\r
>>> d = load_data()\r
```\r
\r
![](https://www.logilab.fr/file/19793929/raw/e852cfbe7238489c4ae60251c.png)\r
\r
Le `DataFrame` résultant contient plus de 1.6 millions de lignes et 7 colonnes. Nous pouvons maintenant écrire une fonction très simple qui affiche l’évolution du nombre de licenciés de 2012 à 2019 pour les fédérations qui sont données en paramètre.\r
\r
\r
```ipython\r
>>> pd.options.plotting.backend = "plotly"  # Choose Plotly as the plotting back-end\r
>>> def plot_license_holders_evolution_by_sport(data, fed_codes):\r
...    data_sports = data.groupby(level=["fed_code", "fed_name"]).sum()\r
...    sel_data_sports = data_sports.loc[list(fed_codes)]\r
...    sel_data_sports = sel_data_sports.droplevel(0)\r
...    sel_data_sports.index.name = "Federations"\r
...    fig = sel_data_sports.transpose().plot(title="Sport license holders")\r
...    fig.update_layout(xaxis_title="year", yaxis_title="number of license holders")\r
...    return fig\r
...\r
>>> plot_license_holders_evolution_by_sport(d, [109, 115, 242, 117])\r
```\r
\r
![](https://www.logilab.fr/file/19793957/raw/e852cfbe7238489c4ae60251c.png)\r
\r
\r
Nous souhaitons utiliser un *widget* proposant de sélectionner une ou plusieurs disciplines, puis afficher le graphique correspondant lorsque la sélection est validée.\r
\r
La première chose que nous réalisons est un dictionnaire contenant en clef le nom des fédérations sportives et en valeur leur numéro associé. Ce dictionnaire pourra être fourni à un *widget* de type `SelectMultiple`.\r
\r
Nous utilisons le code suivant pour obtenir le dictionnaire de correspondance :\r
\r
```ipython\r
>>> def extract_federation_names_codes(data):\r
...    codes = data.index.get_level_values(\r
...        "fed_code"\r
...    )  # Extract all the values from the level ``fed_codes`` of the index\r
...    names = data.index.get_level_values(\r
...        "fed_name"\r
...    )  # Extract all the values from the level ``fed_names`` of the index\r
...    dic = {name: code for code, name in zip(codes, names)}\r
...    return dic\r
...\r
```\r
\r
Et finalement, la fonction suivante permet de construire l’interface souhaitée :\r
\r
```ipython\r
>>> from IPython.display import display\r
>>> def build_gui(data):\r
...    fed_values = extract_federation_names_codes(data)\r
...    fed_wdg = ipw.SelectMultiple(\r
...        options=fed_values, description="Sport federations", rows=20\r
...    )\r
...    plt_btn = ipw.Button(description="Plot")\r
...    out_wdg = ipw.Output()\r
...    # Define the hook function that will be called each time the button is clicked\r
...    def refresh_plot(evt):\r
...        fed_codes = fed_wdg.value\r
...        with out_wdg:\r
...            clear_output()\r
...            display(plot_license_holders_evolution_by_sport(data, fed_codes))\r
...\r
...    plt_btn.on_click(refresh_plot)\r
...    gui_wdg = ipw.HBox([ipw.VBox([fed_wdg, plt_btn]), out_wdg])\r
...    return gui_wdg\r
...\r
>>> build_gui(d)\r
```\r
\r
![](https://www.logilab.fr/file/19793992/raw/e852cfbe7238489c4ae602520.20.15.gif)\r
\r
Nous venons ainsi de faire une fonction qui construit une interface utilisateur, composée d’un *widget* permettant de faire une sélection multiple. Lorsque la sélection est validée, la fonction d’affichage du graphique est rappelée, mettant ainsi le composant à jour. Le développement de cette interface utilisateur est bien plus simple que ce que nous aurions eu à faire avec d'autres solutions comme Qt, Tkinter ou même Flask + Javascript.\r
\r
On voit que cela permet à tous les utilisateurs de faire leur propre analyse sans avoir à changer une seule ligne de code.\r
\r
Dans le prochain épisode, nous présenterons *Voila* qui permet de transformer un calepin Jupyter en une petite application Web, utilisable sans aucune connaissance de Python. Nous utiliserons également *jupyter-flex* pour obtenir une jolie application Web dotée de bulles d’aides, d’onglets et d’un menu latéral.""" .