Organisation des données

class: title-slide, inverse

.pull-left[
# Organisation des données

### Facundo Muñoz<br/>facundo.munoz@cirad.fr<br/>

![](img/CirBlanc_L230px.png)
]
.pull-right[
![](https://raw.githubusercontent.com/allisonhorst/stats-illustrations/master/rstats-artwork/tidydata_6.jpg)
]
???

---
layout: true

<a class="footer-link" href="https://umr-astre.pages.mia.inra.fr/training/notions_stats/">Notions de base en statistiques - umr-astre.pages.mia.inra.fr/training/notions_stats/</a>

---
# Principes

## Faciliter :

1. l'__importation__ et le __traitement__ des données avec des différents méthodes et outils

2. la compréhension de la __structure__ des données

---
class: middle, center, inverse

# Quelques mauvaises habitudes

---
background-image: url(https://datacarpentry.org/spreadsheet-ecology-lesson/fig/2_datasheet_example.jpg)
background-size: 800px
background-position: center

# Utiliser plusieurs tables

???

C'est un cauchemar à importer !!

C'est bien pour visualiser et pour entrer des données, mais là, on parle de stockage de données. Séparons les choses !!

---
# Utiliser le format des cellules pour codifier de l'information

.pull-left[
![](https://datacarpentry.org/spreadsheet-ecology-lesson/fig/formatting.png)
]

.pull-right[
![](https://datacarpentry.org/spreadsheet-ecology-lesson/fig/good_formatting.png)
]

???

Cette information n'est pas récupéré si on lit les données dans R, par exemple.
Toute information doit être codée dans une __variable__

Encore une fois, on mélange stockage et visualisation.

---
background-image: url(https://www.tandfonline.com/na101/home/literatum/publisher/tandf/journals/content/utas20/2018/utas20.v072.i01/00031305.2017.1375989/20180424-01/images/medium/utas_a_1375989_f0002_b.gif)
background-size: 600px
background-position: center

# Cellules vides

???

- Confondre zéros et valeurs manquantes

- Vide = valeur précedante

- Agréger des entêtes qui concernent plusieurs lignes/colonnes

Mélange stockage et visualisation

---
background-image: url(https://www.tandfonline.com/na101/home/literatum/publisher/tandf/journals/content/utas20/2018/utas20.v072.i01/00031305.2017.1375989/20180424-01/images/medium/utas_a_1375989_f0005_b.gif)
background-size: 600px
background-position: center

# Structures non-rectangulaires

???

Encore...

---
# Bonnes pratiques

- Garder la __cohérence__ (codifications, majuscules, format, ...)

- Standard ISO 8601 pour les __dates__ (YYYY-MM-DD)

- __Décrire__ les variables (méta-données)

- Données et __calculs dérivés__ séparés

- __Noms__ parlants, courts et descriptifs

- __Sauvegarder__

- Stocker les données en fichiers de __texte__

.credit[[Broman KW, Woo KH (2018)](https://doi.org/10.1080/00031305.2017.1375989)]

---
class: inverse, center, middle

# Tidy data

.credit[[openscapes](https://www.openscapes.org/blog/2020/10/12/tidy-data/)]

???

En plus de respecter ces pratiques, il y a une méthode d'organisation de données pour qui repose sur les principes initiales.

---
background-image: url(https://www.openscapes.org/img/blog/tidydata/tidydata_1.jpg)
background-position: center
class: bottom, right