class: title-slide, inverse .pull-left[ # Organisation des données ## ### Facundo Muñoz<br/>facundo.munoz@cirad.fr<br/> ![](img/CirBlanc_L230px.png) ] .pull-right[ ![](https://raw.githubusercontent.com/allisonhorst/stats-illustrations/master/rstats-artwork/tidydata_6.jpg) ] ??? --- layout: true <a class="footer-link" href="https://umr-astre.pages.mia.inra.fr/training/notions_stats/">Notions de base en statistiques - umr-astre.pages.mia.inra.fr/training/notions_stats/</a> --- # Principes ## Faciliter : 1. l'__importation__ et le __traitement__ des données avec des différents méthodes et outils 2. la compréhension de la __structure__ des données --- class: middle, center, inverse # Quelques mauvaises habitudes --- background-image: url(https://datacarpentry.org/spreadsheet-ecology-lesson/fig/2_datasheet_example.jpg) background-size: 800px background-position: center # Utiliser plusieurs tables ??? C'est un cauchemar à importer !! C'est bien pour visualiser et pour entrer des données, mais là, on parle de stockage de données. Séparons les choses !! --- # Utiliser le format des cellules pour codifier de l'information .pull-left[ ![](https://datacarpentry.org/spreadsheet-ecology-lesson/fig/formatting.png) ] .pull-right[ ![](https://datacarpentry.org/spreadsheet-ecology-lesson/fig/good_formatting.png) ] ??? Cette information n'est pas récupéré si on lit les données dans R, par exemple. Toute information doit être codée dans une __variable__ Encore une fois, on mélange stockage et visualisation. --- background-image: url(https://www.tandfonline.com/na101/home/literatum/publisher/tandf/journals/content/utas20/2018/utas20.v072.i01/00031305.2017.1375989/20180424-01/images/medium/utas_a_1375989_f0002_b.gif) background-size: 600px background-position: center # Cellules vides ??? - Confondre zéros et valeurs manquantes - Vide = valeur précedante - Agréger des entêtes qui concernent plusieurs lignes/colonnes Mélange stockage et visualisation --- background-image: url(https://www.tandfonline.com/na101/home/literatum/publisher/tandf/journals/content/utas20/2018/utas20.v072.i01/00031305.2017.1375989/20180424-01/images/medium/utas_a_1375989_f0005_b.gif) background-size: 600px background-position: center # Structures non-rectangulaires ??? Encore... --- # Bonnes pratiques - Garder la __cohérence__ (codifications, majuscules, format, ...) - Standard ISO 8601 pour les __dates__ (YYYY-MM-DD) - __Décrire__ les variables (méta-données) - Données et __calculs dérivés__ séparés - __Noms__ parlants, courts et descriptifs - __Sauvegarder__ - Stocker les données en fichiers de __texte__ .credit[[Broman KW, Woo KH (2018)](https://doi.org/10.1080/00031305.2017.1375989)] --- class: inverse, center, middle # Tidy data .credit[[openscapes](https://www.openscapes.org/blog/2020/10/12/tidy-data/)] ??? En plus de respecter ces pratiques, il y a une méthode d'organisation de données pour qui repose sur les principes initiales. --- background-image: url(https://www.openscapes.org/img/blog/tidydata/tidydata_1.jpg) background-position: center class: bottom, right .credit[[Julie Lowndes and Allison Horst](https://www.openscapes.org/blog/2020/10/12/tidy-data/)] --- background-image: url(https://www.openscapes.org/img/blog/tidydata/tidydata_2.jpg) background-position: center class: bottom, right .credit[[Julie Lowndes and Allison Horst](https://www.openscapes.org/blog/2020/10/12/tidy-data/)] ??? Cette structure facilite la compréhension et le traitement des données. On évite des procédures et traitements ad-hoc, selon les pelucliarités de chaque situation. --- background-image: url(https://www.openscapes.org/img/blog/tidydata/tidydata_3.jpg) background-position: center class: bottom, right .credit[[Julie Lowndes and Allison Horst](https://www.openscapes.org/blog/2020/10/12/tidy-data/)] ??? Cela nous permet d'utilise des outils standard, prévus pour des données rectangulaires. On apprend à maîtriser les variables, les colonnes, et les observations, les lignes. On peut filtrer, séléctionner, combiner, résumer, calculer. Les méthodes et outils nous servent toujours. --- background-image: url(https://www.openscapes.org/img/blog/tidydata/tidydata_4.jpg) background-position: center # Facilite la collaboration .credit[[Julie Lowndes and Allison Horst](https://www.openscapes.org/blog/2020/10/12/tidy-data/)] ??? Facilite aussi la collaboration. --- background-image: url(https://www.openscapes.org/img/blog/tidydata/tidydata_5.jpg) background-position: center # Facilite l'automatisation .credit[[Julie Lowndes and Allison Horst](https://www.openscapes.org/blog/2020/10/12/tidy-data/)] ??? Facilite l'automatisation, et l’enchaînement de traitements et analyses, la mise à jour, la correction d'erreurs, etc. --- # Références - https://www.openscapes.org/blog/2020/10/12/tidy-data/ - https://datacarpentry.org/spreadsheet-ecology-lesson/ - Karl W. Broman & Kara H. Woo (2018) Data Organization in Spreadsheets, _The American Statistician_, 72:1, 2-10, [DOI:10.1080/00031305.2017.1375989](https://doi.org/10.1080/00031305.2017.1375989) - Wickham, H (2014). Tidy Data. Journal of Statistical Software 58 (10). [jstatsoft.org/v59/i10/](http://www.jstatsoft.org/v59/i10/) --- class: middle # Merci! Diapositives créées à l'aide du package R [**xaringan**](https://github.com/yihui/xaringan). En s'appuyant sur [remark.js](https://remarkjs.com), [**knitr**](https://yihui.org/knitr), et [R Markdown](https://rmarkdown.rstudio.com). <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce(tte) œuvre est mise à disposition selon les termes de la <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr">Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International</a>.