class: title-slide, inverse .pull-left[ # Aperçu de la formation ## Exemple complet ### Facundo Muñoz<br/>facundo.munoz@cirad.fr<br/> ![](img/CirBlanc_L230px.png) ] .pull-right[ ![](img/course_icon.svg) ] ??? Nous allons parcourir les contenus de la formation par un exemple complet. --- layout: true <a class="footer-link" href="https://umr-astre.pages.mia.inra.fr/training/notions_stats/">Notions de base en statistiques - umr-astre.pages.mia.inra.fr/training/notions_stats/</a> --- background-image: url(img/jamovi-web.png) background-size: cover # Logiciel ## https://www.jamovi.org/ .pull-left[ - Gratuit et ouvert - Facile d'utilisation - Fonctionnalités suffisantes __pour cette formation__ [_Démarrer avec Jamovi_](https://jmeunierp8.github.io/ManuelJamovi/s3.html) ] ??? Nous allons utiliser Jamovi pour les exercices. Je l'ai choisi d'après ces principes : - Il devait être accessible à tous (gratuit) - Les notions de base sont universelles. Et vous devez pouvoir les appliquer et utiliser dans n'importe quel logiciel. Je voulais pas vous verrouiller sur un logiciel en particulier. (ouvert, compatible) - Il devait fournir les fonctionnalités nécessaires mais demander peu d'investissement pour apprendre à l'utiliser. Il devait faire son travail sans se mettre dans le passage. Si vous en avez besoin, je vous conseille de parcourir rapidement le chapitre _Demarrer avec Jamovi_ du manuel. Cependant, ce n'est pas forcement la meilleur option pour travailler _en vrai_. Il a certaines limitations, notamment sur la manipulation de données. __Montrer comment mettre l'interface en anglais__ --- # Données .center[ ![:scale 70%](img/clinicaltrial-dataset.png) ] ??? Nous commencerons par parler des __données__. Comment les stocker et les organiser. Les bonnes pratiques à retenir et les mauvaises habitudes à éviter. Dans cet exemple, nous allons travailler sur des données fictives d'un essai clinique dans lequel vous testez un nouvel antidépresseur appelé __Joyzepam__. Afin d’établir un test équitable de l’efficacité du médicament, l’étude comprend __trois médicaments distincts__ à administrer. L’un est un __placebo__ et l’autre est un antidépresseur / médicament anti-anxiété appelé Anxifree. Un groupe de 18 participants souffrant de dépression modérée à sévère est recruté pour votre test initial. Comme les médicaments sont parfois administrés conjointement avec une thérapie psychologique, votre étude comprend 9 personnes qui suivent une thérapie cognitivo-comportementale (TCC) et 9 dont ce n’est pas le cas. Les participants sont assignés au hasard (selon la procédure du double aveugle, bien sûr) à un traitement, de sorte qu’il y a 3 personnes en TCC et 3 personnes sans traitement pour chacun des 3 médicaments. Un psychologue évalue l’humeur de chaque personne après trois mois de traitement avec chaque drogue, et l’amélioration globale de l’humeur de chaque personne est évaluée sur une échelle allant de -5 à +5. --- # Données <table> <thead> <tr> <th style="text-align:right;"> ID </th> <th style="text-align:left;"> drug </th> <th style="text-align:left;"> therapy </th> <th style="text-align:right;"> mood.gain </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 1 </td> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.5 </td> </tr> <tr> <td style="text-align:right;"> 2 </td> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.3 </td> </tr> <tr> <td style="text-align:right;"> 3 </td> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.1 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.6 </td> </tr> <tr> <td style="text-align:right;"> 5 </td> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.2 </td> </tr> <tr> <td style="text-align:right;"> 7 </td> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 1.4 </td> </tr> <tr> <td style="text-align:right;"> 8 </td> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 1.7 </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 1.3 </td> </tr> <tr> <td style="text-align:right;"> 10 </td> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 0.6 </td> </tr> <tr> <td style="text-align:right;"> 11 </td> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 0.9 </td> </tr> <tr> <td style="text-align:right;"> 12 </td> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 0.3 </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 1.1 </td> </tr> <tr> <td style="text-align:right;"> 14 </td> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 0.8 </td> </tr> <tr> <td style="text-align:right;"> 15 </td> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 1.2 </td> </tr> <tr> <td style="text-align:right;"> 16 </td> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 1.8 </td> </tr> <tr> <td style="text-align:right;"> 17 </td> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 1.3 </td> </tr> <tr> <td style="text-align:right;"> 18 </td> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 1.4 </td> </tr> </tbody> </table> ??? La plupart du temps, les données s'organisent en forme de __tableau__ comme celui-là. En lignes et colonnes. Il y a plusieurs manières alternatives d'organiser les données en tableaux. Certaines plus efficaces et plus sûrs que d'autres. --- # Données <table> <thead> <tr> <th style="text-align:left;"> drug </th> <th style="text-align:left;"> therapy </th> <th style="text-align:right;"> moodgain_1 </th> <th style="text-align:right;"> moodgain_2 </th> <th style="text-align:right;"> moodgain_3 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.5 </td> <td style="text-align:right;"> 0.3 </td> <td style="text-align:right;"> 0.1 </td> </tr> <tr> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 0.6 </td> <td style="text-align:right;"> 0.4 </td> <td style="text-align:right;"> 0.2 </td> </tr> <tr> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> no.therapy </td> <td style="text-align:right;"> 1.4 </td> <td style="text-align:right;"> 1.7 </td> <td style="text-align:right;"> 1.3 </td> </tr> <tr> <td style="text-align:left;"> placebo </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 0.6 </td> <td style="text-align:right;"> 0.9 </td> <td style="text-align:right;"> 0.3 </td> </tr> <tr> <td style="text-align:left;"> anxifree </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 1.1 </td> <td style="text-align:right;"> 0.8 </td> <td style="text-align:right;"> 1.2 </td> </tr> <tr> <td style="text-align:left;"> joyzepam </td> <td style="text-align:left;"> CBT </td> <td style="text-align:right;"> 1.8 </td> <td style="text-align:right;"> 1.3 </td> <td style="text-align:right;"> 1.4 </td> </tr> </tbody> </table> ??? Par exemple, on aurait pu mettre les mesures pour les trois personnes qui subissent un même traitement dans de colonnes différentes. Vous préféreriez quel format, pour quoi ? Ceci serait très naturel pour les chercheurs qui travaillent avec les feuilles de calcul (e.g. Excel). Colonne supplémentaire moyenne du traitement. Comparer. Je vais vous présenter les principes du _Tidy Data_, qui essentiellement reviennent à dire : - chaque __variable__ dans une __colonne__ - chaque __observation__ constitue une __ligne__ - chaque __cellule__ est une __mesure__ individuelle C'est simple, mais souvent on viole ces principes, car on mélange des choses différentes : l'entrée, le stockage, l'analyse et la visualisation de données. --- # Variables .center[ ![:scale 70%](img/clinicaltrial-dataset.png) ] ??? Ensuite, nous allons nous concentrer sur les __variables__ (colonnes). Rôle des variables : - Variable d'intérêt : _réponse_ - Variables _explicatives_ Type de variables (échelle de mesure) : Quels types de variables identifiez-vous ici ? --- # Statistique descriptive .center[ ![:scale 70%](https://jmeunierp8.github.io/ManuelJamovi/media/c9e24f70a1c91b2df3c450e0cb30c18f.jpg) ] ??? __Partie 2__ Méthodes pour résumer les données. Mesures de centralité et dispersion. Mesures d'association. Graphiques descriptifs (e.g. box-plots) --- # Intérêt et dangers des résumés [Anscombe's quartet](https://en.wikipedia.org/wiki/Anscombe%27s_quartet) .left-column[ ```r Mean(X) = 9 Mean(Y) = 7.5 SD(X) ~ 3.3 SD(Y) ~ 2 Cor(X, Y) ~ 0.816 ``` ] .right-column[ ![:scale 60%](https://jmeunierp8.github.io/ManuelJamovi/media/c5ac89596e924e0340d3844e9f329624.png) ] ??? Les résumés descriptifs (tant numériques comme graphiques) facilitent l'interprétation en supprimant les détails. Mais par la même raison, ils peuvent __cacher__ des différences importantes. __Le quatuor d’Anscombe__. Ces quatre ensembles de données ont une corrélation de Pearson de r = 0,816, mais ils sont qualitativement différents les uns des autres. Insister sur l'importance de vérifier les données complets avant résumer. --- # Les palettes de couleurs .center[ ![](http://colorspace.r-forge.r-project.org/index_files/figure-html/palettes-1.png) ] ??? - Types de palettes selon le type de variables - Propriétés des palettes : uniformité perceptuelle, daltonisme - Outils pour vérifier et choisir des palettes - 2 morales à tirer : la palette "arc-en-ciel" et les palettes par défaut de l'Excel sont mauvaises. Je vais expliquer pour quoi. - Les défauts de jamovi sont correctes. --- # Le modèle linéaire `$$y = \beta_0 + \beta_1 x + \varepsilon$$` .center[ ![:scale 70%](https://lindeloev.github.io/tests-as-linear/index_files/figure-html/unnamed-chunk-4-1.png) ] ??? (Partie 3) On entre en matière de __modélisation__ en revissant le modèle de régression linéaire pour essayer d'expliquer les variations d'un variable `\(y\)` par les variations des co-variables `\(x\)` (simple ou multiple) Ça vous parle un peu ? La beauté de la question c'est que juste avec cet outil on va pouvoir faire beaucoup des choses apparemment différentes. - test pour la moyenne d'une population, - comparaison des moyennes de deux ou plusieurs groupes, - test de corrélation - comparaison des proportions - versions non-paramétriques de tout ça - ... __sont tous des cas particuliers de ce modèle__ --- # Le modèle lineaire ## avec une variable explicative catégorielle .center[ ![:scale 60%](https://jmeunierp8.github.io/ManuelJamovi/media/c9e24f70a1c91b2df3c450e0cb30c18f.jpg) ] ??? Mais comment peut-on utiliser un modèle linéaire avec une variable explicative catégorielle ??? --- # Le modèle lineaire ## Faux codage (dummy coding) .pull-left[ ![](https://jmeunierp8.github.io/ManuelJamovi/media/8516b953422084f5225d516bac3dd69f.png) ] .pull-right[ ![](img/clinicaltrial-dummy-dataset.png) ] ??? jamovi va re-coder internement les variables catégorielles en terme des variables binaires indicatrices. variable à `\(k\)` niveaux -> `\(k-1\)` variables indicatrices --- # Le modèle lineaire ## Comparaison de moyennes entre groupes (ANOVA) .center[ ![:scale 60%](https://lindeloev.github.io/tests-as-linear/index_files/figure-html/unnamed-chunk-27-1.png) ] --- # Les contrastes d'hypothèse .center[ ![:scale 70%](https://jmeunierp8.github.io/ManuelJamovi/media/86f278d74340967201c7818314d8ffd6.jpg) ] ??? Nous allons ensuite interpréter les résultats du modèle linéaire: __Si le modèle est correct__ - Nous estimons la valeur moyenne de `mood.gain` en 0.27 points plus élevée dans le groupe qui a pris _anxifree_ par rapport au groupe placebo. - La différence estimée est de 1.03, pour le groupe de _joycepam_. - La thérapie entraîne une augmentation de `mood.gain` estimée en 0.32 Mais attention, ces valeurs sont des __estimations__, donc avec de l'__incertitude__. Nous avons quelques mesures à coté (le SE et le p-valeur) qui nos donnent quelques éléments pour évaluer la précision de l'estimation et la _signification_ des coefficients. --- # Hypothesis testing .center[ ![:scale 70%](img/hypothesis-testing.png) ] .credit[Visualization by [Kristoffer Magnusson(https://rpsychologist.com/viz)]] ??? (Partie 4) Nous allons discuter des différents test statistiques basiques et le modèle sous-jacent correspondant. Ainsi que discuter les concepts relevants autour des test d'hypothèses, notamment la p-valeur et la signification. Distinction entre causalité et corrélation et entre signification et importance. --- class: middle # Contenus du stage (Partie 1) .left-column[ ![](img/modules-1.svg) ] .right-column[ ## Objectifs 1. Gérer, traiter et organiser les données. 2. Identifier les variables relevantes, leur rôle et leur nature. ] --- class: middle # Contenus du stage (Partie 2) .left-column[ ![](img/modules-2.svg) ] .right-column[ ## Objectifs 3\. Décrire les variables graphiquement et avec des paramètres descriptifs. ] --- class: middle # Contenus du stage (Partie 3) .left-column[ ![](img/modules-3.svg) ] .right-column[ ## Objectifs 4\. Sélectionner des modèles statistiques adaptés, vérifier leurs hypothèses et les mettre en œuvre. ] --- class: middle # Contenus du stage (Partie 4) .left-column[ ![](img/modules-4.svg) ] .right-column[ ## Objectifs 5\. Interpréter les résultats de l'inférence et des tests d'hypothèse fréquentistes. ] --- class: middle # Contenus du stage (Partie 4) .left-column[ ![](img/modules-5.svg) ] .right-column[ ## Objectifs 6\. Extraire et communiquer les conclusions. Élaborer sur les sujets de causalité, association et incertitude. ] --- class: middle # Merci! Diapositives créées à l'aide du package R [**xaringan**](https://github.com/yihui/xaringan). En s'appuyant sur [remark.js](https://remarkjs.com), [**knitr**](https://yihui.org/knitr), et [R Markdown](https://rmarkdown.rstudio.com). <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce(tte) œuvre est mise à disposition selon les termes de la <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr">Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International</a>.