class: title-slide, inverse .pull-left[ # Paramètres descriptifs des variables ## ### Facundo Muñoz<br/>facundo.munoz@cirad.fr<br/> ![](img/CirBlanc_L230px.png) ] .pull-right[ ![](img/centralities.gif) ] ??? --- layout: true <a class="footer-link" href="https://umr-astre.pages.mia.inra.fr/training/notions_stats/">Notions de base en statistiques - umr-astre.pages.mia.inra.fr/training/notions_stats/</a> --- # AFL margins Marge gagnante (nombre de points) pour les 176 matchs de la Ligue Australiènne de Football (AFL) joués à domicile et à l’extérieur durant la saison 2010. .small[ 56, 31, 56, 8, 32, 14, 36, 56, 19, 1, 3, 104, 43, 44, 72, 9, 28, 25, 27, 55, 20, 16, 16, 7, 23, 40, 48, 64, 22, 55, 95, 15, 49, 52, 50, 10, 65, 12, 39, 36, 3, 26, 23, 20, 43, 108, 53, 38, 4, 8, 3, 13, 66, 67, 50, 61, 36, 38, 29, 9, 81, 3, 26, 12, 36, 37, 70, 1, 35, 12, 50, 35, 9, 54, 47, 8, 47, 2, 29, 61, 38, 41, 23, 24, 1, 9, 11, 10, 29, 47, 71, 38, 49, 65, 18, 0, 16, 9, 19, 36, 60, 24, 25, 44, 55, 3, 57, 83, 84, 35, 4, 35, 26, 22, 2, 14, 19, 30, 19, 68, 11, 75, 48, 32, 36, 39, 50, 11, 0, 63, 82, 26, 3, 82, 73, 19, 33, 48, 8, 10, 53, 20, 71, 75, 76, 54, 44, 5, 22, 94, 29, 8, 98, 9, 89, 1, 101, 7, 21, 52, 42, 21, 116, 3, 44, 29, 27, 16, 6, 44, 3, 28, 38, 29, 10, 10 ] ??? Qu'est-ce que vous pouvez me dire sur les valeurs de cette variable ? Comment pourriez-vous résumer l'information contenue dans cette liste ? --- # Le concepte de distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-2-1.png" width="90%" /> ??? On peut commencer pour regarder le nombre total d'observations (176) et leur rang (0, 116). --- # Le concepte de distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-3-1.png" width="90%" /> ??? On regardant de plus près la liste de valeurs, on remarque que il y a relativement peu de valeurs "grands" (près de la borne supérieur) par rapport aux valeurs "petits". Autrement dit, que la répartition de valeurs n'est pas __uniforme__ dans ce rang de valeurs. Pour être un peu plus exactes, on précise qu'il y a presque 150 valeurs entre 0 et 60 et environ 26 entre 60 et 116. --- # Le concepte de distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-4-1.png" width="90%" /> ??? Tant qu'on y est, on peut décider d'affiner un peu plus et décrire le nombre d'observations sur des intervalles de plus en plus fins. --- # Le concepte de distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-5-1.png" width="90%" /> ??? Mais au même temps, on résume de moins en moins --- # Le concepte de distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-6-1.png" width="90%" /> ??? Mais au même temps, on résume de moins en moins --- # Le concepte de distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-7-1.png" width="90%" /> ??? Et on commence à trouver des intervalles dans lequels il n'y a pas eu aucune observation. __Pour quoi__ à votre avis ? --- # Le concepte de distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-8-1.png" width="90%" /> ??? À la limite, on décrit le nombre d'observations pour chaque possible valeur : 6 zéros, 2 uns, 8 deux, etc. Êtes-vous d'accord avec moi qu'un point intermédiaire est plus utile ? Ce graphique s'appelle __histogramme__ et représente la __distribution__ ou __répartition empirique__ de la variable. __Empirique__ parce que c'est ce qui a été observé dans notre échantillon. En contraposition à la distribution __théorique__ : ce qu'on obtiendrait si on observait une infinité de matchs, et qui lisse les petites fluctuations dues au hasard. --- class: inverse, middle, center # Mesures de tendance centrale ??? Souvent il est utile de condenser les données en quelques statistiques « sommaires » simples. Dans la plupart des situations, la première chose que vous voudrez calculer est une mesure de la __tendance centrale__. En d’autres termes, vous aimeriez savoir où se situe le « milieu » de vos données. --- # Le __centre__ d'une distribution <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-9-1.png" width="90%" /> ??? Où situeriez vous le "centre" de ces données ? --- # Moyenne <!-- `$$\bar X = \frac1N \sum_{i=1}^N X_i$$` --> <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-10-1.png" width="90%" /> ??? C'est la moyenne arithmétique tradicionnelle. Si on repartissiez la somme totale uniformement entre toutes les observations, chaque une seriez de ~ 35 points. Le __centre de gravité__ de la distribution : la somme des écarts est 0. --- # Medianne <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-11-1.png" width="90%" /> ??? La valeur __centrale__ (autant d'observations en dessous qu'on dessus). Correspond à la valeur qui sépare la __surface__ de la distribution en deux. --- # Mode <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-12-1.png" width="90%" /> ??? La valeur __la plus fréquente__ (3, en l'occurrence). Observez que dans ce cas, c'est une valeur extrême plutôt que centrale, à cause de la _répartition_ particulière des valeurs. --- class: inverse, middle, center # Quelle mesure utiliser, quand ? --- # Quelques indications | Échelle de mesure | Moyenne | Médiane | Mode | |--------------------|:-------:|:-------:|:----:| | Nominale (espèce) | | | | | Ordinale (score) | | | | | Quantitative (age) | | | | --- # Quelques indications | Échelle de mesure | Moyenne | Médiane | Mode | |--------------------|:-------:|:-------:|:----:| | Nominale (espèce) | | | 🗹 | | Ordinale (score) | | 🗹 | 🗹 | | Quantitative (age) | 🗹 | 🗹 | 🗹 | --- # Rélacion entre les paramètres ![:scale 150%](img/centralities.gif) ??? # Lexique Positive skew = right skewed = asymmetrie positive / vers la droite --- # Discussion Quelle information apporte une mesure de centralité pour la variable suivante : <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-13-1.png" width="90%" /> ??? Une mesure de centralité est utile pour les distributions unimodales. Autrement, peuvent être trompeuses. --- class: inverse, middle, center # Dispersion ## Quantifier la __variabilité__ autour de la valeur _centrale_ ??? Comment les données sont-elles _étalées_ ? A quelle distance du centre elles se trouvent typiquement ? --- # Mesures typiques - Étendue (fourchette) : écart maximale entre observations (max - min) - Écart interquartile (IQR) : `\(Q_3 - Q_1\)` (_moitié centrale_ des données) - Variance : moyenne des écarts (par rapport à la moyenne) carrés - Écart type (ET) : Racine de la variance (échelle de la variable) ??? l'IQR est comme l'étendue mais plus robuste (moins sensible à des valeurs aberrants) Noter que la moyenne (la somme) des écarts est zéro, par définition. L'Écart type cherche à caractériser l'écart _typique_. On pourrait utiliser aussi l'écart __absolut__ moyen ou encore __médian__ (par rapport à la médiane). Mais, mathématiquement, il y a de bonnes raisons de préférer les écarts au carré aux écarts absolus. Notamment, l'additivité : Var(X + Y) = Var(X) + Var(Y) --- # Exercice .middle[ - Dans __jamovi__, explorer les analyses descriptives des variables sur le jeu de données __Clinical Trial__. - Décrivez la variable `mood.gain`, en séparant par médicament (`Split by`) - Pensez-vous que le nouveau traitement est plus efficace ? ] --- class: inverse, middle, center # Association entre deux variables continues --- # Diagramme de dispersion (scatter plot) .left-column[ <table> <thead> <tr> <th style="text-align:right;"> x </th> <th style="text-align:right;"> y </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> -10 </td> <td style="text-align:right;"> -12.2 </td> </tr> <tr> <td style="text-align:right;"> -7 </td> <td style="text-align:right;"> 2.2 </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.2 </td> </tr> <tr> <td style="text-align:right;"> -13 </td> <td style="text-align:right;"> -12.8 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 13.4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 4.8 </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 18.2 </td> </tr> <tr> <td style="text-align:right;"> -14 </td> <td style="text-align:right;"> -17.8 </td> </tr> </tbody> </table> ] .right-column[ <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-15-1.png" width="90%" /> ] --- # Diagramme de dispersion (scatter plot) .left-column[ <table> <thead> <tr> <th style="text-align:right;"> x </th> <th style="text-align:right;"> y </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> -10 </td> <td style="text-align:right;"> -12.2 </td> </tr> <tr> <td style="text-align:right;"> -7 </td> <td style="text-align:right;"> 2.2 </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.2 </td> </tr> <tr> <td style="text-align:right;"> -13 </td> <td style="text-align:right;"> -12.8 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 13.4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 4.8 </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 18.2 </td> </tr> <tr> <td style="text-align:right;"> -14 </td> <td style="text-align:right;"> -17.8 </td> </tr> </tbody> </table> ] .right-column[ <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-17-1.png" width="90%" /> ] --- # Diagramme de dispersion (scatter plot) .left-column[ <table> <thead> <tr> <th style="text-align:right;"> x </th> <th style="text-align:right;"> y </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> -10 </td> <td style="text-align:right;"> -12.2 </td> </tr> <tr> <td style="text-align:right;"> -7 </td> <td style="text-align:right;"> 2.2 </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.2 </td> </tr> <tr> <td style="text-align:right;"> -13 </td> <td style="text-align:right;"> -12.8 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 13.4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 4.8 </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 18.2 </td> </tr> <tr> <td style="text-align:right;"> -14 </td> <td style="text-align:right;"> -17.8 </td> </tr> </tbody> </table> ] .right-column[ <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-19-1.png" width="90%" /> ] --- # Diagramme de dispersion (scatter plot) .left-column[ <table> <thead> <tr> <th style="text-align:right;"> x </th> <th style="text-align:right;"> y </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;background-color: lightblue !important;"> -10 </td> <td style="text-align:right;background-color: lightblue !important;"> -12.2 </td> </tr> <tr> <td style="text-align:right;"> -7 </td> <td style="text-align:right;"> 2.2 </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.2 </td> </tr> <tr> <td style="text-align:right;"> -13 </td> <td style="text-align:right;"> -12.8 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 13.4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 4.8 </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 18.2 </td> </tr> <tr> <td style="text-align:right;"> -14 </td> <td style="text-align:right;"> -17.8 </td> </tr> </tbody> </table> ] .right-column[ <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-21-1.png" width="90%" /> ] --- # Diagramme de dispersion (scatter plot) .left-column[ <table> <thead> <tr> <th style="text-align:right;"> x </th> <th style="text-align:right;"> y </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> -10 </td> <td style="text-align:right;"> -12.2 </td> </tr> <tr> <td style="text-align:right;background-color: lightblue !important;"> -7 </td> <td style="text-align:right;background-color: lightblue !important;"> 2.2 </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.2 </td> </tr> <tr> <td style="text-align:right;"> -13 </td> <td style="text-align:right;"> -12.8 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 13.4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 4.8 </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 18.2 </td> </tr> <tr> <td style="text-align:right;"> -14 </td> <td style="text-align:right;"> -17.8 </td> </tr> </tbody> </table> ] .right-column[ <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-23-1.png" width="90%" /> ] --- # Diagramme de dispersion (scatter plot) .left-column[ <table> <thead> <tr> <th style="text-align:right;"> x </th> <th style="text-align:right;"> y </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> -10 </td> <td style="text-align:right;"> -12.2 </td> </tr> <tr> <td style="text-align:right;"> -7 </td> <td style="text-align:right;"> 2.2 </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 4.2 </td> </tr> <tr> <td style="text-align:right;"> -13 </td> <td style="text-align:right;"> -12.8 </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:right;"> 13.4 </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:right;"> 4.8 </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:right;"> 18.2 </td> </tr> <tr> <td style="text-align:right;"> -14 </td> <td style="text-align:right;"> -17.8 </td> </tr> </tbody> </table> ] .right-column[ <img src="S4.1_descriptifs_files/figure-html/unnamed-chunk-25-1.png" width="90%" /> ] --- # Interprétation de la corrélation <iframe width="960px" height= "480px" src= "https://rpsychologist.com/correlation/" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: none; max-width:100%; max-height:100vh" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> ??? La corrélation mesure le degré d'__association linéaire__ (alignement) du nuage de points. --- # Corrélation linéaire .pull-left[ - Coefficient de corrélation de __Pearson__ - Degré d'association __lineaire__ - Pas forcement de __causalité__ - Indépendant de la __pente__ ] .pull-right[ ![](https://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/600px-Correlation_examples2.svg.png) .credit[[Wikipedia](https://en.wikipedia.org/wiki/Correlation_and_dependence)] ] ??? --- class: middle # Merci! Diapositives créées à l'aide du package R [**xaringan**](https://github.com/yihui/xaringan). En s'appuyant sur [remark.js](https://remarkjs.com), [**knitr**](https://yihui.org/knitr), et [R Markdown](https://rmarkdown.rstudio.com). <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce(tte) œuvre est mise à disposition selon les termes de la <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr">Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International</a>.