Aperçu de la formation

class: title-slide, inverse

.pull-left[
# Aperçu de la formation

## Exemple complet

### Facundo Muñoz<br/>facundo.munoz@cirad.fr<br/>

![](img/CirBlanc_L230px.png)
]
.pull-right[
![](img/course_icon.svg)
]
???

Nous allons parcourir les contenus de la formation par un exemple complet.

---
layout: true

<a class="footer-link" href="https://umr-astre.pages.mia.inra.fr/training/notions_stats/">Notions de base en statistiques - umr-astre.pages.mia.inra.fr/training/notions_stats/</a>

---
background-image: url(img/jamovi-web.png)
background-size: cover

# Logiciel
## https://www.jamovi.org/

.pull-left[
- Gratuit et ouvert

- Facile d'utilisation

- Fonctionnalités suffisantes __pour cette formation__

[_Démarrer avec Jamovi_](https://jmeunierp8.github.io/ManuelJamovi/s3.html)

]
???

Nous allons utiliser Jamovi pour les exercices.

Je l'ai choisi d'après ces principes :

- Il devait être accessible à tous (gratuit)

- Les notions de base sont universelles. Et vous devez pouvoir les appliquer et utiliser dans n'importe quel logiciel. Je voulais pas vous verrouiller sur un logiciel en particulier. (ouvert, compatible)

- Il devait fournir les fonctionnalités nécessaires mais demander peu d'investissement pour apprendre à l'utiliser.

Il devait faire son travail sans se mettre dans le passage.
Si vous en avez besoin, je vous conseille de parcourir rapidement le chapitre _Demarrer avec Jamovi_ du manuel.

Cependant, ce n'est pas forcement la meilleur option pour travailler _en vrai_. Il a certaines limitations, notamment sur la manipulation de données.

__Montrer comment mettre l'interface en anglais__

---
# Données

.center[
![:scale 70%](img/clinicaltrial-dataset.png)
]

???

Nous commencerons par parler des __données__. Comment les stocker et les organiser. Les bonnes pratiques à retenir et les mauvaises habitudes à éviter.

Dans cet exemple, nous allons travailler sur des données fictives d'un essai clinique dans lequel vous testez un nouvel antidépresseur appelé __Joyzepam__.

Afin d’établir un test équitable de l’efficacité du médicament, l’étude comprend __trois médicaments distincts__ à administrer.

L’un est un __placebo__ et l’autre est un antidépresseur / médicament anti-anxiété appelé Anxifree. Un groupe de 18 participants souffrant de dépression modérée à sévère est recruté pour votre test initial. Comme les médicaments sont parfois administrés conjointement avec une thérapie psychologique, votre étude comprend 9 personnes qui suivent une thérapie cognitivo-comportementale (TCC) et 9 dont ce n’est pas le cas. Les participants sont assignés au hasard (selon la procédure du double aveugle, bien sûr) à un traitement, de sorte qu’il y a 3 personnes en TCC et 3 personnes sans traitement pour chacun des 3 médicaments. Un psychologue évalue l’humeur de chaque personne après trois mois de traitement avec chaque drogue, et l’amélioration globale de l’humeur de chaque personne est évaluée sur une échelle allant de -5 à +5.

---

# Données

<table>
 <thead>
  <tr>
   <th style="text-align:right;"> ID </th>
   <th style="text-align:left;"> drug </th>
   <th style="text-align:left;"> therapy </th>
   <th style="text-align:right;"> mood.gain </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:right;"> 1 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.5 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 2 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 3 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.1 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 4 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.6 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 5 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.4 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 6 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.2 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 7 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 1.4 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 8 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 1.7 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 9 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 1.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 10 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.6 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 11 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.9 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 12 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 13 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.1 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 14 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.8 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 15 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.2 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 16 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.8 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 17 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 18 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.4 </td>
  </tr>
</tbody>
</table>

???

La plupart du temps, les données s'organisent en forme de __tableau__ comme celui-là. En lignes et colonnes.

Il y a plusieurs manières alternatives d'organiser les données en tableaux. Certaines plus efficaces et plus sûrs que d'autres.

---
# Données

<table>
 <thead>
  <tr>
   <th style="text-align:left;"> drug </th>
   <th style="text-align:left;"> therapy </th>
   <th style="text-align:right;"> moodgain_1 </th>
   <th style="text-align:right;"> moodgain_2 </th>
   <th style="text-align:right;"> moodgain_3 </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.5 </td>
   <td style="text-align:right;"> 0.3 </td>
   <td style="text-align:right;"> 0.1 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.6 </td>
   <td style="text-align:right;"> 0.4 </td>
   <td style="text-align:right;"> 0.2 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 1.4 </td>
   <td style="text-align:right;"> 1.7 </td>
   <td style="text-align:right;"> 1.3 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.6 </td>
   <td style="text-align:right;"> 0.9 </td>
   <td style="text-align:right;"> 0.3 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.1 </td>
   <td style="text-align:right;"> 0.8 </td>
   <td style="text-align:right;"> 1.2 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.8 </td>
   <td style="text-align:right;"> 1.3 </td>
   <td style="text-align:right;"> 1.4 </td>
  </tr>
</tbody>
</table>

???

Par exemple, on aurait pu mettre les mesures pour les trois personnes qui subissent un même traitement dans de colonnes différentes.

Vous préféreriez quel format, pour quoi ?

Ceci serait très naturel pour les chercheurs qui travaillent avec les feuilles de calcul (e.g. Excel).
Colonne supplémentaire moyenne du traitement. Comparer.

Je vais vous présenter les principes du _Tidy Data_, qui essentiellement reviennent à dire :
- chaque __variable__ dans une __colonne__
- chaque __observation__ constitue une __ligne__
- chaque __cellule__ est une __mesure__ individuelle

C'est simple, mais souvent on viole ces principes, car on mélange des choses différentes : l'entrée, le stockage, l'analyse et la visualisation de données.

---
# Variables

.center[
![:scale 70%](img/clinicaltrial-dataset.png)
]

???

Ensuite, nous allons nous concentrer sur les __variables__ (colonnes).

Rôle des variables :

- Variable d'intérêt : _réponse_

- Variables _explicatives_

Type de variables (échelle de mesure) :

Quels types de variables identifiez-vous ici ?

---
# Statistique descriptive

.center[
  ![:scale 70%](https://jmeunierp8.github.io/ManuelJamovi/media/c9e24f70a1c91b2df3c450e0cb30c18f.jpg)
]

???

__Partie 2__

Méthodes pour résumer les données.

Mesures de centralité et dispersion.

Mesures d'association.

Graphiques descriptifs (e.g. box-plots)

---
# Intérêt et dangers des résumés

[Anscombe's quartet](https://en.wikipedia.org/wiki/Anscombe%27s_quartet)

.left-column[

```r
Mean(X) = 9
Mean(Y) = 7.5

SD(X) ~ 3.3
  SD(Y) ~ 2
  
Cor(X, Y) ~ 0.816
```

]

.right-column[
  ![:scale 60%](https://jmeunierp8.github.io/ManuelJamovi/media/c5ac89596e924e0340d3844e9f329624.png)
]

???

Les résumés descriptifs (tant numériques comme graphiques) facilitent l'interprétation en supprimant les détails.

Mais par la même raison, ils peuvent __cacher__ des différences importantes.

__Le quatuor d’Anscombe__. Ces quatre ensembles de données ont une corrélation de Pearson de r = 0,816, mais ils sont qualitativement différents les uns des autres.

Insister sur l'importance de vérifier les données complets avant résumer.

---
# Les palettes de couleurs

.center[
  ![](http://colorspace.r-forge.r-project.org/index_files/figure-html/palettes-1.png)
]

???

- Types de palettes selon le type de variables

- Propriétés des palettes : uniformité perceptuelle, daltonisme

- Outils pour vérifier et choisir des palettes

- 2 morales à tirer : la palette "arc-en-ciel" et les palettes par défaut de l'Excel sont mauvaises. Je vais expliquer pour quoi.

- Les défauts de jamovi sont correctes.

---
# Le modèle linéaire

`$$y = \beta_0 + \beta_1 x + \varepsilon$$`

.center[
  ![:scale 70%](https://lindeloev.github.io/tests-as-linear/index_files/figure-html/unnamed-chunk-4-1.png)
]

???

(Partie 3)

On entre en matière de __modélisation__ en revissant le modèle de régression linéaire pour essayer d'expliquer les variations d'un variable `$y$` par les variations des co-variables `$x$` (simple ou multiple)

Ça vous parle un peu ?

La beauté de la question c'est que juste avec cet outil on va pouvoir faire beaucoup des choses apparemment différentes.

- test pour la moyenne d'une population, 
- comparaison des moyennes de deux ou plusieurs groupes,
- test de corrélation
- comparaison des proportions
- versions non-paramétriques de tout ça
- ...

__sont tous des cas particuliers de ce modèle__

---
# Le modèle lineaire
## avec une variable explicative catégorielle

.center[
  ![:scale 60%](https://jmeunierp8.github.io/ManuelJamovi/media/c9e24f70a1c91b2df3c450e0cb30c18f.jpg)
]

???

Mais comment peut-on utiliser un modèle linéaire avec une variable explicative catégorielle ???

---
# Le modèle lineaire
## Faux codage (dummy coding)

.pull-left[
  ![](https://jmeunierp8.github.io/ManuelJamovi/media/8516b953422084f5225d516bac3dd69f.png)
] 
.pull-right[
  ![](img/clinicaltrial-dummy-dataset.png)
]

???

jamovi va re-coder internement les variables catégorielles en terme des variables binaires indicatrices.

variable à `$k$` niveaux -> `$k-1$` variables indicatrices

---
# Le modèle lineaire
## Comparaison de moyennes entre groupes (ANOVA)

.center[

![:scale 60%](https://lindeloev.github.io/tests-as-linear/index_files/figure-html/unnamed-chunk-27-1.png)
]

---
# Les contrastes d'hypothèse

.center[
  ![:scale 70%](https://jmeunierp8.github.io/ManuelJamovi/media/86f278d74340967201c7818314d8ffd6.jpg)
]

???

Nous allons ensuite interpréter les résultats du modèle linéaire:

__Si le modèle est correct__

- Nous estimons la valeur moyenne de `mood.gain` en 0.27 points plus élevée dans le groupe qui a pris _anxifree_ par rapport au groupe placebo.

- La différence estimée est de 1.03, pour le groupe de _joycepam_.

- La thérapie entraîne une augmentation de `mood.gain` estimée en 0.32

Mais attention, ces valeurs sont des __estimations__, donc avec de l'__incertitude__.

Nous avons quelques mesures à coté (le SE et le p-valeur) qui nos donnent quelques éléments pour évaluer la précision de l'estimation et la _signification_ des coefficients.

---
# Hypothesis testing

.center[
  ![:scale 70%](img/hypothesis-testing.png)
]

.credit[Visualization by [Kristoffer Magnusson(https://rpsychologist.com/viz)]]

???

(Partie 4)

Nous allons discuter des différents test statistiques basiques et le modèle sous-jacent correspondant.

Ainsi que discuter les concepts relevants autour des test d'hypothèses, notamment la p-valeur et la signification.

Distinction entre causalité et corrélation et entre signification et importance.

---
class: middle

# Contenus du stage (Partie 1)

.left-column[
![](img/modules-1.svg)
]

.right-column[

## Objectifs

1. Gérer, traiter et organiser les données.

2. Identifier les variables relevantes, leur rôle et leur nature.
]

---
class: middle

# Contenus du stage (Partie 2)

.left-column[
![](img/modules-2.svg)
]

.right-column[

## Objectifs

3\. Décrire les variables graphiquement et avec des paramètres descriptifs.
]

---
class: middle

# Contenus du stage (Partie 3)

.left-column[
![](img/modules-3.svg)
]

.right-column[

## Objectifs

4\. Sélectionner des modèles statistiques adaptés, vérifier leurs hypothèses et les mettre en œuvre.
]

---
class: middle

# Contenus du stage (Partie 4)

.left-column[
![](img/modules-4.svg)
]

.right-column[

## Objectifs

5\. Interpréter les résultats de l'inférence et des tests d'hypothèse fréquentistes.

]

---
class: middle

# Contenus du stage (Partie 4)

.left-column[
![](img/modules-5.svg)
]

.right-column[

## Objectifs

6\. Extraire et communiquer les conclusions. Élaborer sur les sujets de causalité, association et incertitude.

]

---
class: middle

# Merci!

Diapositives créées à l'aide du package R [**xaringan**](https://github.com/yihui/xaringan).

En s'appuyant sur [remark.js](https://remarkjs.com), [**knitr**](https://yihui.org/knitr), et [R Markdown](https://rmarkdown.rstudio.com).

<a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce(tte) œuvre est mise à disposition selon les termes de la <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr">Licence Creative Commons Attribution -  Partage dans les Mêmes Conditions 4.0 International</a>.