Modélisation statistique

class: title-slide, inverse

.pull-left[
# Modélisation statistique

### Facundo Muñoz<br/>facundo.munoz@cirad.fr<br/>

![](img/CirBlanc_L230px.png)
]
.pull-right[
![](https://upload.wikimedia.org/wikipedia/commons/thumb/b/bf/Simple_random_sampling.PNG/450px-Simple_random_sampling.PNG)
.credit[
[Wikipedia](https://en.wikipedia.org/wiki/Sample_(statistics%29)
]
]
???

---
layout: true

<a class="footer-link" href="https://umr-astre.pages.mia.inra.fr/training/notions_stats/">Notions de base en statistiques - umr-astre.pages.mia.inra.fr/training/notions_stats/</a>

---

# Inférence statistique

.pull-left[
- __Statistique descriptive__

.small[Résumer, __décrire__ et représenter des observations]

- __Statistique inférentielle__

.small[Extraire des __conclusions__ (inférences) sur les processus sous-jacents]
]

.pull-right[
![](img/iceberg-statistics.jpg)
]

???

Jusqu'à présent nous avons traité les __statistiques descriptives__, qui portent sur la __description__ de ce qu'on observe.

Nous nous penchons à présent sur l'inférence statistique, qui nous permet de tirer des conclusions sur les mécanismes qui ont généré ces données.

---

# Machine statistique

.pull-left[
- __Machine__ génératrice de données

- __Simulateur__ des processus réels

- __Régler__ les commandes de la machine

- Les réglages qui __reproduisent__ au mieux
les observations nous __apprennent__ des choses sur les processus réels
]

.pull-right[
![](img/machine.gif)
![](img/centralities.gif)
]

---
class: inverse, middle, center

## __Machine__ 🠮 __modèle statistique__

## __Pièces__ 🠮 __distributions de probabilité__

## __Réglages__ 🠮 __paramètres__ du modèle

## __Mesure__ de comparaison 🠮 __vraisemblance__

???

---

# Exemple 0

.pull-left[
<img src="S6.1_modeles-statistiques_files/figure-html/unnamed-chunk-2-1.png" width="90%" />
]

.pull-right[
Modèle __Normal__

2 paramètres : 
- __localisation__ : `$\mu$` 
- __dispersion__ : `$\sigma$`

]

???

Une observation X est générée aléatoirement avec la répartition donnée par la courbe.

---

# Exemple 0

Évaluation de la __vraisemblance__

![](img/likelihood.gif)

---
# Propriétés de la Loi Normale

.pull-left[
- Noms : _Normale_, _Gaussienne_, _Cloche_ de Gauss

- _Moyenne_ `$\mu$`, _Écart type_ `$\sigma$`

- Support : tous les nombres réels `$X \in \mathbb R$`. Mais concentre le __68 - 95 - 99.7__ % dans `$\mu \pm$` (1, 2, 3) `$\sigma$`

- Symétrique
  
]

.pull-right[

`$$X \sim \mathcal{N}(\mu, \sigma)$$`

![](https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Standard_deviation_diagram.svg/1200px-Standard_deviation_diagram.svg.png)
.credit[[Wikimedia commons](https://commons.wikimedia.org/wiki/File:Standard_deviation_diagram.svg#/media/File:Standard_deviation_diagram.svg)]

]

???

La courbe représente une __densité__ de probabilité.

Probabilité = aire sous la courbe.

---
# Population et échantillon

.pull-left[
- L'__échantillon__ c'est les donnez que vous avez : c'est __concret__

- La __population__ est l'univers de possibles observations.

- C'est l'__objet__ de vos conclusions : ce qui vous êtes en train de __simuler__ avec votre modèle.

]

.pull-right[
![](https://upload.wikimedia.org/wikipedia/commons/thumb/b/bf/Simple_random_sampling.PNG/450px-Simple_random_sampling.PNG)
]

.credit[[Wikipedia](https://en.wikipedia.org/wiki/Sample_(statistics)]

???

Les termes __population__ et __échantillon__ viennent des applications initiales de la statistique, où on s'intéresse véritablement à une échantillon d'un groupe d'individus, comme on le fait toujours lors des enquêtes, par exemple.

Mais ce n'est pas toujours le cas.

Quand on collecte les données des températures moyennes mensuelles des derniers 40 ans dans l'Arctique, pour évaluer le changement climatique on est aussi en train de prendre un échantillonnage de valeurs de température. __Sur quelle population__ ?

Au bien la production d'une certaine variété de riz lors de plusieurs saisons...

---

---

???

Je n'ai pas une réponse précise. C'est discutable.

Certainement pas à tous les arbres, car nous savons que des différentes espèces ont des rythmes de croissance divers.

On peut dire : à tous les arbres qui sont à peu près dans les mêmes conditions, par rapport aux facteurs qui influent sur la croissance.

---
# Facteurs associés et processus d'échantillonnage

.pull-left[
La __population__ dépend ainsi des facteurs qui __influencent__ les observations,
de s'ils ont été __contrôlés__ ou pas, et de la méthode d'__échantillonnage__.
]

.pull-right[
<img src="S6.1_modeles-statistiques_files/figure-html/facteurs-confusion-1.png" width="90%" />
]

???

C'est là qu'on doit discuter avec l'expert du domaine.

La discussion porte sur quelles facteurs peuvent vraisemblablement __influencer__ la croissance et jusqu'à quel point.

L'année (le climat) peut être négligé, s'il n'y a pas eu des évènements climatiques extraordinaires. Mais les conclusions porteront également sur les années à climat "normal".

Le site de plantation peut être étendue à d'autres sites avec des conditions de type sol, altitude, pente, etc. similaires.

S'il y a d'autres facteurs qui varient sur la plantation (ensoleillement, type de sol, etc.), soit on les __contrôle__ en enregistrant leur valeur pour chaque observation et en les modélisant son influence, soit on les __randomise__ (ce qui augmentera la variabilité de la partie non-expliqué du modèle)

La __méthode d'échantillonnage__ n'a pas besoin d'être strictement aléatoire, mais il faut justifier qu'elle n'introduit pas des __biais__ sur le phénomène qui nous concerne.

---

.pull-left[
.tiny[
<table>
 <thead>
  <tr>
   <th style="text-align:right;"> ID </th>
   <th style="text-align:left;"> drug </th>
   <th style="text-align:left;"> therapy </th>
   <th style="text-align:right;"> mood.gain </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:right;"> 1 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.5 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 2 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 3 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.1 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 4 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.6 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 5 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.4 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 6 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 0.2 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 7 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 1.4 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 8 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 1.7 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 9 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> no.therapy </td>
   <td style="text-align:right;"> 1.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 10 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.6 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 11 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.9 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 12 </td>
   <td style="text-align:left;"> placebo </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 13 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.1 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 14 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 0.8 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 15 </td>
   <td style="text-align:left;"> anxifree </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.2 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 16 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.8 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 17 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.3 </td>
  </tr>
  <tr>
   <td style="text-align:right;"> 18 </td>
   <td style="text-align:left;"> joyzepam </td>
   <td style="text-align:left;"> CBT </td>
   <td style="text-align:right;"> 1.4 </td>
  </tr>
</tbody>
</table>
]]

.pull-right[
# Exemple 1 : Clinical Trial
Est-ce possible utiliser le modèle Normal précédent ?
<img src="S6.1_modeles-statistiques_files/figure-html/unnamed-chunk-4-1.png" width="90%" />
]

???

- Ne ressemble pas à une Normale, mais juste 18 observations !!

---
Voici quelques échantillons de __taille 18__ au hasard d'une vrai loi __Normale__

???

Continuez-vous à penser que le modèle Normal n'est pas adapté ?

- Surtout parce qu'on a trois groupes pour lesquels on a des raisons de trouver des différences

---
# Tests d'hypothèse

- Nous venons d'effectuer un __test d'hypothèse__ statistique, de façon __visuelle__

- Hypothèse __nulle__ : _Observations Normales_

- __Sous__ l'hypothèse nulle, on peut s'attendre à voir des données qui ressemblent celles de la figure précédente

- Dans une échelle entre __0 (absolument différente)__ et __1 (parfaitement ressemblant)__, à combien évalueriez-vous la __similarité__ avec les données observées ?

- Vous venez de juger une __p-valeur__ à l'œil !

- Le Test de Shapiro-Wilk donne `$p =$` 0.33

???

On s'avance un peu, me je profite l'occasion.

La seule chose qui manque pour formaliser ce test est de prendre une __mesure__ numérique qui __caractérise__ la distribution (le "__statistique__")

La valeur de __p__ se calcule alors en termes de cette mesure.

- Vérifiez dans __jamovi__

Nous creuserons sur l'interprétation des tests d'hypothèses s'il y a le temps et l'intérêt.

---

# Exemple 1 : Conclusions

- Plusieurs modèles alternatifs peuvent être __compatibles__ avec un jeu de données

- Les tests ne substituent pas le __jugement__ scientifique.

- Il n'y a pas de recettes ni des procédures mécaniques. Juste des __principes__, des __critères__ et des __compromis__.

???

D'autres modèles statistiques, Uniforme, exponentiel auraient été également vraisemblables

---

# Récapitulatif de conceptes

.pull-left[
- Statistique __descriptive__ et __inférentielle__

- __Modèle__ statistique

- __Distributions__ de probabilité

- __Paramètres__ d'un modèle

- __Vraisemblance__
]

.pull-right[
- Distribution / Loi __Normale__

- __Population__ et échantillon

- __Test d'hypothèse__

- __Hypothèse nulle__

- __p-valeur__
]

???

Demander aux participants qu'expliquent chaque un un de ces concepts avec ses propres mots.

---
class: middle

# Merci!

Diapositives créées à l'aide du package R [**xaringan**](https://github.com/yihui/xaringan).

En s'appuyant sur [remark.js](https://remarkjs.com), [**knitr**](https://yihui.org/knitr), et [R Markdown](https://rmarkdown.rstudio.com).

<a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce(tte) œuvre est mise à disposition selon les termes de la <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr">Licence Creative Commons Attribution -  Partage dans les Mêmes Conditions 4.0 International</a>.