Conclusions et interprétations de résultats

class: title-slide, inverse

.pull-left[
# Conclusions et interprétations de résultats

### Facundo Muñoz<br/>facundo.munoz@cirad.fr<br/>

![](img/CirBlanc_L230px.png)
]
.pull-right[
![](img/NHST.png)
.credit[[Kristoffer Magnusson](https://rpsychologist.com/viz/)]
]
???

---
layout: true

<a class="footer-link" href="https://umr-astre.pages.mia.inra.fr/training/notions_stats/">Notions de base en statistiques - umr-astre.pages.mia.inra.fr/training/notions_stats/</a>

---
class: inverse, middle, center

# Corrélation et causalité

---

- Souvent, ce qui nous intéresse sont les __causes__ qui _expliquent_ les variations.

- `$X \rightarrow Y$` : Si on change `$X$`, on observe un effet sur `$Y$`
  
  - e.g. facteurs de risque

## Une variable peut être __associée__ à une autre, mais cela ne veut pas dire que la rélation est de __causalité__.

???

On peut donner des chaussures plus grands aux enfants, mais ça ne va certainement pas améliorer leur performance académique.

---

.pull-left[
## Confusion

<div id="htmlwidget-fb7472ea97560b8d8678" style="width:90%;height:216px;" class="grViz html-widget"></div>
<script type="application/json" data-for="htmlwidget-fb7472ea97560b8d8678">{"x":{"diagram":"digraph {\n\ngraph [layout = \"neato\",\n       outputorder = \"edgesfirst\",\n       bgcolor = \"white\"]\n\nnode [fontname = \"Helvetica\",\n      fontsize = \"10\",\n      shape = \"circle\",\n      fixedsize = \"true\",\n      width = \"0.5\",\n      style = \"filled\",\n      fillcolor = \"aliceblue\",\n      color = \"gray70\",\n      fontcolor = \"gray50\"]\n\nedge [fontname = \"Helvetica\",\n     fontsize = \"8\",\n     len = \"1.5\",\n     color = \"gray80\",\n     arrowsize = \"0.5\"]\n\n  \"1\" [label = \"Taille\nchaussures\", shape = \"rectangle\", fixedsize = \"FALSE\", fillcolor = \"#F0F8FF\", fontcolor = \"#000000\", pos = \"-1,1!\"] \n  \"2\" [label = \"Performance\ntests\", shape = \"rectangle\", fixedsize = \"FALSE\", fillcolor = \"#F0F8FF\", fontcolor = \"#000000\", pos = \"1,1!\"] \n  \"3\" [label = \"Nutrition,\n ...?\", shape = \"rectangle\", fixedsize = \"FALSE\", fillcolor = \"#D3D3D3\", fontcolor = \"#000000\", pos = \"0,0!\"] \n  \"3\"->\"1\" \n  \"3\"->\"2\" \n}","config":{"engine":"dot","options":null}},"evals":[],"jsHooks":[]}</script>

.small[Variable _cachée_, ou de _confusion_ non observée ?]

]

.pull-right[
## Direction causalité

<div id="htmlwidget-95cbf0ecbe2efde0908b" style="width:90%;height:216px;" class="grViz html-widget"></div>
<script type="application/json" data-for="htmlwidget-95cbf0ecbe2efde0908b">{"x":{"diagram":"digraph {\n\ngraph [layout = \"neato\",\n       outputorder = \"edgesfirst\",\n       bgcolor = \"white\"]\n\nnode [fontname = \"Helvetica\",\n      fontsize = \"10\",\n      shape = \"circle\",\n      fixedsize = \"true\",\n      width = \"0.5\",\n      style = \"filled\",\n      fillcolor = \"aliceblue\",\n      color = \"gray70\",\n      fontcolor = \"gray50\"]\n\nedge [fontname = \"Helvetica\",\n     fontsize = \"8\",\n     len = \"1.5\",\n     color = \"gray80\",\n     arrowsize = \"0.5\"]\n\n  \"1\" [label = \"Température\", shape = \"rectangle\", fixedsize = \"FALSE\", fillcolor = \"#F0F8FF\", fontcolor = \"#000000\", pos = \"-1,1!\"] \n  \"2\" [label = \"Vêtements\", shape = \"rectangle\", fixedsize = \"FALSE\", fillcolor = \"#F0F8FF\", fontcolor = \"#000000\", pos = \"1,1!\"] \n  \"1\"->\"2\" \n}","config":{"engine":"dot","options":null}},"evals":[],"jsHooks":[]}</script>

]

???

Dans le premier cas, il y a peut-être bien une relation entre les variables. Mais c'est possible qu'il y ait une troisième variable, cachée, de _confusion_ qui cause des effets sur celles observées en induisant une association.

L'association existe : les gens utilisent des vêtement plus légers avec les températures plus élevées. 
Mais ce sont les vêtements légers qui causent des températures plus élevées ou plutôt
à l'inverse ?

Ce qui paraît évident dans cet exemple, ne l'est pas toujours.

---
# Traitement de la causalité

- Parfois ce n'est pas important.

- E.g. objectif de __prédiction__.

- Mais souvent, on veut __comprendre__ les relations de causalité pour __agir__

- E.g. facteurs de __risque__ en santé, causes du changement __climatique__, etc.
  
  - __Design d'expériences__ : __contrôle__ des variables explicatives (traitement, facteurs de confusion) et __aléatorisation__ du reste.
  
  - Méthodes statistiques plus sophistiqués permettent de traiter la causalité en des études __observationnelles__

???

Ej. prédiction.

Pour un modèle épidémiologique, j'ai besoin de prédire l'abondance de moustiques, qui sont un vecteur de la maladie.

Ce n'est pas quelque chose qu'on puisse mesurer, mais il y a des expériences pour déterminer les associations avec d'autres variables observables (température, humidité, altitude, proximité à l'eau, végétation, etc.).

On observe, par exemple, que la proximité de l'eau c'est très importante (bon pouvoir prédictif). Mais ça ne m'intéresse pas forcement si c'est parce que c'est dans l'eau que les moustiques se reproduisent, ou bien parce que à proximité de l'eau il y a des animaux qui boivent et qui servent de nourriture pour les moustiques. Ou un peu de deux. Peu importe. Je veux juste pouvoir prédire l'abondance de moustiques en utilisant tout ce que j'ai à la main.

---
# Recherche massive d'associations

- Avec la disponibilité croissante de données et de moyens de mesure (satellites, GPS, senseurs automatiques, etc.) et de stockage (_cloud_, _Big Data_) on est de plus en plus en capacité de chercher des associations entre des __milliers de variables__.

- Si vous cherchez suffisamment longtemps, sur suffisamment des valeurs au hasard, complètement indépendants, éventuellement vous allez trouver des motifs et d'associations qui semblent __improbables__ par juste hasard.

.small[
- des nuages qui adoptent des formes d'une précision étonnante
- [trouvez votre date de naissance](https://www.angio.net/pi/) dans les chiffres du numéro `$\pi$`
  
  ]

- Ces associations manquent de pouvoir prédictif et sont __trompeuses__.

---
# Corrélations improbables

[![](img/correlation_science-suicides.png)](http://www.tylervigen.com/)

---
# Corrélations improbables

[![](img/correlation_divorce-margarine.png)](http://www.tylervigen.com/)

---

# Exemple de la litérature I

.small[
.pull-left[

- [Carney, Cuddy and Yap (2010), APS](http://faculty.haas.berkeley.edu/dana_carney/power.poses.PS.2010.pdf) affirmant qu'adopter certaines _postures de pouvoir_ a un effet sur vos chances de __succès__ dans la vie.

- TED talks, livre, conférences. Les auteurs ont connu effectivement [un succès](https://www.nytimes.com/2017/10/18/magazine/when-the-revolution-came-for-amy-cuddy.html).

- Cependant, les résultats ne semblent pas [réplicables](http://datacolada.org/37)

- Le première auteur, Carney, finalement [se rétracte (2015)](http://faculty.haas.berkeley.edu/dana_carney/pdf_my%20position%20on%20power%20poses.pdf).

- Cuddy, cependant, continue à défendre (et à vendre) ses conclusions

]
]

.pull-right[
![](http://datacolada.org/wp-content/uploads/2015/05/1-wonder.png)
]

???

Ce ne sont pas des simples considérations _académiques_ abstraites.

Je vous montre quelques exemples de la litérature.

---

# Exemple de la litérature II

.small[
.pull-left[
- [Beall and Tracy (2013). Psychological Science](https://pubmed.ncbi.nlm.nih.gov/23842955/)

- .quote[... des femmes sont 3 fois plus de chances de s'habiller en rouge ou rose en aux moments de fertilité maximale]

- Hypothèse : instinct animal de _signaler_ la fertilité d'une manière observable

- Pas de réplicabilité [Hone and McCullough, (2020). ](https://pubmed.ncbi.nlm.nih.gov/32112443/)

]
]

.pull-right[
![](img/fertility-red.png)
]

---

# Exemple de la litérature III

.small[
.pull-left[
- [Kanazawa (2007). Beautiful parents have more daughters ... _Journal of Theoretical Biology_](https://pubmed.ncbi.nlm.nih.gov/16949101/)

- Attractivité mesurée dans une échelle `$1-5$`

- 58% des filles chez parents cat. 5
  - 48% des filles chez parents cat. `$1-4$`

- Différence __statistiquement significative__ ($N = 3000$, `$2.44$` SE de 0, `$p = .015$`)

- Mais une simple régression du sex-ratio vs. attractivité n'est pas significative

- Problème de comparaisons multiples ?
]
]

.pull-right[
![](https://statmodeling.stat.columbia.edu/wp-content/uploads/2009/06/200965854127371-2009-07GelmanF2.jpg)

.tiny[
[A. Gelman and D. Weakliem (2008). Of beauty, sex, and power: Statistical challenges in estimating small effects.](http://www.stat.columbia.edu/~gelman/research/unpublished/power4r.pdf)
]
]

???

Ils auraient pu comparer les groupes `$1-3$` contre `$4-5$`, ou bien `$1-2$` contre `$4-5$`,
ou bien `$1$` contre `$2-5$`, etc. ou bien faire la régression, ou bien... plusieurs possibilités : "degrés de liberté du chercheur".

---
# Exemple de la litérature N

.pull-left[
[![](img/tnytm-raoult.png)](https://forbetterscience.com/2020/03/26/chloroquine-genius-didier-raoult-to-save-the-world-from-covid-19/)
]

.pull-right[
[![](img/lancet-hcq.png)](https://doi.org/10.1016/S0140-6736%2820%2931180-6)
]

???

Je n'ai pas suivi les détails de l'affaire, mais par exemple, l'étude avait été
décrit pour évaluer les données PCR aux jours 1, 4, 7 et 14.
Cependant, on reporte les données pour le jour 6.

---
# Recapitulatif

.pull-left[
- Dans les modèles statistiques on exploite les __associations__ entre variables

- Les __associations__ peuvent être conséquence de plusieurs phénomènes :
.small[
- causalité
- causalité inverse
- confusion
- biais de sélection (et autres)
- hasard
- un peu de tout
]
]

.pull-right[

- __Expériences__ conçues pour établir la causalité

- Bon sens, information préalable, __jugement scientifique__

![](img/data-vs-information.jpg)
]

---
# Conclusions

.small[
- Les statistiques fournissent d'un __outil__ de mesure, de quantification.

- Un résultat significatif ne prouve rien, en soi.

- Considérer les résultats statistiques __dans le contexte__ de l'étude et les connaissances préalables

- Les __degrés de liberté__ du chercheur : des dizaines de micro-décisions qui peuvent changer les résultat de l'étude.

- Souvent cachés derrière une vitrine d'objectivité, ce qui a conduit à une [crise de reproductibilité](https://www.nytimes.com/2017/10/18/magazine/when-the-revolution-came-for-amy-cuddy.html).
]

### Les __décisions__ et __conclusions__ sont responsabilité ultime des __chercheurs__

???

L'objectivité statistique est un mythe
Le chercheur a des larges marges de manœuvre : il choisit les variables à mesurer,
les transformations et regroupements, supprimer quelques observations aberrantes,
les méthodes et protocoles, le modèle, la quantité d'observations.

---
class: middle

# Merci!

Diapositives créées à l'aide du package R [**xaringan**](https://github.com/yihui/xaringan).

En s'appuyant sur [remark.js](https://remarkjs.com), [**knitr**](https://yihui.org/knitr), et [R Markdown](https://rmarkdown.rstudio.com).

<a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce(tte) œuvre est mise à disposition selon les termes de la <a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/deed.fr">Licence Creative Commons Attribution -  Partage dans les Mêmes Conditions 4.0 International</a>.