Annexe technique

1 Codes et noms officiels des pays du PRAPS

La Table 1.1 présente les codes ISO-A3 et les noms de référence en français et en anglais pour les 6 pays du PRAPS.

Table 1.1: Codes et noms officiels des pays du PRAPS.
ISO-A3 Nom-Fr Nom-En
BFA Burkina Faso Burkina Faso
MLI Mali Mali
MRT Mauritanie Mauritania
NER Niger Niger
SEN Sénégal Senegal
TCD Tchad Chad

2 Nombre d’unités épidémiologiques à échantillonner

Pour les 2 maladies il est question d’estimer la fraction d’unités épidémiologiques positives. Dans le cas de la PPR, une unité positive est une unité protégée ; dans le cas de la PPCB, une unité positive est une unité où la PPCB circule.

Soit \(X\) le nombre d’unités positives observées dans un échantillon de taille \(n\), tirées d’une grande population. Dans ces conditions on peut assumer que : \[X \sim \text{Binomial}(n, \pi),\]\(\pi\) c’est la vrai prévalence, \(E(X) = n\pi\) et \(SD(X) = \sqrt{n \pi(1-\pi)}\).

La prévalence inconnue \(\pi\) peut être estimée par \(\hat{\pi}=X/n\).

\(E(\hat{\pi}) = \pi\), \(SD(\hat{\pi}) = \sqrt{\pi(1-\pi)/n}\).

On peut approximer la distribution d’échantillonnage de \(\hat{\pi}\) par une distribution Normal1, avec la même moyenne et SD : \[\hat{\pi} \sim \mathcal{N}\Big(\pi, \sqrt{\pi(1-\pi)/n}\Big).\]

Un intervalle de confiance (CI) de niveau \(1-\alpha\) est \(\hat{\pi} \pm z_\alpha \sqrt{\hat{\pi}(1-\hat{\pi})/n}\), où \(P(\phi \leq z_\alpha) = 1 - \alpha/2\) et \(\phi \sim \mathcal{N}(0, 1)\). Ceci s’appelle l’intervalle de confiance de Wald puisqu’il résulte de l’inversion du test de Wald pour \(\pi\).

Pour contrôler la taille (espérée) du CI, cherchons \(n\) tel que

\[z_\alpha \sqrt{\pi(1-\pi)/n} < e,\]

pour une quantité préfixée \(e\) égale à la moitié de la largeur de l’intervalle de confiance. Ce qui donne, \[\begin{equation} n_0 \geq \frac14 z_\alpha^2/e^2 \geq \pi(1-\pi) \cdot z_\alpha^2/e^2, \tag{2.1} \end{equation}\] puisque \(\pi(1-\pi) \leq 1/4,\, \forall \pi \in (0, 1)\), qui correspond à la formule en OIE and FAO (2015).

Utilisant \(z_\alpha = 1.96\) (for a 95% CI) et \(e = 0.1\), l’équation (2.1) donne \(n \geq 96.04\), ce qui correspond avec la taille de 97.

Le calcul précédant suppose une taille infinie de la population (i.e. beaucoup plus grande que la taille d’échantillon). Quand le nombre total d’unités épidémiologiques n’est pas très grand (i.e. de l’ordre de quelques centaines, ou inférieur), il est possible de considérer un modèle hypergéometrique (échantillonnage sans remplacement) pour obtenir le même degré de précision avec un échantillon plus modeste.

Dans ce cas de figure avec une population de taille \(N\), l’écart type de la proportion observée devient (§5, Thompson 2012) \[SD(\hat\pi) = \sqrt{\frac{N - n}{N - 1} \frac{\pi(1- \pi)}{n} }.\]

Donc, nous cherchons \(n\) tel que

\[z_\alpha^2 \frac{N - n}{N - 1}\frac{\pi(1-\pi)}{n} < e^2.\]

En isolant \(n\),

\[\begin{equation} n \geq \frac1{ (N-1)/(Nn_0) + 1/N} \tag{2.2} \end{equation}\]

Qui peut à son tour être approximé par \(\frac1{1/n_0 + 1/N}\), qui est la formule d’ajustement donné par exemple sur Thrusfield (2005), p. 248, et utilisé dans les calculateurs comme 2.

Taille d'échantillon ajustée en fonction de la taille de la population (N) pour une intervalle de confiance de 95% de largeur 0.2 (e = 0.1). La ligne horizontale représente la taille d'échantillon non ajustée en suppossant une population infinie.

Figure 2.1: Taille d’échantillon ajustée en fonction de la taille de la population (N) pour une intervalle de confiance de 95% de largeur 0.2 (e = 0.1). La ligne horizontale représente la taille d’échantillon non ajustée en suppossant une population infinie.

La figure 2.1 montre comment l’avantage relatif d’utiliser l’ajustement à taille finie diminue avec la taille de la population. Toutefois, rien n’empêche d’utiliser systématiquement ce calcul.

2.1 Notes supplémentaires

  • Cette analyse suppose qu’une unité positive est évaluée parfaitement (i.e. 100 % de sensibilité et spécificité). Si la sensibilité est relativement faible (e.g. cas de la PPCB quand la prévalence des villages infectés est faible), la prévalence doit être multipliée par la sensibilité.

  • L’approximation Normale de la proportion Binomiale fonctionne lorsque \(\hat \pi\) n’est pas trop extrême. L’erreur de l’approximation dépend de la taille de l’échantillon. Une règle empirique classique est que les positifs attendus \(n\pi\) et les négatifs attendus \(n(1-\pi)\) dans l’échantillon doivent être supérieurs à 10. Par exemple, pour un échantillon de \(n = 20\), toute valeur autre que \(\pi = 0,5\) est trop extrême, alors que pour un échantillon de \(n = 100\), \(\pi\) doit se situer dans une fourchette de \((.1, .9)\).

    Il existe des alternatives plus fiables ne reposant pas sur la normalité asymptotique. Une approche particulièrement pratique est une formule de Wald ajustée par l’addition de deux succès et de deux échecs (Agresti and Coull 1998). Cela correspond à une estimation bayésienne avec une prior Beta(2, 2), et donne la même équation pour la taille de l’échantillon, mais en utilisant \(\pi^* = (x+2)/(n+4)\).

    Cependant, cela n’affecte pas le calcul de la taille de l’échantillon, qui est basé sur le pire scénario avec \(\pi = 0,5\), où la taille de l’IC est la plus grande, quel que soit l’estimateur utilisé.

  • La formulation du rapport OIE and FAO (2015) pourrait être un peu plus précise pour éviter les confusions. Par exemple :

    • Fixer la précision de l’estimation, interprétée comme la plus grande demi-taille admissible de l’IC Wald à 95% pour une proportion, à \(e = 0,1\).

    • \(z_\alpha\) est le quantile \(1 - \alpha/2\) de la distribution normale standard pour un niveau de signification de \(1 - \alpha\).

  • De manière plus générale, nous pouvons encadrer le calcul de la taille de l’échantillon comme dans Thompson (2012) :

    Nous estimons un paramètre de population \(\theta\) (par exemple, la prévalence) avec un estimateur \(\hat\theta\). Nous spécifions une précision souhaitée \(e\) comme l’erreur d’estimation maximale autorisée dans \(100(1-\alpha)\)% des échantillons. C’est-à-dire \[\begin{equation} P(|\hat\theta - \theta| > e) < \alpha. \tag{2.3} \end{equation}\]

3 Nombre d’éléments à échantillonner au sein d’une unité épidémiologique pour évaluer un seuil de prévalence

Ici, nous voulons nous assurer que nous pouvons évaluer avec la précision souhaitée si la prévalence est supérieure (ou inférieure) à un seuil requis \(\tau\).

Soit une unité épidémiologique comportant \(N\) individus à risque, avec une quantité inconnue \(M \leq N\) de séropositifs. La question qui nous intéresse est de savoir si la proportion de séropositifs (individus protégés) \(\theta = M/N\) est supérieure au seuil requis \(\tau\).

Nous prenons un échantillon de taille \(n \leq N\) et nous observons \(x \leq n\) résultats sérologiques positifs (Fig. 3.1).

Processus d'échantillonnage hypergéométrique.

Figure 3.1: Processus d’échantillonnage hypergéométrique.

Alors, \(X \sim \text{HG}(M, N, n)\) avec une fonction probabilité \[\begin{equation} p_h(x \,|\, M, N, n) = \frac{ {M \choose x} {N-M \choose n-x} }{ {N \choose n} },\, x \in [\max\{0, n + M - N\}, \min(n, M)] \tag{3.1} \end{equation}\]

L’estimateur de prévalence avec un maximum de vraisemblance pour la proportion d’individus protégés est \(\hat\theta = X/n\).

Nous voulons nous assurer que si la prévalence est inférieure au seuil, nous sommes capables de le repérer. C’est-à-dire que nous voulons que la situation où un échantillon est entièrement positif alors que l’unité n’est pas protégée soit un évènement rare. La taille de l’échantillon est choisie de manière à ce que la probabilité d’observer au moins un sérum négatif soit d’au moins 95% lorsque la prévalence est inférieure au seuil. C’est-à-dire \[ P(n - X > 0 \,|\, \theta < \tau) \geq 0.95. \]

Cette probabilité est la plus faible lorsque \(\theta = \tau\) ou, en termes absolus, lorsque \(M\) est le plus grand entier inférieur à \(\tau\cdot N\), \[ \begin{aligned} P(n - X > 0 \,|\, \theta < \tau) & \geq P(n - X > 0 \,|\, \theta = \tau) \\ & \geq 1 - P(X = n \,|\, M = \lfloor \tau\cdot N \rfloor) & \geq 1 - \frac{\lfloor \tau\cdot N \rfloor ! \, (N-n)!} {N!\, (\lfloor \tau\cdot N \rfloor - n)!}. \end{aligned} \]

Cette dernière expression est une fonction de \(\tau\), \(N\) et \(n\). Pour un seuil \(\tau\) et une taille de population \(N\), nous pouvons déterminer le plus petit \(n\) qui rend l’expression supérieure à 0.95. Il n’existe pas de formule analytique pour cela, mais nous pouvons néanmoins la calculer numériquement.

Par exemple, pour la PPR nous nous intéressons à un seuil de protection \(\tau = 0.7\). Nous pouvons calculer ainsi un tableau de la taille d’échantillon requise en fonction de la taille unitaire \(N\).

##     units
## tens 0 1 2 3 4 5 6 7 8 9
##    0 0 1 2 3 3 4 5 4 5 5
##    1 6 5 6 6 6 6 7 6 6 7
##    2 7 7 7 7 7 7 7 7 7 7
##    3 8 7 8 8 7 8 8 7 8 8
##    4 8 8 8 8 8 8 8 8 8 8
##    5 8 8 8 8 8 8 8 8 8 8
##    6 8 8 8 8 8 8 8 8 8 8
##    7 8 8 8 8 8 8 8 8 8 8
##    8 8 8 8 8 8 8 8 8 8 8
##    9 8 8 8 8 8 8 8 8 8 8

Le résultat est similaire à ce qui a été présenté dans (OIE and FAO 2015), à une unité près de différence. La différence observée est due à une approximation et un lissage supplémentaire pour obtenir une taille monotone et pour permettre des sensibilités et spécificités de tests imparfaits (Cameron and Baldock 1998). Cette variation méthodologique est disponible en ligne3.

La Figure 3.2 affiche les tailles d’échantillon pour assurer la détection de la PPCB dans le 80 % des unités avec des prévalences entre 10 et 30 %, et en supposant une sensibilité du test au niveau individuelle (e.g. village) de 80 % et de 95 %. La sensibilité plus élevée peut être atteinte avec un échantillonnage ciblé efficace. La forme en dents de scie est caractéristique des données discrètes. Pour des raisons pratiques on propose dans le protocole une approximation monotone de cette courbe en forme d’escalier.

Tailles d'échantillon nécessaires pour la détection de PPCB dans 80 %
des unités avec des prévalences de 10, 20 ou 30 %, en supposant des sensibilités de tests
individuels de 80 ou 95 %.

Figure 3.2: Tailles d’échantillon nécessaires pour la détection de PPCB dans 80 % des unités avec des prévalences de 10, 20 ou 30 %, en supposant des sensibilités de tests individuels de 80 ou 95 %.

Un outil interactif permettant de visualiser la distribution d’échantillonnage et évaluer la sensibilité de détection d’un cas positif dans différentes situations a été développé spécifiquement et mis en ligne4.

4 Évaluation du statut des unités épidémiologiques secondaires U2

Nous nous situons à nouveau dans une situation d’échantillonnage hypergéometrique (Fig. 3.1).

Soit une unité épidémiologique comportant \(N\) individus à risque, avec une quantité inconnue \(M \leq N\) de séropositifs. La question qui nous intéresse est de savoir si la proportion de séropositifs (individus protégés) \(\theta = M/N\) est supérieure au seuil requis \(\tau\).

Nous prenons un échantillon de taille \(n \leq N\) et nous observons \(x \leq n\) résultats sérologiques positifs.

Si le nombre total d’individus dans l’unité épidémiologique est inconnu mais assez grand (e.g. > 100), on peut considérer une approximation binomiale. La figure 4.1 illustre la précision de cette approximation.

Distributions de probabilité du nombre d'individus immunisés dans un échantillon de taille 12, sous un modèle hypergéometrique (sur N = 100) ou binomiale, si la prévalence au sein de l'unité est de 70 %.

Figure 4.1: Distributions de probabilité du nombre d’individus immunisés dans un échantillon de taille 12, sous un modèle hypergéometrique (sur N = 100) ou binomiale, si la prévalence au sein de l’unité est de 70 %.

L’approche privilégiée jusqu’à présent établissait un seuil d’individus séropositifs au dessus duquel l’unité était considérée comme protégée. Le seuil a été déterminé, en fonction de la taille d’échantillon, de telle manière à garantir une spécificité d’au moins 95 % sous un modèle d’échantillonnage binomiale. C’est à dire, avec un critère conservateur, pour que pas plus de 5 % des unités non-protégées soient classées de façon erronée comme protégées (erreur de Type I).

Concrètement, on choisit le nombre d’individus séropositifs \(x_0\) à partir duquel \(P(X \leq x_0) > 0.95\) pour \(X \sim \text{Bi(n, 0.7)}\), où \(n\) est la taille de l’échantillon (Figure 4.2). Cela permet d’assurer que moins de 5 % des unités non-protégées seront classées de façon erronée.

On appelle \(x_0\) le quantile à 95 % d’une binomiale de taille \(n\) et probabilité 0.7.

En revanche, on ne contrôle pas l’erreur de type II (i.e. considérer comme non-protégées des unités qui sont en réalité protégées), qui peut atteindre un maximum de 95 %.

En effet, 34 % des unités avec une prévalence de 90 % d’individus immunisées (bien au-dessus du seuil de protection) seront considérées non-protégées avec la taille d’échantillon préconisée de \(n = 12\).

Cette erreur se propage par la suite pour l’évaluation du statut de l’unité épidémiologique primaire (U1). Par exemple, un échantillon de 12 U2 évaluées comme cela donnera, à son tour, un nombre de U1 protégées distribuées comme une binomiale de paramètres \(n = 12\) et \(p = 0.66\) avec une probabilité de seulement 5 % d’être considérée comme protégée, alors que toutes ses U2 sont protégées avec une prévalence de 90 %.

Supposant un pays où toutes les communes sont protégées, avec tous les villages protégés à un taux de couverture immunitaire de 90 %, avec cette approche, nous obtiendrions une fraction de communes protégées de 5 %.

Distributions de probabilité cumulatives binomiales pour le nombre d'individus immunisés dans un échantillon de taille n, dans une unité avec une prévalence de 70 %, et quantile 95 %.

Figure 4.2: Distributions de probabilité cumulatives binomiales pour le nombre d’individus immunisés dans un échantillon de taille n, dans une unité avec une prévalence de 70 %, et quantile 95 %.

Cette procédure, bien que facile à mettre en oeuvre, entraine des résultats biaisés, à la baisse. De plus, elle ne tient pas compte de l’incertitude du classement (plus d’erreur quand la taille d’échantillon est plus petite) et n’est pas adaptée à des unités de faible taille, à cause de l’approximation binomiale.

Nous proposons une solution alternative basée sur un modèle Bayésien qui fournit la probabilité que chaque unité soit protégée.

Nous souhaitons faire une inférence sur \(M\), et prendre une décision basée sur la probabilité (postérieure) que \(M/N \geq 0,70\).

Cela s’avère relativement simple avec une approche bayésienne utilisant une prior bêta-binomial conjuguée (alias Polya) pour \(M\). En effet, nous avons une distribution postérieure pour \(M\) sous une forme fermée : \[\begin{equation} M - x\,|\,x,\alpha,\beta \sim \text{BB}(N-n, \alpha + x, \beta + n - x), \tag{4.1} \end{equation}\]\(\alpha\) et \(\beta\) sont les paramètres de la prior Beta sur la prévalence.

En outre, la prior sur la prévalence réelle nous permet de distinguer entre les études antérieures ou postérieures à la vaccination et de prendre en compte des informations disponibles sur le statut sérologique du pays.

Prior Beta avec une moyenne de .67 et précision $\phi = \alpha_0 + \beta_0 = 6$.

Figure 4.3: Prior Beta avec une moyenne de .67 et précision \(\phi = \alpha_0 + \beta_0 = 6\).

Notez que \(\alpha = \beta = 1/2\) sont des paramètres appropriés pour une prior non informative. Mais cela devrait être rarement le cas. Nous pouvons utiliser des priors différentes selon la couverture vaccinale de l’unité, avec plus ou moins d’information, en sachant que \(\phi = \alpha + \beta\) mesure la quantité d’information en termes de nombre d’individus virtuellement observés.

Si nous estimons a priori la prévalence d’individus immunisés autour de \(\mu_0 = 0.7\), avec une précision comme celle qu’apporte l’observation de \(\phi = 2\) individus, nous pouvons calculer les paramètres \(\alpha_0 = \mu_0 \phi\) et \(\beta_0 = (1 - \mu_0) \phi\) de la prior Beta correspondante (Figure 4.3).

En utilisant cette valeur postérieure, nous pouvons facilement calculer la probabilité postérieure de protection \(P(M \geq 0.7 \,N \,|\, x)\), et soit continuer à utiliser cette mesure quantitative de la protection, soit utiliser une règle de décision telle que déclarer un statut de protection lorsque cette probabilité est supérieure à un certain seuil. Disons, 90 %. Ceci est également conservateur, mais avec une prise en compte cohérente de la taille d’échantillon.

4.1 En pratique

La probabilité de protection est le complément de la probabilité cumulative de la distribution Beta-Binomial (Eq. (4.1)) évaluée en \(\lfloor \tau\cdot N \rfloor - x\).

En R, ceci peut se faire ainsi :

library(extraDistr)  # Librairie pour la distribution Beta-Binomial
N <- 52  # Nombre total d'individus dans l'unité
n <- 12  # Nombre d'individus prélèvés
x <- 10  # Nombre d'individus séropositifs dans l'échantillon
tau <- 0.7  # Seul de protection
mu0 <- 0.7  # Moyenne attendue à priori
phi <- 2    # Degré de précision à priori
a0 <- mu0 * phi
b0 <- (1-mu0) * phi
## Les valeurs de M (nombre total de séropositifs dans la population)
## entre 0 et top_M correspondent à une unité non-protégée.
## Soustraction d'une petite quantité pour le plus grand entier
## **strictement** plus petit que tau*N.
top_M <- floor(tau*N - 1e-10)
1 - pbbinom(top_M - x, size = N - n, alpha = a0 + x, beta = b0 + n - x)
## [1] 0.8895258

C’est à dire, qu’avec 10 séropositifs dans l’échantillon de taille 12 on aurait classé l’unité comme non-protégée alors qu’il y a une probabilité de 91 % qu’elle soit réellement protégée.

Si la taille de la population est inconnue, on peut utiliser une estimation de son ordre de grandeur.

5 Intervalle de confiance pour le taux de prévalence dans un sondage stratifié

Soient \(N\) unités épidémiologiques (e.g. communes) classées en \(H\) strates de tailles \(N_1, ..., N_h, ..., N_H\) telles que \(N = \sum_{h = 1}^H N_h\).

On mesure (sans erreur) le statut (positif ou négatif) de \(n = \sum_{h = 1}^H n_h\) unités, avec \(n_h\) unités échantillonnées dans chaque strate \(h\).

Un estimateur du taux de prévalence est donné par : \[\begin{equation} \hat{p}_\text{st} = \sum_{h=1}^H \dfrac{N_h}{N} \, \hat{p}_h \end{equation}\]\(\hat{p}_h = m_h / n_h\) est le taux de prévalence pour la strate \(h\), avec \(m_h \leq n_h\) le nombre de communes infectées dans le strate \(h\).

Si les unités épidémiologiques sont regroupées à l’intérieur de chaque strate (e.g. par département ou région), on peut espérer une certaine structure de dépendance. Pour en tenir compte, on estime la variance de l’estimateur de la prévalence par strate par la méthode du ratio.

Soient \(n_{h,r}\), \(n_{h,i}\) et \(m_{h,i}\): les nombres de régions dans la strate \(h\), d’UEs et d’UEs infectées dans la strate \(h\) et la région \(i\).

\[\hat{\sigma}^2_h = \dfrac{n_{h,r}}{n_{h,r} - 1} \times \dfrac{\sum_{i=1}^{n_{h,r}} \left[m_{h,i} - n_{h,i} \times \hat{p}_h \right]^2}{\left[\sum_{i=1}^{n_{h,r}} n_{h,i}\right]^2} \]

Enfin, \[\begin{equation} \hat{\sigma}^2_\text{st} = \frac1{N^2}\sum_{h = 1}^H N_h^2\,(1 - f_h)\, \hat{\sigma}^2_h \end{equation}\] est la variance d’échantillonnage de l’estimateur du taux de prévalence national, où \(f_h = n_h / N_h\) est la fraction de sondage d’unités épidémiologiques au sein de la strate.

Un intervalle de confiance asymptotique de niveau \(1 - \alpha\) peut se construire comme \(\hat{p}_\text{st} \pm z_\alpha \, \hat{\sigma}_\text{st}\), où \(P(\phi \leq z_\alpha) = 1 - \alpha/2\) et \(\phi \sim \mathcal{N}(0, 1)\).

Références

Agresti, Alan, and Brent A. Coull. 1998. “Approximate Is Better Than Exact for Interval Estimation of Binomial Proportions.” The American Statistician 52 (2): 119–26. https://doi.org/10.1080/00031305.1998.10480550.
Cameron, Angus R., and F.Chris Baldock. 1998. “A New Probability Formula for Surveys to Substantiate Freedom from Disease.” Preventive Veterinary Medicine 34 (1): 1–17. https://doi.org/10.1016/S0167-5877(97)00081-0.
OIE, and FAO. 2015. “Global Strategy For The Control And Eradication Of PPR.” ISBN: 9789290449898. OIE - FAO. https://www.oie.int/en/disease/peste-des-petits-ruminants/#ui-id-3.
Thompson, Steven K. 2012. Sampling. 3rd ed. Wiley Series in Probability and Statistics. Hoboken, N.J: Wiley.
Thrusfield, Michael. 2005. Veterinary Epidemiology. 3rd ed. Oxford: Blackwell science.

  1. Si \(\pi\) n’est pas trop extrême et \(n\) est assez large. Généralement considéré applicable pourvu que : \(n\pi > 0.05\), \(n(1-\pi) > 0.05\) et \(n > 50\).↩︎

  2. https://epitools.ausvet.com.au/oneproportion↩︎

  3. https://epitools.ausvet.com.au/freecalctwo↩︎

  4. https://famuvie.shinyapps.io/ppcb-sensitivity/↩︎