Suite à ce thread (“emboité”): https://twitter.com/ChrisGodlak/status/1328820110782500875?s=20, je me suis intéressé statistiquement aux relations entre les %pcr+ covid-19 par classe d’âge en France
J’utilise les données publiques officielles (extraction du 17nov2020): https://www.data.gouv.fr/fr/datasets/donnees-relatives-aux-resultats-des-tests-virologiques-covid-19/
J’ai procédé en 3 étapes: analyse graphique, régression linéaire, régression linéaire sur fenêtres glissantes
Je me focalise sur la relation entre les %pcr+ classe d’âge 9 (0–9 ans), 19 (10–19ans), 29 (20–29ans) et les %pcr+ classe d’âge 39, 69 et 89. Je le fais en considérant des valeurs retardées (de 7 et 14 jours) pour les %pcr+ des classes 9, 19, 29. Je considère également les moyennes mobiles (7 jours) de toutes les variables.
Je présente d’abord les résultats de l’analyse graphique, en commençant par la relation entre enfants et les classes 39, 69 et 89:






On constate que ces relations sont similaires; partiellement linéaire puis, à partir d’un taux de pcr+ autour de 10% pour les enfants, la relation diverge: si on prend comme référence les enfants, à mesure qu’ils sont davantage positifs, la positivité des autres âges est plus faible. Effet d’immunité? En tout cas, en considérant que les retards dans les variables des %pcr+ enfants puissent servir à inférer une causalité, on peut pondérer l’affirmation que ce sont les enfants qui contamineraient les moins jeunes.
Je présente ensuite les graphiques pour les relations entre les jeunes (classes 19 et 29) et les 89.




On constate des formes similaires, mais sensiblement plus sinusoïdales, suggérant une forme de “sous-proportionnalité” initiale; des %pcr+ chez les jeunes sont associés à moins de %pcr+ chez les 80–89 ans. Puis cette relation devient “sur-proportionnelle” (%pcr+ jeunes associés à plus de %pcr+ dans classe 89), pour terminer décroissante (i.e. davantage de %pcr+ chez jeunes associés à nettement moins de %pcr+ chez les 80–89 ans). A nouveau, effet immunité? En tout cas, encore une fois, cela pondère l’affirmation que ce serait les jeunes qui contamineraient les personnes âgées.
Dans un deuxième temps, je procède à des régressions linéaires simples de la forme:
%pcr classe age 39 ou 69 ou 89 = constante + coef. x (%pcr classe age 9 ou 19 ou 29; retardé de 7 ou 14 jours)
moyenne mobile (7 jours) des %pcr classe age 39 ou 69 ou 89 = constante + coef. x (moyenne mobile 7 jours des %pcr classe age 9 ou 19 ou 29; retardée de 7 ou 14 jours)
L7. ou L14. indiquent que la variable est retardée de 7 ou 14 jours. m. m. 7j. indique qu’il s’agit d’une moyenne mobile (7 jours).


On constate que seuls 2 spécifications présentent des coefficients significatifs et positifs dans le premier tableau. Cela signifie qu’il y a une relation statistiquement significative et positive entre %pcr+ des enfants d’il y a 7 jours et %pcr+ chez les 30–39 et 60–69. Une hausse de 1 point de % des pcr+ est associée à une hausse de 0.276 et 0.255 points de %pcr+ respectivement chez les 30–39 et 60–69.
On constate davantage de coefficients significatifs et positifs dans le second tableau que ce soit pour les %pcr+ ou leurs moyennes mobiles, en particulier pour les relations entre les %pcr des 20–29 d’il y a 7 ou 14 jours et les %pcr+ chez les 80–89.
Cependant, nous avons vu plus haut que ces relations ne sont pas complètement linéaires. Ce qu’on obtient dans les tableaux correspond à des coefficients “moyens” qui agrègent toute l’information en 1 seul chiffre. C’est pourquoi la 3e et dernière analyse propose d’utiliser des fenêtres glissantes. Il s’agit également de régressions linéaires mais effectuées sur des fenêtres d’observations de 30 jours, qui glissent au fur et à mesure. On obtient ainsi plusieurs coefficients qui captent la relation entre %pcr+ des moins jeunes et %pcr+ des plus jeunes sur des sous-périodes de 30 jours.
J’ai effectué ces régressions en utilisant 5 spécifications et je présente les résultats sous forme de graphiques des coefficients de régression dans le temps.
eq. 1: moy. mobile 7j des %pcr+ classe 39 = constante + coef. x moy. mobile 7j des %pcr+ classe 9, retardée de 7 jours
eq. 2: moy. mobile 7j des %pcr+ classe 69 = constante + coef. x moy. mobile 7j des %pcr+ classe 9, retardée de 7 jours
eq. 3: moy. mobile 7j des %pcr+ classe 89 = constante + coef. x moy. mobile 7j des %pcr+ classe 9, retardée de 7 jours
eq. 4: moy. mobile 7j des %pcr+ classe 89 = constante + coef. x moy. mobile 7j des %pcr+ classe 19, retardée de 7 jours
eq. 5: moy. mobile 7j des %pcr+ classe 89 = constante + coef. x moy. mobile 7j des %pcr+ classe 29, retardée de 7 jours
EDIT: veuillez ne pas tenir compte de la mention “Marquage au 29oct2020” => “erreur de frappe”, my bad…





On constate que les coefficients évoluent au cours du temps, indiquant que la relation entre le %pcr+ d’il y a 7 ou 14 jours chez les plus jeunes et les %pcr+ chez les moins jeunes n’est donc pas stable. Les courbes suivent la tendance globale de l’intensité des “tests” et donc des pcr+. Mais cela illustre également que la sensibilité des moins jeunes, mesurée par le %pcr+, n’est pas forcément linéaire ni stable dans le temps.
Une analyse plus approfondie est bien évidemment nécessaire mais nécessiterait l’accès à des données plus fines.