Ne pas confondre correlation et causalite

Publié par Robin NOEL, l'équipe biodiversité, Agrobiopérigord on Thursday, December 16, 2021

Il y a 3 sortes de mensonges : les petits mensonges, les gros mensonges, et les statistiques.” — Mark Twain

La notion de corrélation est souvent confondue avec la notion de causalité : cette confusion est même parfois volontaire pour faire dire aux chiffres et aux statistiques des choses erronées ou appuyer une argumentation fallacieuse. Bien comprendre la différence entre corrélation et causalité c’est avant tout armer son esprit critique !

La causalité, c’est quand il existe un lien causal entre deux variables, deux phénomènes. La causalité n’est acquise que si le mécanisme du lien entre les deux phénomènes est connu, a été observé, décrit, voire reproduit en conditions expérimentales.

La corrélation c’est quand il y a un lien de probabilité qui est observé entre deux variables, deux phénomènes mesurés.

Les cigognes apportent les bebes

Il y a une corrélation nette entre le nombre de naissances dans une ville et le nombre de cigognes y nichant, certains en ont déduit que les cigognes apportaient les bébés. Le cerveau humain aime bien comprendre les choses, ou plutôt, il déteste ne pas comprendre et cherche impérativement à créer des liens de causalité partout où il entrevoit une corrélation.

Avant de chercher une causalité, il est nécessaire d’être précis dans les formulations de phrases pour ne pas dire de choses fausses :

Observation:

Si on construit le graphique du nombre de naissances dans une ville en fonction du nombre de cigognes qui nichent dans cette ville, on observe que dans les villes avec peu de cigognes, il y a peu de naissances et dans les villes avec beaucoup de cigogne, il y a beaucoup de naissances. On dit alors qu’il y a une corrélation entre le nombre de naissances et le nombre de cigognes pour des villes de différentes tailles. C’est ici une corrélation positive : si le nombre de naissances diminuait lorsque le nombre cigognes augmentait on aurait alors parlé de corrélation négative.

## `geom_smooth()` using formula 'y ~ x'

Ce qu’on peut dire de plus : « Il y a plus de chance d’avoir des naissances dans les villes où il y a beaucoup de cigognes » et réciproquement.

Ce qu’on ne peut pas dire : « C’est parce qu’il y a des cigognes dans les villes qu’il y a des naissances » ou réciproquement.

Dans cette situation, il n’y a pas de causalité directe entre le nombre de cigognes dans la ville et le nombre de naissances dans la ville. En fait il y a un ici « facteur caché » qu’on appelle aussi un « facteur de confusion » à savoir la taille de la ville qui a une incidence, un rapport causale, à la fois sur le nombre de personnes dans la ville donc sur le nombre de naissance et à la fois sur le nombre de sites élevés adéquates pour la nichée des cigognes.

Pour se prémunir des mauvaises interprétations, il y a plusieurs méthodes :

  • Il faut savoir qu’il y a un facteur de confusion. Ce n’est pas facile, il faut y avoir pensé et analyser les données en conséquences. C’est souvent l’expertise dans un domaine qui nous permet d’être plus critique et plus vigilent sur la possible existence d’un facteur de confusion. Cela veut dire que l’analyse de données ne peut pas se passer de quelqu’un qui a fait une démarche d’investigation dans le domaine en question, sinon c’est la porte ouverte à des interprétations parfois très fantaisistes.

  • Il faut chercher du sens et tenter d’expliquer le mécanisme du lien entre les deux phénomènes. Pour ce faire on peut s’appuyer sur d’autres études : par exemple une étude qui va faire une description des pratiques de nidification de cigognes, une étude qui va montrer qu’il y a une corrélation entre la surface de villes abandonnées et le nombre de cigogne (on rejette alors l’hypothèse d’un lien de causalité systématique entre cigogne et naissance), une étude qui montre que plus les villes sont grandes, plus il y a de naissances… C’est grâce à cette documentation qu’on augmente nos chances de trouver le facteur de confusion (s’il y en a un).

Gourous, politiques, démarcheurs en tout genre, journalistes (et même les « experts ») établissent souvent des causalités faussées ou erronées par simple erreur de raisonnement ou pour vous convaincre de quelque chose. Restons alors vigilants et alertes et rappelons-nous qu’une donnée ne veut rien dire sans une analyse éclairée. Et quand on vous annonce que lire des livres fait vivre plus longtemps, que manger du chocolat rend plus intelligent (car il y a une corrélation entre les prix Nobel et la consommation de chocolat dans leur pays d’origine), qu’un petit verre de vin rouge est bon pour la santé… prenez un moment pour chercher les facteurs de confusions.

« Quand on est malade, il ne faut surtout pas aller à l’hôpital : la probabilité de mourir dans un lit d’hôpital est 10 fois plus grande que dans son lit à la maison » COLUCHE

Exemples utiles en selection paysanne

Proteines et rendement

Observation:

## `geom_smooth()` using formula 'y ~ x'

Ici chaque point rouge correspond à une variété de maïs de la Maison de la Semence Paysanne de Dordogne. De manière générale, on observe que : plus une variété à un potentiel de rendement élevé, plus faible est son taux de protéine moyen. Et vice versa. Il y a ici une corrélation négative entre le taux de protéines moyen et le potentiel de rendement moyen des variétés. Cette corrélation existe à l’échelle d’un ensemble de variétés.

Ce qu’on peut dire de plus : « Il y a plus de chance d’avoir des protéines dans une variété avec un petit potentiel de rendement » et réciproquement.

Ce qu’on ne peut pas dire : « C’est parce qu’il y a un taux de protéines moyen élevé dans les variétés qu’il y a un potentiel de rendement faible » ou réciproquement.

Ici, tant que l’on n’a pas fait de recherche et que l’on ne s’est pas documenté, on ne peut pas savoir s’il y a un facteur de confusion ou un facteur commun caché.

Attention, ne concluez pas non plus que lorsque le rendement de votre culture est faible, alors le taux de protéines dans le grain sera plus élevé, ce n’est pas vrai, c’est même parfois l’inverse malheureusement… Pour une même variété, si les conditions des cultures sont limitantes, le rendement sera plus faible et la concentration de protéines dans le grain sera aussi parfois plus faible (mais jamais plus élevée…).

Pour 13 variétés de maïs de la Maison de la Semence observées dans plus de 10 contextes pédo-climatiques différents, on observe qu’il y a toujours une corrélation nulle ou postive entre taux de protéine et rendement (en gros, pour une même variété, un gain de 20 qtx/ha correspond à un gain de +0% à +0,8% de protéine dans le grain), cependant cette corrélation n’est significative que sur 2 variétés, ce qui veut dire que la variation du taux de protéines s’explique très peu avec les variations de rendements (en condition paysanne du moins).

Precocite et rendement

Observation:

De manière générale, on observe que : plus une variété est tardive, plus son potentiel de rendement est élevé. Et vice versa. Il y a ici une corrélation positive entre la durée de cycle de développement et le potentiel de rendement moyen des variétés.

Ce qu’on peut dire de plus : « Il y a plus de chance d’avoir un potentiel de rendement élevé chez une variété tardive » et réciproquement.

Ce qu’on ne peut pas dire : « C’est parce que la variété est tardive que son potentiel de rendement est élevé » ou réciproquement.

Ici, tant que l’on n’a pas fait de recherche et que l’on ne s’est pas documenté, on ne peut pas savoir s’il y a un facteur de confusion ou un facteur commun caché (le facteur commun est ici d’ordre génétique). Attention, ne concluez pas non plus qu’une sélection sur le rendement augmentera forcément la tardivité de votre variété ou alors que vous perdrez du rendement si votre variété devient plus précoce. Un article complet est dédié à ce sujet.

Placettes détourées à la batteuse pour l'estimation du rendement des variétés - Le Change (24) 2017

Figure 1: Placettes détourées à la batteuse pour l’estimation du rendement des variétés - Le Change (24) 2017

Plante isolee et taille de l’epi

Hypothèses de départ et préjugés : On entend souvent dire en sélection paysanne qu’il ne faut pas sélectionner un bel épi qui est issu d’une plante isolée car « c’est parce que la plante est isolée que l’épi est beau ». Mais est-ce si vrai que cela ?

Extrait d'un outil pédagogique sur la sélection paysanne du maïs produit par le collectif BLE du Pays Basque

Figure 2: Extrait d’un outil pédagogique sur la sélection paysanne du maïs produit par le collectif BLE du Pays Basque

Observation et commentaires :

Chez les maïs hybrides : on observe que lorsqu’une plante est isolée (pied voisin manquant), l’épi est souvent plus gros que ceux des plantes non isolées. Ainsi, chez les hybrides, il y a une corrélation entre isolement de la plante et taille de l’épi. La documentation sur les hybrides et nos connaissances sur la physiologie des plantes nous dit que plus une plante a de la place, mieux elle se développe : ces affirmations sont vraies, on connait parfaitement le mécanisme du lien entre les deux phénomènes! Il y a donc une causalité bien identifiée qui explique la corrélation.

Chez les maïs population, nous avons observé pour le moment qu’il n’y avait pas de différences significatives sur le poids des épis entre des plantes isolées et non isolées (données internes collectées sur une population de Lavergne en 2017). Pourtant, si on regarde les données sans faire de test statistique, les épis issus des plantes isolées font en moyenne 10 g de plus que les plantes non isolées. Dans la population étudiée il n’y a donc pas de corrélation entre isolement de la plante et taille de l’épi.

Mais que ce passe-t-il alors avec les populations ? Une population est composée d’individus génétiquement très diversifiés : cette diversité génétique est telle qu’elle cache d’autres sources de variations dans la taille des épis. C’est comme si l’on voulait mesurer l’effet d’un caillou jeté dans la mer au sein d’une tempête maritime. L’effet du caillou existe (c’est l’effet de l’isolement) mais les perturbations dues à la tempête (c’est l’effet de la diversité génétique) empêchent de bien observer l’effet du caillou.

Ce qu’on peut dire de plus : Dans le cas des maïs population, il y a sûrement un effet de l’isolement sur le poids de l’épi mais il est trop faible par rapport à l’effet de la diversité génétique pour pouvoir être véritablement considéré. Autrement dit : on a beaucoup de chance de se tromper si on affirme qu’il y a un effet observable de l’isolement de la plante sur le poids de l’épi.

Ce qu’on ne peut pas dire : « Il n’y a pas d’effet de l’isolement de la plante sur le poids de l’épi » : il est juste trop faible dans une population diversifiée de maïs.

Conclusion : Dans cet exemple, nous sommes dans la situation inverse du cas de la cigogne et des naissances : il existe une causalité mais un facteur de confusion nous empêche de visualiser la corrélation entre les deux phénomènes car la variation du poids de l’épi est multifactorielle.

En pratique : Ne vous préoccupez pas trop de l’isolement des pieds lors de votre sélection et restez concentrés sur vos critères de sélection : si vous voyez un très bel épi isolé : prenez-le car, à 10g près, il a une bonne génétique.

Nombre de rangs par epi et poids mille grains

Observation:

Si on mesure le poids moyen des grains d’un épi et qu’on compte le nombre de rangs par épi pour de nombreux individus au sein d’une population, on obtient le graphique ci-contre. On observe que plus le nombre de rangs par épi est élevé, plus le poids moyen des grains des épis à tendance à être faible. On observe ici, à l’échelle d’une variété, une corrélation négative entre nombre de rang et poids moyen des grains (données internes collectées sur une population de Bénastone en 2017).

Ce qu’on peut dire de plus : « Il y a plus de chance d’avoir de petits grains sur un épi qui a beaucoup de rangs ». En réciproquement

Ce qu’on ne peut pas dire avant documentation : « C’est parce qu’il y a plus de rang sur un épi que les grains sont plus petits » ou « C’est parce que les grains sont petits qu’il y a plus de rangs ».

Ce que l’on sait grâce à la documentation : Ici il y a bien une relation de causalité directe : le nombre de rang est déterminé très tôt dans le développement de la plante (environ stade 8 feuilles), plus il y a de rangs, moins les grains ont d’espace pour se développer et ils seront alors plus petits. On connait le mécanisme du lien entre les deux variables.

Exemple de deux épis constrastés sur le nombre de rangs et le poids moyens des grains

Figure 3: Exemple de deux épis constrastés sur le nombre de rangs et le poids moyens des grains