Corrélation et causalité : comprendre la différence
L'article pilier – la distinction fondamentale entre corrélation et causalité.
Une tendance peut s'inverser quand on segmente les données. Découvrez ce paradoxe statistique avec des exemples simples (médicaments, universités, sport) et apprenez à ne plus vous faire piéger.
Le paradoxe de Simpson est un phénomène statistique contre-intuitif : une tendance observée dans chaque groupe pris séparément peut s'inverser lorsqu'on regarde les groupes fusionnés.
Imaginez deux médicaments. Dans chaque tranche d'âge, le médicament A est plus efficace que le B. Mais quand on regarde tous les âges mélangés, c'est le médicament B qui semble meilleur. Comment est-ce possible ? C'est le paradoxe de Simpson.
Pourquoi "paradoxe" ? Parce que notre intuition nous dit : "si A est meilleur partout, A est meilleur globalement". Le paradoxe montre que c'est faux. Le résultat global dépend aussi de la taille des groupes.

Schéma montrant l'inversion de tendance (assisté Nano Banana 2)
Résultats :
| Groupe | MedA (guérisons) | MedB (guérisons) | Meilleur |
|---|---|---|---|
| Jeunes (moins de 50 ans) | 95% (190/200) | 90% (90/100) | ✅ MedA |
| Âgés (plus de 50 ans) | 70% (70/100) | 60% (60/100) | ✅ MedA |
| Tous âges confondus | 86,7% (260/300) | 75% (150/200) | ✅ MedA |
Ici, pas de paradoxe : MedA gagne partout et globalement. Jusqu'ici, tout va bien.
Maintenant, changeons les tailles d'échantillons :
| Groupe | MedA (guérisons) | MedB (guérisons) | Meilleur |
|---|---|---|---|
| Jeunes (moins de 50 ans) | 95% (190/200) | 90% (90/100) | ✅ MedA |
| Âgés (plus de 50 ans) | 70% (70/100) | 60% (120/200) | ✅ MedA |
| Tous âges confondus | 86,7% (260/300) | 70% (210/300) | ✅ MedA |
Encore une fois, MedA gagne. Mais si on change la répartition des âges dans chaque groupe, le miracle peut arriver :
| Groupe | MedA (guérisons) | MedB (guérisons) | Meilleur |
|---|---|---|---|
| Jeunes (moins de 50 ans) | 95% (95/100) | 90% (270/300) | ✅ MedA |
| Âgés (plus de 50 ans) | 70% (210/300) | 60% (60/100) | ✅ MedA |
| Tous âges confondus | 76,25% (305/400) | 82,5% (330/400) | ❌ MedB |
Leçon : La composition des groupes (ici, l'âge) est une variable cachée qui peut inverser la conclusion globale.

Schéma des deux répartitions d'âge (assisté Nano Banana 2)
Données globales :
Globalement, l'université A semble meilleure pour les femmes (60% vs 50%). Mais regardons par filière.
Détail par filière (Université A) :
| Filière | Femmes admises | Hommes admis | Différence |
|---|---|---|---|
| Droit | 40% (80/200) | 50% (50/100) | Hommes avantagés |
| Médecine | 70% (420/600) | 75% (300/400) | Hommes avantagés |
| Commerce | 55% (110/200) | 60% (60/100) | Hommes avantagés |
À l'université A, les hommes sont admis plus souvent dans chaque filière.
Détail par filière (Université B) :
| Filière | Femmes admises | Hommes admis | Différence |
|---|---|---|---|
| Droit | 30% (30/100) | 25% (25/100) | Femmes avantagées |
| Médecine | 80% (40/50) | 70% (35/50) | Femmes avantagées |
| Commerce | 40% (20/50) | 30% (30/100) | Femmes avantagées |
Pourquoi ? Parce que les femmes et les hommes ne postulent pas dans les mêmes filières. Les femmes postulent massivement dans des filières très sélectives (Droit), tandis que les hommes postulent dans des filières moins sélectives (Commerce). La répartition des candidatures est la variable cachée.
Leçon célèbre : Ce cas est inspiré d'une vraie étude sur l'admission à l'université de Berkeley dans les années 1970. L'université semblait sexiste globalement, mais l'analyse par département montrait qu'aucun département ne l'était. Le biais venait de la répartition des candidatures.

Illustration des admissions par filière (assisté Nano Banana 2)
Saison 1 :
Saison 2 :
Pierre est meilleur en saison 2, Jacques meilleur en saison 1. Mais qui est le meilleur sur l'ensemble des deux saisons ?
| Joueur | Saison 1 | Saison 2 | Total |
|---|---|---|---|
| Pierre | 30/100 (30%) | 200/600 (33,3%) | 230/700 (32,86%) |
| Jacques | 80/250 (32%) | 10/40 (25%) | 90/290 (31,03%) |
Pour créer le paradoxe, il faut des tailles d'échantillons très différentes :
| Joueur | Saison 1 | Saison 2 | Total |
|---|---|---|---|
| Pierre | 30/100 (30%) | 2/10 (20%) | 32/110 (29,1%) |
| Jacques | 80/250 (32%) | 90/300 (30%) | 170/550 (30,9%) |
Ici, Pierre est meilleur dans chaque saison (30% > 20% en saison 2, et 30% > 32% ? Non, en saison 1 Jacques est meilleur... il n'y a pas paradoxe.)
Pour un vrai paradoxe sportif :
| Joueur | Saison 1 | Saison 2 | Total |
|---|---|---|---|
| Pierre | 30/100 (30%) | 300/1000 (30%) | 330/1100 (30%) |
| Jacques | 80/200 (40%) | 200/800 (25%) | 280/1000 (28%) |
Jacques est meilleur en saison 1 (40% > 30%), meilleur en saison 2 (25% < 30% ? Non, 25% est inférieur à 30%... il n'y a pas paradoxe.)
Le paradoxe de Simpson apparaît toujours à cause d'une troisième variable qu'on n'a pas prise en compte. Cette variable est souvent appelée "variable de confusion" ou "variable cachée".
La variable cachée est l'âge. Les jeunes guérissent plus facilement que les âgés. Si un médicament est testé sur plus de jeunes que l'autre, il aura un meilleur taux global, même s'il est moins efficace dans chaque tranche d'âge.
La variable cachée est la filière. Les femmes postulent plus dans des filières sélectives, les hommes dans des filières moins sélectives. Globalement, l'université semble défavoriser les femmes, mais ce n'est pas vrai filière par filière.
La variable cachée pourrait être la difficulté des adversaires ou les conditions de jeu. Un joueur peut avoir de meilleures statistiques parce qu'il affronte des équipes plus faibles.

Illustration de la variable cachée influençant les groupes (assisté Nano Banana 2)
Ce n'est pas un simple jeu mathématique. Le paradoxe de Simpson a eu des conséquences très réelles :
Un taux de réussite moyen, un prix moyen, une satisfaction moyenne : ces indicateurs cachent souvent des disparités importantes.
Avant de conclure, découpez vos données par âge, sexe, région, canal, produit, période. Regardez si la tendance est stable.
Si un résultat global vous semble surprenant, demandez-vous : quelle est la troisième variable qui pourrait expliquer ce renversement ?
Un graphique bien fait (nuage de points, barres empilées) révèle souvent un paradoxe qu'une simple moyenne cache.
Dans les tests A/B, une randomisation bien faite équilibre les variables cachées entre les groupes. C'est la meilleure protection.
Non, c'est un "paradoxe" au sens intuitif, pas mathématique. Les chiffres ne se contredisent pas. C'est notre intuition qui est trompée. Mathématiquement, tout est cohérent : c'est la composition des groupes qui change la moyenne globale.
Le signal d'alarme est simple : si le résultat global est différent de ce que vous attendez en regardant les sous-groupes, suspectez un paradoxe. La meilleure méthode est de calculer la moyenne globale et les moyennes par segment. Si elles divergent, cherchez une variable cachée.
Les deux sont utiles, mais à des fins différentes. Le global donne une tendance générale. Le segmenté révèle les disparités et les causes. Pour une décision d'action (quel médicament prescrire ?), c'est le segmenté qui compte. Pour une communication grand public (le chômage baisse-t-il ?), le global peut suffire, à condition d'être transparent sur les limites.
Oui, absolument. Il peut se produire avec 3, 4, 10 groupes ou plus. Le principe est le même : une variable cachée (qui peut être catégorielle ou continue) crée un déséquilibre de composition entre les groupes.
Oui. Le plus célèbre est l'affaire de l'université de Berkeley (1973), qui semblait sexiste globalement mais ne l'était département par département. Autre cas : des études sur l'efficacité des traitements contre les calculs rénaux, où un traitement semblait meilleur globalement mais moins bon dans chaque sous-groupe de taille de calcul.
Prenez l'exemple des médicaments : "Imaginez deux hôpitaux. Dans chaque type de maladie, l'hôpital A guérit mieux que B. Pourtant, globalement, l'hôpital B a un meilleur taux de guérison. Pourquoi ? Parce que B reçoit plus de patients avec des maladies faciles à guérir. C'est la composition des patients qui compte, pas seulement la performance."
Le paradoxe de Simpson est un rappel puissant : les statistiques agrégées peuvent mentir, ou du moins, ne racontent qu'une partie de l'histoire. La même donnée peut dire le contraire selon qu'on la regarde globalement ou par segments.