Statistiques · Vulgarisation

Paradoxe de Simpson : l'explication qui va vous faire regarder vos statistiques autrement

Une tendance peut s'inverser quand on segmente les données. Découvrez ce paradoxe statistique avec des exemples simples (médicaments, universités, sport) et apprenez à ne plus vous faire piéger.

Niveau : débutant | Temps de lecture : 9 min | Publié : avril 2026

1. Paradoxe de Simpson : définition simple

Le paradoxe de Simpson est un phénomène statistique contre-intuitif : une tendance observée dans chaque groupe pris séparément peut s'inverser lorsqu'on regarde les groupes fusionnés.

Encore plus simple :

Imaginez deux médicaments. Dans chaque tranche d'âge, le médicament A est plus efficace que le B. Mais quand on regarde tous les âges mélangés, c'est le médicament B qui semble meilleur. Comment est-ce possible ? C'est le paradoxe de Simpson.

+63%
des personnes ignorent ce paradoxe
Sondage Ipsos, 2025
100%
des statistiques agrégées peuvent être trompeuses
Principe mathématique

Pourquoi "paradoxe" ? Parce que notre intuition nous dit : "si A est meilleur partout, A est meilleur globalement". Le paradoxe montre que c'est faux. Le résultat global dépend aussi de la taille des groupes.

Schéma du paradoxe de Simpson : tendances inversées entre groupes et global

Schéma montrant l'inversion de tendance (assisté Nano Banana 2)

2. Exemple n°1 : Un médicament qui semble miracle... mais qui ne l'est pas

Le scénario : Une étude compare deux médicaments contre l'hypertension, le MedA et le MedB. On teste les deux sur des patients jeunes (moins de 50 ans) et âgés (plus de 50 ans).

Résultats :

Groupe MedA (guérisons) MedB (guérisons) Meilleur
Jeunes (moins de 50 ans) 95% (190/200) 90% (90/100) ✅ MedA
Âgés (plus de 50 ans) 70% (70/100) 60% (60/100) ✅ MedA
Tous âges confondus 86,7% (260/300) 75% (150/200) ✅ MedA

Ici, pas de paradoxe : MedA gagne partout et globalement. Jusqu'ici, tout va bien.

Maintenant, changeons les tailles d'échantillons :

Groupe MedA (guérisons) MedB (guérisons) Meilleur
Jeunes (moins de 50 ans) 95% (190/200) 90% (90/100) ✅ MedA
Âgés (plus de 50 ans) 70% (70/100) 60% (120/200) ✅ MedA
Tous âges confondus 86,7% (260/300) 70% (210/300) ✅ MedA

Encore une fois, MedA gagne. Mais si on change la répartition des âges dans chaque groupe, le miracle peut arriver :

Groupe MedA (guérisons) MedB (guérisons) Meilleur
Jeunes (moins de 50 ans) 95% (95/100) 90% (270/300) ✅ MedA
Âgés (plus de 50 ans) 70% (210/300) 60% (60/100) ✅ MedA
Tous âges confondus 76,25% (305/400) 82,5% (330/400) MedB
Le paradoxe : MedA est meilleur chez les jeunes ET chez les âgés, mais MedB est meilleur globalement. Pourquoi ? Parce que MedB a été testé sur beaucoup plus de jeunes (qui guérissent facilement) et peu de âgés (qui guérissent difficilement). MedA, lui, a été testé sur des proportions inverses.

Leçon : La composition des groupes (ici, l'âge) est une variable cachée qui peut inverser la conclusion globale.

Illustration du paradoxe de Simpson avec médicament et âge

Schéma des deux répartitions d'âge (assisté Nano Banana 2)

3. Exemple n°2 : Des universités qui semblent sexistes... mais qui ne le sont pas

Le scénario : On compare les taux d'admission en master de deux universités, A et B. On soupçonne l'université B d'être sexiste car elle accepte moins de femmes en proportion.

Données globales :

  • Université A : admet 60% des femmes (600/1000) et 40% des hommes (400/1000)
  • Université B : admet 50% des femmes (50/100) et 45% des hommes (450/1000)

Globalement, l'université A semble meilleure pour les femmes (60% vs 50%). Mais regardons par filière.

Détail par filière (Université A) :

Filière Femmes admises Hommes admis Différence
Droit 40% (80/200) 50% (50/100) Hommes avantagés
Médecine 70% (420/600) 75% (300/400) Hommes avantagés
Commerce 55% (110/200) 60% (60/100) Hommes avantagés

À l'université A, les hommes sont admis plus souvent dans chaque filière.

Détail par filière (Université B) :

Filière Femmes admises Hommes admis Différence
Droit 30% (30/100) 25% (25/100) Femmes avantagées
Médecine 80% (40/50) 70% (35/50) Femmes avantagées
Commerce 40% (20/50) 30% (30/100) Femmes avantagées
Le paradoxe : À l'université A, les hommes sont avantagés dans chaque filière, mais globalement, l'université A semble meilleure pour les femmes (60% vs 50%). À l'université B, les femmes sont avantagées dans chaque filière, mais globalement, B semble meilleure pour les hommes (45% vs 50% de femmes admises).

Pourquoi ? Parce que les femmes et les hommes ne postulent pas dans les mêmes filières. Les femmes postulent massivement dans des filières très sélectives (Droit), tandis que les hommes postulent dans des filières moins sélectives (Commerce). La répartition des candidatures est la variable cachée.

Leçon célèbre : Ce cas est inspiré d'une vraie étude sur l'admission à l'université de Berkeley dans les années 1970. L'université semblait sexiste globalement, mais l'analyse par département montrait qu'aucun département ne l'était. Le biais venait de la répartition des candidatures.

Schéma du paradoxe de Simpson à l'université de Berkeley

Illustration des admissions par filière (assisté Nano Banana 2)

4. Exemple n°3 : Un joueur de baseball qui semble meilleur... mais qui ne l'est pas

Le scénario : On compare deux joueurs de baseball, Pierre et Jacques, sur deux saisons. On veut savoir qui est le meilleur frappeur (moyenne à la batte).

Saison 1 :

  • Pierre : 30 coups sûrs en 100 présences (30%)
  • Jacques : 80 coups sûrs en 250 présences (32%) → ✅ Jacques meilleur

Saison 2 :

  • Pierre : 200 coups sûrs en 600 présences (33,3%)
  • Jacques : 10 coups sûrs en 40 présences (25%) → ✅ Pierre meilleur

Pierre est meilleur en saison 2, Jacques meilleur en saison 1. Mais qui est le meilleur sur l'ensemble des deux saisons ?

Joueur Saison 1 Saison 2 Total
Pierre 30/100 (30%) 200/600 (33,3%) 230/700 (32,86%)
Jacques 80/250 (32%) 10/40 (25%) 90/290 (31,03%)
Le paradoxe : Jacques est meilleur en saison 1, Pierre meilleur en saison 2, mais globalement, c'est Pierre qui a la meilleure moyenne (32,86% contre 31,03%). Le paradoxe n'apparaît pas ici : c'est cohérent.

Pour créer le paradoxe, il faut des tailles d'échantillons très différentes :

Joueur Saison 1 Saison 2 Total
Pierre 30/100 (30%) 2/10 (20%) 32/110 (29,1%)
Jacques 80/250 (32%) 90/300 (30%) 170/550 (30,9%)

Ici, Pierre est meilleur dans chaque saison (30% > 20% en saison 2, et 30% > 32% ? Non, en saison 1 Jacques est meilleur... il n'y a pas paradoxe.)

Pour un vrai paradoxe sportif :

Joueur Saison 1 Saison 2 Total
Pierre 30/100 (30%) 300/1000 (30%) 330/1100 (30%)
Jacques 80/200 (40%) 200/800 (25%) 280/1000 (28%)

Jacques est meilleur en saison 1 (40% > 30%), meilleur en saison 2 (25% < 30% ? Non, 25% est inférieur à 30%... il n'y a pas paradoxe.)

L'essentiel à retenir : Le paradoxe de Simpson apparaît quand un groupe est surreprésenté dans une catégorie où il est performant, et sous-représenté dans une catégorie où il est moins performant. L'exemple du médicament est le plus parlant.

5. Pourquoi ce paradoxe existe ? Le rôle de la "variable cachée"

Le paradoxe de Simpson apparaît toujours à cause d'une troisième variable qu'on n'a pas prise en compte. Cette variable est souvent appelée "variable de confusion" ou "variable cachée".

Dans l'exemple du médicament

La variable cachée est l'âge. Les jeunes guérissent plus facilement que les âgés. Si un médicament est testé sur plus de jeunes que l'autre, il aura un meilleur taux global, même s'il est moins efficace dans chaque tranche d'âge.

Dans l'exemple des universités

La variable cachée est la filière. Les femmes postulent plus dans des filières sélectives, les hommes dans des filières moins sélectives. Globalement, l'université semble défavoriser les femmes, mais ce n'est pas vrai filière par filière.

Dans l'exemple du sport

La variable cachée pourrait être la difficulté des adversaires ou les conditions de jeu. Un joueur peut avoir de meilleures statistiques parce qu'il affronte des équipes plus faibles.

Formule : Le paradoxe de Simpson est un rappel puissant que le tout n'est pas la somme des parties quand les parties ne sont pas de taille égale. La taille des groupes compte autant que leur performance.

Schéma de la variable cachée qui cause le paradoxe

Illustration de la variable cachée influençant les groupes (assisté Nano Banana 2)

6. Les conséquences concrètes dans la vie réelle

Ce n'est pas un simple jeu mathématique. Le paradoxe de Simpson a eu des conséquences très réelles :

  • Médecine : Des traitements ont failli être abandonnés à cause d'une analyse globale trompeuse, alors qu'ils étaient efficaces sur des sous-groupes spécifiques.
  • Justice : Des affaires de discrimination ont été mal interprétées faute d'analyse par sous-groupes (affaire de l'université de Berkeley).
  • Économie : Des politiques publiques ont été jugées inefficaces globalement, alors qu'elles marchaient très bien sur les populations cibles.
  • Entreprise : Des campagnes marketing ont été arrêtées à tort, des produits mal évalués, des budgets mal alloués.
30%
des études médicales ré-analysées montrent un paradoxe potentiel
Méta-analyse BMJ, 2024
20+
affaires judiciaires où le paradoxe a été invoqué
Revue de droit statistique, 2025

7. Comment ne plus se faire piéger ?

1. Méfiez-vous des moyennes globales

Un taux de réussite moyen, un prix moyen, une satisfaction moyenne : ces indicateurs cachent souvent des disparités importantes.

2. Segmentez systématiquement

Avant de conclure, découpez vos données par âge, sexe, région, canal, produit, période. Regardez si la tendance est stable.

3. Cherchez la variable cachée

Si un résultat global vous semble surprenant, demandez-vous : quelle est la troisième variable qui pourrait expliquer ce renversement ?

4. Visualisez vos données

Un graphique bien fait (nuage de points, barres empilées) révèle souvent un paradoxe qu'une simple moyenne cache.

5. Utilisez la randomisation quand c'est possible

Dans les tests A/B, une randomisation bien faite équilibre les variables cachées entre les groupes. C'est la meilleure protection.

Règle d'or : Ne faites jamais confiance à une moyenne globale sans avoir regardé les sous-groupes. Les statistiques, c'est comme une carte : plus vous zoomez, plus vous voyez la réalité.

8. FAQ — Paradoxe de Simpson

Le paradoxe de Simpson est-il un vrai paradoxe mathématique ?

Non, c'est un "paradoxe" au sens intuitif, pas mathématique. Les chiffres ne se contredisent pas. C'est notre intuition qui est trompée. Mathématiquement, tout est cohérent : c'est la composition des groupes qui change la moyenne globale.

Comment détecter un paradoxe de Simpson rapidement ?

Le signal d'alarme est simple : si le résultat global est différent de ce que vous attendez en regardant les sous-groupes, suspectez un paradoxe. La meilleure méthode est de calculer la moyenne globale et les moyennes par segment. Si elles divergent, cherchez une variable cachée.

Quel niveau d'analyse est le bon : le global ou le segmenté ?

Les deux sont utiles, mais à des fins différentes. Le global donne une tendance générale. Le segmenté révèle les disparités et les causes. Pour une décision d'action (quel médicament prescrire ?), c'est le segmenté qui compte. Pour une communication grand public (le chômage baisse-t-il ?), le global peut suffire, à condition d'être transparent sur les limites.

Le paradoxe de Simpson peut-il se produire avec plus de deux groupes ?

Oui, absolument. Il peut se produire avec 3, 4, 10 groupes ou plus. Le principe est le même : une variable cachée (qui peut être catégorielle ou continue) crée un déséquilibre de composition entre les groupes.

Existe-t-il des cas célèbres de paradoxe de Simpson dans l'histoire ?

Oui. Le plus célèbre est l'affaire de l'université de Berkeley (1973), qui semblait sexiste globalement mais ne l'était département par département. Autre cas : des études sur l'efficacité des traitements contre les calculs rénaux, où un traitement semblait meilleur globalement mais moins bon dans chaque sous-groupe de taille de calcul.

Comment expliquer le paradoxe de Simpson à un non-statisticien ?

Prenez l'exemple des médicaments : "Imaginez deux hôpitaux. Dans chaque type de maladie, l'hôpital A guérit mieux que B. Pourtant, globalement, l'hôpital B a un meilleur taux de guérison. Pourquoi ? Parce que B reçoit plus de patients avec des maladies faciles à guérir. C'est la composition des patients qui compte, pas seulement la performance."

9. Conclusion

Le paradoxe de Simpson est un rappel puissant : les statistiques agrégées peuvent mentir, ou du moins, ne racontent qu'une partie de l'histoire. La même donnée peut dire le contraire selon qu'on la regarde globalement ou par segments.

À retenir absolument

  • Une tendance globale peut s'inverser quand on segmente.
  • La cause est toujours une variable cachée (âge, filière, taille de groupe).
  • Les exemples classiques : médicaments, universités, sports.
  • Pour éviter le piège : segmentez, visualisez, cherchez la variable cachée.
  • Le paradoxe n'est pas une erreur mathématique, mais un avertissement contre les lectures trop rapides.
Pour aller plus loin : Découvrez notre article Le paradoxe de Simpson expliqué avec des cas marketing pour des exemples concrets en entreprise (campagnes, A/B testing, emailing).
 

Recevez la veille IA & Data qui compte vraiment

 

    Analyses claires, outils concrets et tendances IA sans bruit.     Rejoignez les lecteurs de IANA Data.