Qu’est-ce que la corrélation ?
La corrélation est une mesure statistique qui exprime la relation entre deux variables, indiquant dans quelle mesure elles varient ensemble. Si deux variables montrent une corrélation, cela signifie qu’il existe un lien, mais cela ne prouve pas que l’une cause l’autre.
Corrélation positive, négative, ou nulle
- Positive : les deux variables augmentent (ou diminuent) ensemble.
- Négative : l’une augmente pendant que l’autre diminue.
- Nulle : pas de lien linéaire détectable (ce qui n’exclut pas un lien non linéaire).
Beaucoup d’outils affichent une corrélation "simple" (souvent Pearson). Or un lien peut être non linéaire, dépendre d’un segment, ou être dominé par quelques valeurs extrêmes. Une corrélation unique peut masquer une histoire plus complexe.
Exemple simple : chaleur et ventes de glaces
On observe souvent que les ventes de glaces augmentent pendant les périodes de forte chaleur : corrélation positive. Mais conclure "la chaleur cause l’augmentation des ventes" peut être trop rapide si l’on oublie le contexte : vacances, tourisme, horaires, événements, comportements saisonniers, etc.

Qu’est-ce que la causalité ?
La causalité décrit une relation de cause à effet : une variable (la cause) produit un changement dans une autre (l’effet). Affirmer une causalité implique une idée forte : si on intervient sur la cause, alors l’effet change.
Exemple : foudre et tonnerre
Lorsque la foudre frappe, elle réchauffe et refroidit très rapidement l’air, ce qui provoque le tonnerre. Ici, la relation causale est claire : la foudre cause le tonnerre.

Le test mental le plus utile
Corrélation : "quand X bouge, Y bouge souvent".
Causalité : "si je fais varier X (toutes choses égales), Y change".
Question corrélation
- Y suit-il X dans les données ?
- Le lien est-il stable selon les segments ?
- Le lien disparaît-il si je contrôle d’autres variables ?
Question causalité
- Que se passerait-il si j’intervenais sur X ?
- Ai-je un groupe de comparaison crédible ?
- Y aurait-il changé de toute façon (contrefactuel) ?
Pourquoi est-il important de distinguer corrélation et causalité ?
Confondre corrélation et causalité peut conduire à des conclusions erronées. Et dès qu’une conclusion entraîne une décision (budget, politique, produit, traitement), l’erreur devient coûteuse.
| Situation | Risque si on confond | Conséquence typique |
|---|---|---|
| Produit / UX | Attribuer à tort une hausse/baisse à une fonctionnalité | Roadmap biaisée, itérations inutiles |
| Marketing | Surévaluer un canal corrélé à la conversion | ROI surestimé, budget mal alloué |
| Santé | Confondre association et cause | Interventions inefficaces ou dangereuses |
| Politique publique | Prendre une mesure sur une mauvaise explication | Coût social, perte de confiance |
Les pièges classiques : pourquoi "ça bouge ensemble" ne suffit pas
1) Variables confondantes
Un facteur confondant influence à la fois X et Y, créant une corrélation trompeuse. Exemple classique : température ↔ ventes de glaces ↔ noyades. La chaleur augmente à la fois l’achat de glaces et la baignade, donc les noyades : glaces et noyades corrèlent sans lien causal direct.
2) Causalité inversée
Parfois, on croit que X influence Y, alors que c’est Y qui influence X. Exemple : "les clients fidèles utilisent plus l’appli". Peut-être que la fidélité mène à l’usage… ou que l’usage crée la fidélité. Sans design causal, difficile de trancher.
3) Biais de sélection
Les données observées ne sont pas toujours représentatives. Un formulaire en ligne ne capture pas les personnes qui abandonnent avant d’arriver à la page. Une analyse sur "ceux qui ont acheté" ignore "ceux qui ont hésité et sont partis".
4) Paradoxe de Simpson (effet de segmentation)
Une tendance globale peut s’inverser lorsqu’on segmente (par âge, canal, région). C’est un piège fréquent dans les dashboards : la corrélation globale rassure, puis les sous-groupes racontent une autre histoire.
Si une relation "explique tout" en deux variables alors que le phénomène est complexe (humains, économie, santé), il y a souvent une variable cachée, un biais de sélection, ou une causalité inversée.
Exemples concrets (sérieux et absurdes)
Exemple 1 : la pellagre et les conditions de vie insalubres
La pellagre était corrélée à la pauvreté et aux conditions de vie insalubres. On a d’abord soupçonné ces conditions comme cause. La cause réelle s’est révélée être une carence en niacine (vitamine B3). Les conditions de vie étaient un contexte associé, pas le mécanisme causal principal.
Exemple 2 : Google Analytics et l’inscription aux prestations sociales
Observer que des utilisateurs consultent une page d’information puis quittent sans s’inscrire est une corrélation : "visite" ↔ "abandon". La cause peut être multiple : complexité de l’interface, peur de se tromper, documents manquants, éligibilité, temps requis, incompréhension, accessibilité.
La bonne démarche consiste souvent à compléter les logs par des tests utilisateurs, des enquêtes, ou une expérimentation (A/B) sur une simplification ciblée.
Exemple 3 : consommation de chocolat et prix Nobel
Corrélation amusante : consommation de chocolat ↔ lauréats du prix Nobel. La causalité est très improbable. Un facteur confondant plausible est le niveau de richesse / investissement éducation-recherche.
Exemple 4 : films de Nicolas Cage et noyades
Exemple absurde mais pédagogique : deux séries temporelles peuvent corréler par hasard. Plus on teste de corrélations, plus on en trouve qui semblent "significatives". D’où le besoin de rigueur (et d’humilité).
Exemple 5 : émissions de CO2 et pirates
La baisse du nombre de pirates depuis le XVIIIe siècle et l’augmentation des émissions de CO2 corrèlent sur certaines périodes. C’est un excellent rappel : des variables indépendantes peuvent bouger "ensemble" sans lien causal.
Méthodes pour tester (ou approcher) la causalité
La causalité exige un raisonnement contrefactuel : "que se serait-il passé sans l’intervention ?". Selon le contexte, on utilise différentes stratégies.
1) Expérimentation contrôlée (A/B, essais randomisés)
On assigne aléatoirement des individus à un groupe "traitement" et un groupe "contrôle". C’est le standard le plus robuste lorsque c’est faisable (produit, marketing, médecine).
2) Régression (avec prudence)
La régression peut aider à contrôler des variables observées, mais elle ne "crée" pas la causalité. Si un confondant important n’est pas mesuré, la conclusion reste fragile.
3) Inférence causale sur données d’observation
Quand l’expérimentation est impossible, on utilise des méthodes dédiées :
Approches "comparatives"
- Différence-en-différences (DiD)
- Contrôle synthétique
- Études d’événements (event study)
Approches "structurelles"
- Variables instrumentales (IV)
- Appariement / score de propension
- DAG (graphes causaux) et tests d’hypothèses
4) Études longitudinales
Suivre les mêmes sujets dans le temps permet d’observer des trajectoires et des effets différés. C’est utile en épidémiologie, sociologie, économie, et aussi en produit (cohortes, rétention).
Si vous ne pouvez pas randomiser, cherchez au minimum un groupe de comparaison crédible et explicitez vos hypothèses. Une "bonne causalité" est souvent une causalité argumentée, pas seulement calculée.
Checklist rapide avant de conclure
- Ai-je une hypothèse causalement plausible ? (mécanisme, sens de la flèche)
- Y a-t-il un confondant évident ? (saison, segmentation, budget, sélection)
- La relation est-elle stable par segments (âge, canal, région, device) ?
- Ai-je un contrefactuel (A/B, contrôle, avant/après robuste) ?
- Le résultat est-il sensible au choix de métrique et de période ?
- Combien de corrélations ai-je testées ? (risque de faux positifs, p-hacking)
Une analyse solide ne se résume pas à un coefficient. Elle raconte : données → hypothèse → méthode → limites → décision.
FAQ
Une corrélation forte peut-elle quand même être utile ?
Si je "contrôle" beaucoup de variables en régression, est-ce causal ?
Pourquoi voit-on autant de corrélations absurdes sur Internet ?
Conclusion
La distinction entre corrélation et causalité est fondamentale pour toute analyse de données rigoureuse. Une corrélation indique un lien statistique ; une causalité justifie une intervention.
Que l’objectif soit commercial, scientifique ou public, garder cette distinction en tête évite de confondre des coïncidences avec des mécanismes. Et dans la pratique, c’est souvent là que se joue la maturité data : savoir dire "je ne sais pas encore", puis construire la preuve.