Corrélation et causalité : comprendre la différence
L'article pilier – la distinction fondamentale entre corrélation et causalité.
Loterie, distance géographique, date de naissance... Découvrez comment certaines variables "instrumentales" permettent de prouver la causalité même quand on ne peut pas faire d'expérimentation.
Une variable instrumentale (ou instrument) est une variable qui permet de contourner les biais dans l'estimation d'un effet causal, en particulier quand on soupçonne l'existence de variables confondantes non observées.
Imaginez que vous voulez savoir si le service militaire (cause) améliore les salaires (effet). Mais ceux qui font le service militaire sont différents de ceux qui ne le font pas (plus motivés, en meilleure santé...). La loterie du tirage au sort est une variable instrumentale : elle influence qui fait le service, mais n'affecte pas directement le salaire (sauf via le service).
L'idée en une phrase : Un instrument est une variable qui "secoue" le traitement de façon aléatoire (ou quasi-aléatoire), permettant d'isoler son effet réel.

diagramme causal avec instrument Z influençant X, et X influençant Y (assisté Nano Banana 2)
Exemple : On veut savoir si une formation professionnelle augmente les salaires.
La solution : Une variable instrumentale qui influence la décision de suivre la formation, mais qui n'est pas liée à la motivation ni aux autres caractéristiques des personnes.
Exemple d'instrument : La distance à l'école de formation. Si l'école est loin, on est moins susceptible de s'inscrire (coût de transport, temps). Mais la distance n'a pas de raison d'être liée à la motivation (une personne motivée peut habiter loin).

Illustration du biais d'auto-sélection (assisté Nano Banana 2 + GPT5)
Le problème : On ne peut pas comparer simplement ceux qui ont fait leur service et ceux qui ne l'ont pas fait. Les premiers sont en meilleure santé, plus disciplinés, peut-être plus patriotes... Ces différences faussent la comparaison.
La solution ingénieuse : Dans les années 1970, les États-Unis tiraient au sort les jeunes hommes pour le service militaire (Vietnam). La loterie est une variable instrumentale parfaite :
Résultat de l'étude (Angrist, 1990) : Le service militaire a eu un effet négatif sur les salaires des vétérans (environ -15%). Pourquoi ? Parce que le service a interrompu les études et l'entrée sur le marché du travail.

Illustration du tirage au sort comme instrument (assisté GPT-5 )
Le problème : Les personnes qui étudient plus longtemps sont souvent issues de milieux plus favorisés, plus intelligentes, plus motivées. Ces facteurs augmentent aussi leurs revenus. On surestimerait donc l'effet de l'éducation.
L'instrument : La distance entre le domicile et l'école (ou l'université).
Résultat : Les études qui utilisent cet instrument trouvent qu'une année supplémentaire d'études augmente les revenus d'environ 8-10%, ce qui est plus faible que les estimations naïves (qui surestimaient à cause des biais).

Carte avec école et zones de distance (assisté GPT-5)
Le problème : On ne peut pas comparer simplement les enfants nés en janvier et ceux nés en décembre. Ils ont des parents différents, des environnements différents, etc.
L'instrument : La date de naissance par rapport à la date de coupure pour l'entrée à l'école.
Résultat : Les enfants nés juste après la date de coupure (donc plus âgés dans leur classe) ont de meilleurs résultats scolaires. Cet effet persiste jusqu'à l'université.
| Date de naissance | Entrée à l'école | Âge relatif | Résultats scolaires |
|---|---|---|---|
| Né le 2 janvier (après coupure) | Année T+1 (retard d'un an) | Plus âgé de 11 mois vs nés déc. précédent | ✅ Meilleurs |
| Né le 30 décembre (avant coupure) | Année T (avance d'un an) | Plus jeune de la classe | Moyens |
L'instrument Z doit être corrélé à la cause X qu'on étudie. Si la distance à l'école n'influence pas la décision d'étudier, ce n'est pas un bon instrument.
Test : On vérifie statistiquement que Z prédit X.
L'instrument Z ne doit influencer l'effet Y qu'à travers le traitement X. La distance à l'école ne doit pas affecter directement le revenu (sauf via l'éducation).
Défi : Cette condition ne peut pas être prouvée mathématiquement, seulement argumentée avec la logique et la connaissance du domaine.
L'instrument Z ne doit pas être corrélé aux confondants non observés. La loterie est aléatoire, donc parfaite. La distance à l'école doit être indépendante de la motivation (une personne motivée peut habiter loin).
Test : On vérifie que Z n'est pas corrélé aux caractéristiques observables (âge, sexe, milieu social...).
Z (instrument) → X (traitement) → Y (effet)
Il ne doit pas y avoir de flèche directe de Z vers Y, ni de confondant commun entre Z et Y.

Illustration des 3 conditions avec flèches (assisté GPT-5)
Instrument : Le trimestre de naissance (lié à l'âge d'entrée à l'école et à la durée légale de scolarisation).
Résultat : Une année d'études supplémentaire augmente les revenus de 7-9%.
Instrument : La proximité avec un État voisin qui a modifié son salaire minimum (différence-en-différences + IV).
Résultat : Une hausse du salaire minimum n'a pas réduit l'emploi (contrairement à la théorie classique).
Instrument : Le numéro de loterie.
Résultat : Le service militaire a réduit les salaires d'environ 15%.
Instrument : Le fait d'avoir été accepté (pas seulement d'avoir fréquenté) pour contrôler la motivation.
Résultat : Une fois la motivation contrôlée, l'université fréquentée n'a pas d'impact sur les salaires.
Idéalement, oui. En pratique, on cherche des instruments "quasi-aléatoires" : la loterie, la date de naissance, la distance géographique, les conditions météo, les réformes légales. L'important est de pouvoir argumenter que l'instrument n'est pas corrélé aux confondants.
On peut tester la pertinence (condition 1) avec une régression de X sur Z. On ne peut jamais prouver la condition d'exclusion (2). On peut la rendre plausible par des arguments théoriques solides et des tests de sensibilité. On peut tester l'indépendance (3) en vérifiant que Z n'est pas corrélé aux variables observables.
Un instrument est "faible" s'il est très peu corrélé au traitement (ex: une loterie qui n'envoie que 1% des gens au service militaire). Les instruments faibles produisent des estimations très instables et biaisées (biais vers l'estimation naïve). La statistique F doit être > 10 pour éviter le problème.
L'effet estimé par une variable instrumentale n'est valable que pour les personnes influencées par l'instrument (les "compliers"). Exemple : l'effet de l'éducation estimé avec la distance à l'école ne vaut que pour ceux qui ont changé d'avis à cause de la distance. On ne sait pas l'effet pour ceux qui auraient fait des études de toute façon.
Oui, c'est même recommandé. On parle alors de "suroverdentification". Cela permet de tester la validité des instruments (test de Sargan/Hansen). Mais chaque instrument doit individuellement satisfaire les conditions.
Le RDD utilise un seuil (ex: 12/20) pour créer une discontinuité dans l'assignation du traitement. Les IV utilisent une variable continue (ou discrète) qui influence le traitement sans agir directement sur l'effet. Le RDD est souvent plus crédible mais a une portée plus locale (autour du seuil). Les IV ont une portée plus large mais dépendent de la validité de l'instrument.
Les variables instrumentales sont une méthode puissante pour approcher la causalité quand l'expérimentation est impossible. Elles reposent sur une idée simple : trouver une variable "naturellement aléatoire" qui influence le traitement sans affecter directement le résultat.