Statistiques · Inférence causale

Variables instrumentales pour débutants : comprendre la méthode qui contourne les biais

Loterie, distance géographique, date de naissance... Découvrez comment certaines variables "instrumentales" permettent de prouver la causalité même quand on ne peut pas faire d'expérimentation.

Niveau : débutant à intermédiaire | Temps de lecture : 10 min | Publié : avril 2026

1. Variables instrumentales : définition simple

Une variable instrumentale (ou instrument) est une variable qui permet de contourner les biais dans l'estimation d'un effet causal, en particulier quand on soupçonne l'existence de variables confondantes non observées.

Définition simple

Imaginez que vous voulez savoir si le service militaire (cause) améliore les salaires (effet). Mais ceux qui font le service militaire sont différents de ceux qui ne le font pas (plus motivés, en meilleure santé...). La loterie du tirage au sort est une variable instrumentale : elle influence qui fait le service, mais n'affecte pas directement le salaire (sauf via le service).

+40%
des études causales en économie utilisent des IV
American Economic Review, 2025
1970-2026
période d'essor des variables instrumentales
Depuis les travaux de Goldberger

L'idée en une phrase : Un instrument est une variable qui "secoue" le traitement de façon aléatoire (ou quasi-aléatoire), permettant d'isoler son effet réel.

Schéma d'une variable instrumentale : Z → X → Y

diagramme causal avec instrument Z influençant X, et X influençant Y (assisté Nano Banana 2)

2. Le problème : pourquoi on a besoin d'instruments

Le problème fondamental : Dans une étude observationnelle, les personnes qui reçoivent un traitement sont souvent différentes de celles qui ne le reçoivent pas. Cette auto-sélection crée un biais.

Exemple : On veut savoir si une formation professionnelle augmente les salaires.

  • Les personnes qui suivent la formation sont souvent plus motivées, plus jeunes, plus diplômées.
  • Si on compare simplement les salaires des formés vs non-formés, on ne sait pas si la différence vient de la formation... ou de la motivation initiale.
  • C'est le problème des confondants non observés (on ne peut pas mesurer la "motivation" facilement).

La solution : Une variable instrumentale qui influence la décision de suivre la formation, mais qui n'est pas liée à la motivation ni aux autres caractéristiques des personnes.

Exemple d'instrument : La distance à l'école de formation. Si l'école est loin, on est moins susceptible de s'inscrire (coût de transport, temps). Mais la distance n'a pas de raison d'être liée à la motivation (une personne motivée peut habiter loin).

Schéma du problème des confondants non observés

Illustration du biais d'auto-sélection (assisté Nano Banana 2 + GPT5)

3. Exemple n°1 : La loterie du service militaire (exemple classique)

Question de recherche : Le service militaire obligatoire améliore-t-il les salaires à long terme ?

Le problème : On ne peut pas comparer simplement ceux qui ont fait leur service et ceux qui ne l'ont pas fait. Les premiers sont en meilleure santé, plus disciplinés, peut-être plus patriotes... Ces différences faussent la comparaison.

La solution ingénieuse : Dans les années 1970, les États-Unis tiraient au sort les jeunes hommes pour le service militaire (Vietnam). La loterie est une variable instrumentale parfaite :

  • ✅ Elle influence qui fait le service (les numéros tirés au sort partent)
  • ✅ Elle n'a aucun lien direct avec le salaire (le numéro de loterie n'affecte pas le revenu, sauf via le service)
  • ✅ Elle est aléatoire, donc non corrélée aux caractéristiques personnelles (santé, motivation...)

Résultat de l'étude (Angrist, 1990) : Le service militaire a eu un effet négatif sur les salaires des vétérans (environ -15%). Pourquoi ? Parce que le service a interrompu les études et l'entrée sur le marché du travail.

-15%
d'impact sur les salaires (étude Angrist)
Econometrica, 1990
Prix Nobel
d'économie 2021 pour Angrist, Imbens, Card
Méthodes causales dont IV

Schéma de la loterie du service militaire comme instrument

Illustration du tirage au sort comme instrument (assisté GPT-5 )

4. Exemple n°2 : La distance à l'école et l'éducation

Question de recherche : Une année supplémentaire d'études augmente-t-elle vraiment les revenus ?

Le problème : Les personnes qui étudient plus longtemps sont souvent issues de milieux plus favorisés, plus intelligentes, plus motivées. Ces facteurs augmentent aussi leurs revenus. On surestimerait donc l'effet de l'éducation.

L'instrument : La distance entre le domicile et l'école (ou l'université).

  • ✅ Plus on habite loin, moins on a de chances de faire des études longues (coût de transport, temps).
  • ✅ La distance n'a pas de raison d'affecter directement le revenu (sauf via l'éducation).

Résultat : Les études qui utilisent cet instrument trouvent qu'une année supplémentaire d'études augmente les revenus d'environ 8-10%, ce qui est plus faible que les estimations naïves (qui surestimaient à cause des biais).

Variante célèbre : D'autres études ont utilisé la date de naissance (ceux nés en début d'année peuvent entrer à l'école plus tôt) ou la présence d'une université à proximité comme instruments pour l'éducation.

Schéma : la distance à l'école comme instrument

Carte avec école et zones de distance (assisté GPT-5)

5. Exemple n°3 : La date de naissance et l'âge à l'école

Question de recherche : Être plus âgé dans sa classe d'âge améliore-t-il les résultats scolaires ?

Le problème : On ne peut pas comparer simplement les enfants nés en janvier et ceux nés en décembre. Ils ont des parents différents, des environnements différents, etc.

L'instrument : La date de naissance par rapport à la date de coupure pour l'entrée à l'école.

  • Dans beaucoup de pays, les enfants nés avant une certaine date entrent à l'école un an plus tôt que ceux nés après.
  • ✅ La date de naissance est aléatoire (pas de lien avec les capacités des parents).
  • ✅ La date de naissance influence l'âge relatif dans la classe (et donc la maturité, la taille, etc.)
  • ✅ La date de naissance n'affecte pas directement les résultats scolaires (sauf via l'âge à l'entrée).

Résultat : Les enfants nés juste après la date de coupure (donc plus âgés dans leur classe) ont de meilleurs résultats scolaires. Cet effet persiste jusqu'à l'université.

Date de naissance Entrée à l'école Âge relatif Résultats scolaires
Né le 2 janvier (après coupure) Année T+1 (retard d'un an) Plus âgé de 11 mois vs nés déc. précédent ✅ Meilleurs
Né le 30 décembre (avant coupure) Année T (avance d'un an) Plus jeune de la classe Moyens
À retenir : La date de naissance est un instrument "naturel" parce qu'elle est quasi-aléatoire et échappe au contrôle des parents.

6. Les 3 conditions pour qu'un instrument soit valide

Condition 1 : Pertinence (l'instrument influence le traitement)

L'instrument Z doit être corrélé à la cause X qu'on étudie. Si la distance à l'école n'influence pas la décision d'étudier, ce n'est pas un bon instrument.

Test : On vérifie statistiquement que Z prédit X.

Condition 2 : Exclusion (l'instrument n'affecte l'effet que via le traitement)

L'instrument Z ne doit influencer l'effet Y qu'à travers le traitement X. La distance à l'école ne doit pas affecter directement le revenu (sauf via l'éducation).

Défi : Cette condition ne peut pas être prouvée mathématiquement, seulement argumentée avec la logique et la connaissance du domaine.

Condition 3 : Indépendance (l'instrument est aussi bon qu'aléatoire)

L'instrument Z ne doit pas être corrélé aux confondants non observés. La loterie est aléatoire, donc parfaite. La distance à l'école doit être indépendante de la motivation (une personne motivée peut habiter loin).

Test : On vérifie que Z n'est pas corrélé aux caractéristiques observables (âge, sexe, milieu social...).

Schéma causal :

Z (instrument) → X (traitement) → Y (effet)

Il ne doit pas y avoir de flèche directe de Z vers Y, ni de confondant commun entre Z et Y.

Schéma des 3 conditions de validité d'un instrument

Illustration des 3 conditions avec flèches (assisté GPT-5)

7. Forces et faiblesses de la méthode

Forces

  • ✅ Permet de contrôler les confondants non observés (même ceux qu'on n'a pas mesurés)
  • ✅ Très utile en économie, épidémiologie, sciences sociales
  • ✅ Valorisée dans les revues scientifiques exigeantes

Faiblesses

  • ❌ Trouver un bon instrument est très difficile (les 3 conditions sont exigeantes)
  • ❌ Un instrument faible (peu corrélé au traitement) produit des résultats très biaisés
  • ❌ L'effet estimé est local : il ne vaut que pour les personnes influencées par l'instrument (ex: ceux qui changent de comportement à cause de la distance, pas pour tous)
  • ❌ La condition d'exclusion est souvent difficile à prouver
30-50%
des instruments dans la littérature sont "faibles"
Bound, Jaeger & Baker, 1995
LATE
Local Average Treatment Effect
L'effet estimé n'est pas généralisable à tous
Attention : Un instrument "valide" au sens statistique peut être théoriquement discutable. Le débat sur la validité des instruments est central dans la recherche empirique.

8. Exemples célèbres dans la recherche

Le retour sur éducation (Angrist & Krueger, 1991)

Instrument : Le trimestre de naissance (lié à l'âge d'entrée à l'école et à la durée légale de scolarisation).
Résultat : Une année d'études supplémentaire augmente les revenus de 7-9%.

L'effet du salaire minimum sur l'emploi (Card & Krueger, 1994)

Instrument : La proximité avec un État voisin qui a modifié son salaire minimum (différence-en-différences + IV).
Résultat : Une hausse du salaire minimum n'a pas réduit l'emploi (contrairement à la théorie classique).

L'effet du service militaire (Angrist, 1990)

Instrument : Le numéro de loterie.
Résultat : Le service militaire a réduit les salaires d'environ 15%.

L'effet de la fréquentation d'une université sélective (Dale & Krueger, 2002)

Instrument : Le fait d'avoir été accepté (pas seulement d'avoir fréquenté) pour contrôler la motivation.
Résultat : Une fois la motivation contrôlée, l'université fréquentée n'a pas d'impact sur les salaires.

Prix Nobel 2021 : David Card, Joshua Angrist et Guido Imbens ont reçu le prix Nobel d'économie pour leurs travaux sur les méthodes causales, dont les variables instrumentales.

9. FAQ — Variables instrumentales

Une variable instrumentale doit-elle être parfaitement aléatoire ?

Idéalement, oui. En pratique, on cherche des instruments "quasi-aléatoires" : la loterie, la date de naissance, la distance géographique, les conditions météo, les réformes légales. L'important est de pouvoir argumenter que l'instrument n'est pas corrélé aux confondants.

Comment savoir si mon instrument est valide ?

On peut tester la pertinence (condition 1) avec une régression de X sur Z. On ne peut jamais prouver la condition d'exclusion (2). On peut la rendre plausible par des arguments théoriques solides et des tests de sensibilité. On peut tester l'indépendance (3) en vérifiant que Z n'est pas corrélé aux variables observables.

Qu'est-ce qu'un instrument faible ?

Un instrument est "faible" s'il est très peu corrélé au traitement (ex: une loterie qui n'envoie que 1% des gens au service militaire). Les instruments faibles produisent des estimations très instables et biaisées (biais vers l'estimation naïve). La statistique F doit être > 10 pour éviter le problème.

Que signifie LATE (Local Average Treatment Effect) ?

L'effet estimé par une variable instrumentale n'est valable que pour les personnes influencées par l'instrument (les "compliers"). Exemple : l'effet de l'éducation estimé avec la distance à l'école ne vaut que pour ceux qui ont changé d'avis à cause de la distance. On ne sait pas l'effet pour ceux qui auraient fait des études de toute façon.

Peut-on utiliser plusieurs instruments en même temps ?

Oui, c'est même recommandé. On parle alors de "suroverdentification". Cela permet de tester la validité des instruments (test de Sargan/Hansen). Mais chaque instrument doit individuellement satisfaire les conditions.

Quelle est la différence entre IV et RDD (régression sur discontinuité) ?

Le RDD utilise un seuil (ex: 12/20) pour créer une discontinuité dans l'assignation du traitement. Les IV utilisent une variable continue (ou discrète) qui influence le traitement sans agir directement sur l'effet. Le RDD est souvent plus crédible mais a une portée plus locale (autour du seuil). Les IV ont une portée plus large mais dépendent de la validité de l'instrument.

10. Conclusion

Les variables instrumentales sont une méthode puissante pour approcher la causalité quand l'expérimentation est impossible. Elles reposent sur une idée simple : trouver une variable "naturellement aléatoire" qui influence le traitement sans affecter directement le résultat.

À retenir absolument

  • Une variable instrumentale permet de contourner les confondants non observés.
  • 3 conditions : pertinence, exclusion, indépendance.
  • Exemples classiques : loterie du service militaire, distance à l'école, date de naissance.
  • L'effet estimé est local (LATE), pas généralisable à toute la population.
  • Trouver un bon instrument est difficile ; un instrument faible est dangereux.
  • La méthode est très utilisée en économie, épidémiologie et sciences sociales.
Pour aller plus loin : Si vous souhaitez implémenter cette méthode, consultez notre article "Méthodes d'inférence causale avec R et Python" pour des exemples de code avec variables instrumentales.
 

Recevez la veille IA & Data qui compte vraiment

 

    Analyses claires, outils concrets et tendances IA sans bruit.     Rejoignez les lecteurs de IANA Data.