Statistiques · Analyse de données

Corrélation : définition, calcul et interprétation

Maîtrisez le coefficient de corrélation : de Pearson à Spearman, en passant par l'interprétation des forces, les pièges à éviter et les exemples concrets en Python et R.

Niveau : débutant à intermédiaire | Temps de lecture : 12 min | Publié : avril 2026

1. Corrélation : définition simple

La corrélation est une mesure statistique qui quantifie le degré de liaison linéaire entre deux variables. En d'autres termes, elle indique dans quelle mesure deux phénomènes évoluent ensemble.

Définition simple

La corrélation répond à la question : "Quand X augmente, qu'est-ce que Y fait ?"
- Si Y augmente aussi → corrélation positive
- Si Y diminue → corrélation négative
- Si Y ne suit pas de mouvement systématique → corrélation nulle

±1
Corrélation parfaite
Tous les points alignés
0
Absence de corrélation linéaire
Nuage de points sans direction

Attention : Corrélation ≠ causalité. Une corrélation forte n'implique pas qu'une variable cause l'autre. C'est le point le plus important à retenir en analyse de données.

Schéma des différents types de corrélation : positive, négative, nulle

Nuages de points illustrant les 3 types de corrélation (Assisté par Nano Banana 2)

2. Types de corrélation : positive, négative, nulle

Corrélation positive (r > 0)

Les deux variables évoluent dans le même sens. Quand l'une augmente, l'autre augmente aussi ; quand l'une diminue, l'autre diminue.

Exemples :

  • Âge et taille d'un enfant (jusqu'à l'adolescence)
  • Chiffre d'affaires publicitaire et ventes
  • Température extérieure et consommation d'électricité (climatisation)

Corrélation négative (r < 0)

Les deux variables évoluent en sens inverse. Quand l'une augmente, l'autre diminue.

Exemples :

  • Prix d'un produit et quantité demandée (loi de la demande)
  • Temps passé à s'entraîner et fréquence cardiaque au repos
  • Âge d'une voiture et sa valeur de revente

Corrélation nulle (r ≈ 0)

Il n'y a pas de relation linéaire détectable entre les variables. Attention : cela n'exclut pas une relation non linéaire (parabolique, exponentielle, etc.).

Exemples :

  • Taille et QI (aucun lien linéaire démontré)
  • Numéro de loto et météo du jour
Nuance importante : Une corrélation nulle ne signifie pas "aucune relation". Elle signifie "aucune relation linéaire". Une relation en forme de U ou de cloche peut exister sans être détectée par le coefficient de Pearson.

3. Coefficient de corrélation de Pearson (r)

Le coefficient de corrélation de Pearson, noté r, est le plus utilisé. Il mesure l'intensité et le sens de la relation linéaire entre deux variables quantitatives.

Formule mathématique

Formule de Pearson
r = Σ[(xi - x̄)(yi - ȳ)] / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

Avec :

  • x̄ et ȳ : les moyennes des séries X et Y
  • Le numérateur : la covariance entre X et Y
  • Le dénominateur : le produit des écarts-types

Propriétés du coefficient r

  • Symétrique : corrélation(X, Y) = corrélation(Y, X)
  • Sans unité : indépendant des unités de mesure
  • Borné : toujours compris entre -1 et +1
  • Sensible aux outliers : une valeur aberrante peut fausser le résultat
Condition d'application : Le coefficient de Pearson suppose une relation linéaire et des données normalement distribuées (ou du moins sans outliers extrêmes). Pour des relations non linéaires ou des données ordinales, préférez Spearman.

Illustration de la formule de Pearson avec nuage de points et droite de régression

Schéma de la covariance et des écarts à la moyenne (Assisté par Nano Banana 2)

4. Comment interpréter le coefficient r ?

Échelle d'interprétation usuelle

Valeur de r Interprétation Intensité
r = 1,0 Corrélation positive parfaite Parfaite
0,8 ≤ r < 1,0 Corrélation très forte Très forte
0,6 ≤ r < 0,8 Corrélation forte Forte
0,4 ≤ r < 0,6 Corrélation modérée Modérée
0,2 ≤ r < 0,4 Corrélation faible Faible
0,0 ≤ r < 0,2 Corrélation très faible ou nulle Très faible
r = -1,0 Corrélation négative parfaite Parfaite

Exemples visuels de coefficients

  • r = 0,95 : points très proches d'une droite ascendante
  • r = 0,50 : nuage allongé mais dispersion notable
  • r = 0,10 : nuage rond, aucune direction
  • r = -0,80 : points proches d'une droite descendante
Règle de prudence : Ces seuils sont indicatifs. Dans certains domaines (physique), on exige r > 0,99. En sciences humaines, r > 0,3 peut être considéré comme significatif. Toujours adapter l'interprétation au contexte.

5. Autres coefficients de corrélation

Corrélation de Spearman (ρ - rho)

Le coefficient de Spearman est une version non paramétrique basée sur les rangs. Il mesure une relation monotone (pas forcément linéaire).

  • Quand l'utiliser ? Données ordinales, non normales, ou relation monotone non linéaire.
  • Interprétation : similaire à Pearson (-1 à +1).

Corrélation de Kendall (τ - tau)

Également basée sur les rangs, mais plus robuste pour les petits échantillons.

  • Avantage : meilleure gestion des ex-aequos.
  • Inconvénient : plus coûteuse en calcul.

Tableau comparatif

Critère Pearson Spearman Kendall
Type de données Quantitatives continues Quantitatives ou ordinales Quantitatives ou ordinales
Relation mesurée Linéaire Monotone Monotone
Sensibilité outliers Très sensible Peu sensible Très peu sensible
Distribution Normale requise Aucune Aucune

6. Matrice de corrélation : visualiser tous les liens

Une matrice de corrélation est un tableau carré qui présente les coefficients de corrélation entre plusieurs variables. C'est l'outil standard pour explorer un jeu de données multivarié.

Exemple de matrice

  Âge Revenu Dépenses Épargne
Âge 1,00 0,45 0,32 0,28
Revenu 0,45 1,00 0,67 0,51
Dépenses 0,32 0,67 1,00 -0,12
Épargne 0,28 0,51 -0,12 1,00

Visualisation (corrplot / heatmap)

En Python (seaborn) ou R (corrplot), on colore la matrice :

  • Rouge : corrélation négative
  • Bleu : corrélation positive
  • Intensité de la couleur = force de la corrélation
Astuce : Dans une matrice de corrélation, cherchez les valeurs proches de ±1 pour identifier les relations fortes, et les valeurs proches de 0 pour les relations faibles. Attention aux corrélations trompeuses (variables confondantes).

Exemple de heatmap de matrice de corrélation

Heatmap colorée d'une matrice de corrélation (Assisté par Nano Banana 2)

7. Les 5 grandes limites de la corrélation

Limite 1 : Non-linéarité

Le coefficient de Pearson ne détecte que les relations linéaires. Une relation parabolique (en U) peut avoir r ≈ 0 alors qu'un lien existe clairement.

Limite 2 : Sensibilité aux outliers

Une seule valeur aberrante peut faire passer un r de 0,1 à 0,8. Toujours visualiser les données avant de conclure.

Limite 3 : Corrélation ne signifie pas causalité

C'est la limite la plus importante. Une corrélation forte peut être due à :

  • Une variable confondante non mesurée
  • Une causalité inversée (Y cause X)
  • Un simple hasard (faux positif)

Limite 4 : Effet de segmentation (paradoxe de Simpson)

Une corrélation globale peut s'inverser lorsqu'on segmente les données. C'est pourquoi il faut toujours vérifier par sous-groupes.

Limite 5 : Taille d'échantillon

Avec un très grand échantillon, une corrélation de 0,05 peut être "significative" statistiquement... mais sans intérêt pratique.

Règle d'or : Avant de calculer une corrélation, visualisez vos données (nuage de points). Une image vaut mille coefficients.

8. Exemples concrets (avec Python et R)

Exemple Python (pandas + scipy)

Python
import pandas as pd
from scipy.stats import pearsonr, spearmanr

# Création d'un jeu de données
data = pd.DataFrame({
    'age': [25, 30, 35, 40, 45, 50],
    'salaire': [35, 42, 48, 55, 60, 65]
})

# Calcul du coefficient de Pearson
coeff, p_value = pearsonr(data['age'], data['salaire'])
print(f"Coefficient de Pearson : {coeff:.3f}")
print(f"p-value : {p_value:.4f}")

# Matrice de corrélation complète
print(data.corr())

Exemple R (cor test)

R
# Jeu de données
age <- c(25, 30, 35, 40, 45, 50)
salaire <- c(35, 42, 48, 55, 60, 65)

# Coefficient de Pearson
cor_pearson <- cor.test(age, salaire, method = "pearson")
print(cor_pearson)

# Coefficient de Spearman
cor_spearman <- cor.test(age, salaire, method = "spearman")
print(cor_spearman)

# Matrice de corrélation sur un dataframe
df <- data.frame(age, salaire)
cor(df)
Interprétation des résultats : Un coefficient proche de 1 avec une p-value inférieure à 0,05 indique une corrélation statistiquement significative. Mais attention à ne pas confondre significativité statistique et importance pratique !

9. Erreurs fréquentes d'interprétation

Erreur 1 : "Une corrélation de 0 signifie aucune relation"

Faux. Elle signifie absence de relation linéaire. Une relation en U (quadratique) peut avoir r = 0.

Erreur 2 : "Une corrélation forte implique une relation de cause à effet"

Faux. C'est la confusion classique. Un confondant peut créer une corrélation trompeuse.

Erreur 3 : "Une p-value faible valide une corrélation forte"

Faux. Avec un très grand échantillon (n = 100 000), une corrélation de 0,02 peut être "significative". La p-value ne mesure pas l'intensité, seulement la confiance.

Bon réflexe : Toujours associer au coefficient sa signification pratique et un intervalle de confiance.

10. FAQ — Corrélation

Quelle est la différence entre corrélation et covariance ?

La covariance mesure la direction de la relation (positive ou négative), mais sa valeur dépend des unités (ex: mètres vs centimètres). La corrélation normalise la covariance (divise par le produit des écarts-types), ce qui donne un coefficient sans unité, compris entre -1 et +1, donc facilement interprétable.

Quand utiliser Pearson plutôt que Spearman ?

Pearson est adapté pour les relations linéaires avec des données normalement distribuées et sans outliers. Spearman est plus robuste pour les relations monotones non linéaires, les données ordinales ou avec outliers. En cas de doute, calculez les deux et comparez.

Quelle est la signification d'une p-value en corrélation ?

La p-value teste l'hypothèse nulle "pas de corrélation" (r = 0). Une p-value < 0,05 indique qu'il est peu probable (moins de 5% de chances) d'observer une corrélation aussi forte si la vraie corrélation était nulle. Cela ne mesure pas la force de la relation.

Comment traiter les valeurs manquantes avant de calculer une corrélation ?

Plusieurs approches : suppression des paires manquantes (pairwise deletion), suppression des lignes incomplètes (listwise deletion), imputation (moyenne, médiane, régression). En Python, df.corr() ignore automatiquement les NaN. Attention : l'imputation peut biaiser les résultats.

Quel coefficient de corrélation choisir pour des variables catégorielles ?

Pour deux variables catégorielles, utilisez le V de Cramer. Pour une variable catégorielle et une variable quantitative, utilisez le coefficient de corrélation point-bisérial (équivalent à Pearson).

La corrélation implique-t-elle la dépendance ?

Non, l'inverse. Deux variables peuvent être dépendantes sans être corrélées (relation non linéaire). La corrélation est un cas particulier de dépendance linéaire. L'indépendance implique l'absence de corrélation, mais l'inverse est faux.

11. Conclusion

La corrélation est un outil statistique puissant mais souvent mal utilisé. Elle permet de détecter et quantifier des relations linéaires entre variables, mais elle ne dit rien sur la causalité.

À retenir absolument

  • La corrélation mesure une relation linéaire entre variables.
  • r est compris entre -1 (parfaite négative) et +1 (parfaite positive).
  • Pearson = relation linéaire ; Spearman = relation monotone.
  • Une corrélation nulle n'exclut pas une relation non linéaire.
  • Corrélation ≠ causalité – c'est la règle d'or.
  • Toujours visualiser les données avant d'interpréter.
Pour aller plus loin : Une fois la corrélation maîtrisée, découvrez comment distinguer corrélation et causalité pour éviter les pièges classiques de l'analyse de données.
 

Recevez la veille IA & Data qui compte vraiment

 

    Analyses claires, outils concrets et tendances IA sans bruit.     Rejoignez les lecteurs de IANA Data.