Statistiques · Analyse de données

Corrélation : définition, calcul et interprétation

Q: Comment traiter les valeurs manquantes avant de calculer une corrélation ?

Plusieurs approches : suppression des paires manquantes (pairwise deletion), suppression des lignes incomplètes (listwise deletion), imputation (moyenne, médiane, régression). En Python, df.corr() ignore automatiquement les NaN. Attention : l'imputation peut biaiser les résultats.

Q: Quel coefficient de corrélation choisir pour des variables catégorielles ?

Pour deux variables catégorielles, utilisez le V de Cramer. Pour une variable catégorielle et une variable quantitative, utilisez le coefficient de corrélation point-bisérial (équivalent à Pearson).

Q: La corrélation implique-t-elle la dépendance ?

Non, l'inverse. Deux variables peuvent être dépendantes sans être corrélées (relation non linéaire). La corrélation est un cas particulier de dépendance linéaire. L'indépendance implique l'absence de corrélation, mais l'inverse est faux.

Maîtrisez le coefficient de corrélation : de Pearson à Spearman, en passant par l'interprétation des forces, les pièges à éviter et les exemples concrets en Python et R.

Niveau : débutant à intermédiaire | Temps de lecture : 12 min | Publié : avril 2026

Sommaire

Corrélation : définition simple
Types de corrélation : positive, négative, nulle
Coefficient de corrélation de Pearson
Comment interpréter le coefficient r ?
Autres coefficients : Spearman, Kendall
Matrice de corrélation : visualiser les liens
Les 5 grandes limites de la corrélation
Exemples concrets (avec Python et R)
Erreurs fréquentes d'interprétation
FAQ
Conclusion
Articles connexes

1. Corrélation : définition simple

La corrélation est une mesure statistique qui quantifie le degré de liaison linéaire entre deux variables. En d'autres termes, elle indique dans quelle mesure deux phénomènes évoluent ensemble.

Définition simple

La corrélation répond à la question : "Quand X augmente, qu'est-ce que Y fait ?"
- Si Y augmente aussi → corrélation positive
- Si Y diminue → corrélation négative
- Si Y ne suit pas de mouvement systématique → corrélation nulle

±1

Corrélation parfaite

Tous les points alignés

0

Absence de corrélation linéaire

Nuage de points sans direction

Attention : Corrélation ≠ causalité. Une corrélation forte n'implique pas qu'une variable cause l'autre. C'est le point le plus important à retenir en analyse de données.

Schéma des différents types de corrélation : positive, négative, nulle

Nuages de points illustrant les 3 types de corrélation (Assisté par Nano Banana 2)

2. Types de corrélation : positive, négative, nulle

Corrélation positive (r > 0)

Les deux variables évoluent dans le même sens. Quand l'une augmente, l'autre augmente aussi ; quand l'une diminue, l'autre diminue.

Exemples :

Âge et taille d'un enfant (jusqu'à l'adolescence)
Chiffre d'affaires publicitaire et ventes
Température extérieure et consommation d'électricité (climatisation)

Corrélation négative (r < 0)

Les deux variables évoluent en sens inverse. Quand l'une augmente, l'autre diminue.

Exemples :

Prix d'un produit et quantité demandée (loi de la demande)
Temps passé à s'entraîner et fréquence cardiaque au repos
Âge d'une voiture et sa valeur de revente

Corrélation nulle (r ≈ 0)

Il n'y a pas de relation linéaire détectable entre les variables. Attention : cela n'exclut pas une relation non linéaire (parabolique, exponentielle, etc.).

Exemples :

Taille et QI (aucun lien linéaire démontré)
Numéro de loto et météo du jour

Nuance importante : Une corrélation nulle ne signifie pas "aucune relation". Elle signifie "aucune relation linéaire". Une relation en forme de U ou de cloche peut exister sans être détectée par le coefficient de Pearson.

3. Coefficient de corrélation de Pearson (r)

Le coefficient de corrélation de Pearson, noté r, est le plus utilisé. Il mesure l'intensité et le sens de la relation linéaire entre deux variables quantitatives.

Formule mathématique

Formule de Pearson

r = Σ[(xi - x̄)(yi - ȳ)] / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

Avec :

x̄ et ȳ : les moyennes des séries X et Y
Le numérateur : la covariance entre X et Y
Le dénominateur : le produit des écarts-types

Propriétés du coefficient r

Symétrique : corrélation(X, Y) = corrélation(Y, X)
Sans unité : indépendant des unités de mesure
Borné : toujours compris entre -1 et +1
Sensible aux outliers : une valeur aberrante peut fausser le résultat

Condition d'application : Le coefficient de Pearson suppose une relation linéaire et des données normalement distribuées (ou du moins sans outliers extrêmes). Pour des relations non linéaires ou des données ordinales, préférez Spearman.

Illustration de la formule de Pearson avec nuage de points et droite de régression

Schéma de la covariance et des écarts à la moyenne (Assisté par Nano Banana 2)

4. Comment interpréter le coefficient r ?

Échelle d'interprétation usuelle

Valeur de r	Interprétation	Intensité
r = 1,0	Corrélation positive parfaite	Parfaite
0,8 ≤ r < 1,0	Corrélation très forte	Très forte
0,6 ≤ r < 0,8	Corrélation forte	Forte
0,4 ≤ r < 0,6	Corrélation modérée	Modérée
0,2 ≤ r < 0,4	Corrélation faible	Faible
0,0 ≤ r < 0,2	Corrélation très faible ou nulle	Très faible
r = -1,0	Corrélation négative parfaite	Parfaite

Exemples visuels de coefficients

r = 0,95 : points très proches d'une droite ascendante
r = 0,50 : nuage allongé mais dispersion notable
r = 0,10 : nuage rond, aucune direction
r = -0,80 : points proches d'une droite descendante

Règle de prudence : Ces seuils sont indicatifs. Dans certains domaines (physique), on exige r > 0,99. En sciences humaines, r > 0,3 peut être considéré comme significatif. Toujours adapter l'interprétation au contexte.

5. Autres coefficients de corrélation

Corrélation de Spearman (ρ - rho)

Le coefficient de Spearman est une version non paramétrique basée sur les rangs. Il mesure une relation monotone (pas forcément linéaire).

Quand l'utiliser ? Données ordinales, non normales, ou relation monotone non linéaire.
Interprétation : similaire à Pearson (-1 à +1).

Corrélation de Kendall (τ - tau)

Également basée sur les rangs, mais plus robuste pour les petits échantillons.

Avantage : meilleure gestion des ex-aequos.
Inconvénient : plus coûteuse en calcul.

Tableau comparatif

Critère	Pearson	Spearman	Kendall
Type de données	Quantitatives continues	Quantitatives ou ordinales	Quantitatives ou ordinales
Relation mesurée	Linéaire	Monotone	Monotone
Sensibilité outliers	Très sensible	Peu sensible	Très peu sensible
Distribution	Normale requise	Aucune	Aucune

6. Matrice de corrélation : visualiser tous les liens

Une matrice de corrélation est un tableau carré qui présente les coefficients de corrélation entre plusieurs variables. C'est l'outil standard pour explorer un jeu de données multivarié.

Exemple de matrice

	Âge	Revenu	Dépenses	Épargne
Âge	1,00	0,45	0,32	0,28
Revenu	0,45	1,00	0,67	0,51
Dépenses	0,32	0,67	1,00	-0,12
Épargne	0,28	0,51	-0,12	1,00

Visualisation (corrplot / heatmap)

En Python (seaborn) ou R (corrplot), on colore la matrice :

Rouge : corrélation négative
Bleu : corrélation positive
Intensité de la couleur = force de la corrélation

Astuce : Dans une matrice de corrélation, cherchez les valeurs proches de ±1 pour identifier les relations fortes, et les valeurs proches de 0 pour les relations faibles. Attention aux corrélations trompeuses (variables confondantes).

Exemple de heatmap de matrice de corrélation

Heatmap colorée d'une matrice de corrélation (Assisté par Nano Banana 2)

7. Les 5 grandes limites de la corrélation

Limite 1 : Non-linéarité

Le coefficient de Pearson ne détecte que les relations linéaires. Une relation parabolique (en U) peut avoir r ≈ 0 alors qu'un lien existe clairement.

Limite 2 : Sensibilité aux outliers

Une seule valeur aberrante peut faire passer un r de 0,1 à 0,8. Toujours visualiser les données avant de conclure.

Limite 3 : Corrélation ne signifie pas causalité

C'est la limite la plus importante. Une corrélation forte peut être due à :

Une variable confondante non mesurée
Une causalité inversée (Y cause X)
Un simple hasard (faux positif)

Limite 4 : Effet de segmentation (paradoxe de Simpson)

Une corrélation globale peut s'inverser lorsqu'on segmente les données. C'est pourquoi il faut toujours vérifier par sous-groupes.

Limite 5 : Taille d'échantillon

Avec un très grand échantillon, une corrélation de 0,05 peut être "significative" statistiquement... mais sans intérêt pratique.

Règle d'or : Avant de calculer une corrélation, visualisez vos données (nuage de points). Une image vaut mille coefficients.

8. Exemples concrets (avec Python et R)

Exemple Python (pandas + scipy)

Python

import pandas as pd
from scipy.stats import pearsonr, spearmanr

# Création d'un jeu de données
data = pd.DataFrame({
    'age': [25, 30, 35, 40, 45, 50],
    'salaire': [35, 42, 48, 55, 60, 65]
})

# Calcul du coefficient de Pearson
coeff, p_value = pearsonr(data['age'], data['salaire'])
print(f"Coefficient de Pearson : {coeff:.3f}")
print(f"p-value : {p_value:.4f}")

# Matrice de corrélation complète
print(data.corr())

Exemple R (cor test)

R

# Jeu de données
age <- c(25, 30, 35, 40, 45, 50)
salaire <- c(35, 42, 48, 55, 60, 65)

# Coefficient de Pearson
cor_pearson <- cor.test(age, salaire, method = "pearson")
print(cor_pearson)

# Coefficient de Spearman
cor_spearman <- cor.test(age, salaire, method = "spearman")
print(cor_spearman)

# Matrice de corrélation sur un dataframe
df <- data.frame(age, salaire)
cor(df)

Interprétation des résultats : Un coefficient proche de 1 avec une p-value inférieure à 0,05 indique une corrélation statistiquement significative. Mais attention à ne pas confondre significativité statistique et importance pratique !

9. Erreurs fréquentes d'interprétation

Erreur 1 : "Une corrélation de 0 signifie aucune relation"

Faux. Elle signifie absence de relation linéaire. Une relation en U (quadratique) peut avoir r = 0.

Erreur 2 : "Une corrélation forte implique une relation de cause à effet"

Faux. C'est la confusion classique. Un confondant peut créer une corrélation trompeuse.

Erreur 3 : "Une p-value faible valide une corrélation forte"

Faux. Avec un très grand échantillon (n = 100 000), une corrélation de 0,02 peut être "significative". La p-value ne mesure pas l'intensité, seulement la confiance.

Bon réflexe : Toujours associer au coefficient sa signification pratique et un intervalle de confiance.

10. FAQ — Corrélation

Quelle est la différence entre corrélation et covariance ?

La covariance mesure la direction de la relation (positive ou négative), mais sa valeur dépend des unités (ex: mètres vs centimètres). La corrélation normalise la covariance (divise par le produit des écarts-types), ce qui donne un coefficient sans unité, compris entre -1 et +1, donc facilement interprétable.

Quand utiliser Pearson plutôt que Spearman ?

Pearson est adapté pour les relations linéaires avec des données normalement distribuées et sans outliers. Spearman est plus robuste pour les relations monotones non linéaires, les données ordinales ou avec outliers. En cas de doute, calculez les deux et comparez.

Quelle est la signification d'une p-value en corrélation ?

La p-value teste l'hypothèse nulle "pas de corrélation" (r = 0). Une p-value < 0,05 indique qu'il est peu probable (moins de 5% de chances) d'observer une corrélation aussi forte si la vraie corrélation était nulle. Cela ne mesure pas la force de la relation.

Comment traiter les valeurs manquantes avant de calculer une corrélation ?

Plusieurs approches : suppression des paires manquantes (pairwise deletion), suppression des lignes incomplètes (listwise deletion), imputation (moyenne, médiane, régression). En Python, df.corr() ignore automatiquement les NaN. Attention : l'imputation peut biaiser les résultats.

Quel coefficient de corrélation choisir pour des variables catégorielles ?

Pour deux variables catégorielles, utilisez le V de Cramer. Pour une variable catégorielle et une variable quantitative, utilisez le coefficient de corrélation point-bisérial (équivalent à Pearson).

La corrélation implique-t-elle la dépendance ?

Non, l'inverse. Deux variables peuvent être dépendantes sans être corrélées (relation non linéaire). La corrélation est un cas particulier de dépendance linéaire. L'indépendance implique l'absence de corrélation, mais l'inverse est faux.

11. Conclusion

La corrélation est un outil statistique puissant mais souvent mal utilisé. Elle permet de détecter et quantifier des relations linéaires entre variables, mais elle ne dit rien sur la causalité.

À retenir absolument

La corrélation mesure une relation linéaire entre variables.
r est compris entre -1 (parfaite négative) et +1 (parfaite positive).
Pearson = relation linéaire ; Spearman = relation monotone.
Une corrélation nulle n'exclut pas une relation non linéaire.
Corrélation ≠ causalité – c'est la règle d'or.
Toujours visualiser les données avant d'interpréter.

Pour aller plus loin : Une fois la corrélation maîtrisée, découvrez comment distinguer corrélation et causalité pour éviter les pièges classiques de l'analyse de données.

Réseaux sociaux

Équipe

Support

Ressources

Recevez la veille IA & Data

Réseaux sociaux

1. Corrélation : définition simple

2. Types de corrélation : positive, négative, nulle

Corrélation positive (r > 0)

Corrélation négative (r < 0)

Corrélation nulle (r ≈ 0)

3. Coefficient de corrélation de Pearson (r)

Formule mathématique

Propriétés du coefficient r

4. Comment interpréter le coefficient r ?

Échelle d'interprétation usuelle

Exemples visuels de coefficients

5. Autres coefficients de corrélation

Corrélation de Spearman (ρ - rho)

Corrélation de Kendall (τ - tau)

Tableau comparatif

6. Matrice de corrélation : visualiser tous les liens

Exemple de matrice

Visualisation (corrplot / heatmap)

7. Les 5 grandes limites de la corrélation

Limite 1 : Non-linéarité

Limite 2 : Sensibilité aux outliers

Limite 3 : Corrélation ne signifie pas causalité

Limite 4 : Effet de segmentation (paradoxe de Simpson)

Limite 5 : Taille d'échantillon

8. Exemples concrets (avec Python et R)

Exemple Python (pandas + scipy)

Exemple R (cor test)

9. Erreurs fréquentes d'interprétation

Erreur 1 : "Une corrélation de 0 signifie aucune relation"

Erreur 2 : "Une corrélation forte implique une relation de cause à effet"

Erreur 3 : "Une p-value faible valide une corrélation forte"

10. FAQ — Corrélation

11. Conclusion

À retenir absolument

12. Articles connexes

Corrélation et causalité : comprendre la différence

Introduction à la régression linéaire multiple

Le paradoxe de Simpson expliqué

Recevez la veille IA & Data qui compte vraiment

Équipe

Support

Ressources

Recevez la veille IA & Data