Skip to content

Régression linéaire simple

Introduction

La régression linéaire simple permet de tester l'effet d'un prédicteur (variable indépendante) sur une variable dépendante dans un modèle linéaire.

Bases théoriques

La régression permet d'aller au-delà de la corrélation puisqu'elle suppose que la variable indépendante permet de prédire la variable dépendante. Cependant, étant donné son utilisation qui se fait dans des designs observationnels — dans lesquels il n'est pas possible de manipuler la VI — il n'est pas possible d'émettre de causalité sur la base de l'analyse de régression.

L'équation de la régression est la suivante:

Régression linéaire simple

Avec:

  • y la variable dépendante
  • β0 l'intercept (ou ordonnée à l'origine)
  • β1 la pente de la régression linéaire
  • x le prédicteur (ou variable indépendante)

Si nous essayons de représenter la régression à l'aide d'un graphique, nous obtenons donc approximativement le schéma suivant:

Régression linéaire simple

Application

Syntaxe R
# Soit y la variable dépendante et x le prédicteur
m <- lm(data$y ~ data$x)
summary(m)

Conditions d'application

Note

Pour la régression, les conditions d'application ne peuvent être vérifiées qu'après la réalisation du modèle linéaire.

Conditions d'application

Pour pouvoir être utilisée, la régression linéaire simple requiert:

  • La linéarité du modèle.
  • La distribution normale des résidus.
  • L'homoscédasticité (constance de la variance des résidus à tous les niveaux du prédicteur).
  • L'absence de valeurs extrêmes.

Il est possible de générer ces 4 graphiques pour le modèle de régression de la façon suivante:

Syntaxe R
# Soit m le modèle de régression linéaire
par(mfrow=c(1,1))
plot(m)

Interprétation

Comme pour la comparaison de groupes, la p-valeur nous renseigne sur la significativité. Si la p-valeur est plus grande que le seuil de significativité, cela signifie que notre prédicteur ne permet pas de prédire la variable dépendante. Si celle-ci est significative, le pente b nous indique à quelle augmentation moyenne de la VD est associée une augmentation d'une unité du prédicteur.

Taille d'effet

Pour la régression, le coefficient de détermination R2 est utilisé pour calculer la taille d'effet. Il est toujours compris entre 0 et 1 et représente le pourcentage de la variance de Y qui peut être expliquée par X. Il s'agit du carré de la corrélation entre les valeurs observées et prédites. En d'autres termes, si R2 = .4, cela signifie que 40% de la variance de Y peut être expliquée par X.

Dans le cas d'une régression simple — avec un seul prédicteur — nous utilisons le coefficient R2 mutiple.

Exemple

Voici nos données et notre fichier d'analyse:

Fichiers
simple-linear-regression.csv
simple-linear-regression.R

Commençons par activer les librairies nécessaires dans R:

Activation des librairies
library(ggplot2)

Puis, importons nos données:

Importation des données
df <- read.csv("simple-linear-regression.csv")

Nous pouvons maintenant visualiser nos données dans un diagramme:

Diagramme en points
ggplot(data=df, aes(x=predicteur, y=score)) +
  geom_point() +
  geom_smooth(method=lm, se=F) +
  ggtitle("Simple linear model") +
  xlab("Prédicteur") +
  ylab("Score")

Représentation graphique de nos données

Réalisons maintenant notre régression:

Régression linéaire simple
m <- lm(score ~ predicteur, data=df)

Nous devons maintenant vérifier les suppositions de notre modèle de régression:

Vérification des suppositions
par(mfrow=c(1,1))
plot(m)

Graphique des résidus par rapport aux valeurs ajustées

Graphique Q-Q

Graphique de localisation d'échelle

Graphique des résidus par rapport au levier

Les suppositions semblent être respectées. Nous pouvons donc interpréter nos résultats:

Interprétation des résultats
summary(m)
Estimate Std. Error t value p
(Intercept) 0.02051 0.05029 0.408 0.684
predicteur 1.08985 0.04995 21.817 <2e-16 ***
F-statistic p-value Multiple R2 Adjusted R2
476 < 2.2e-16 0.8293 0.8275

Nous pouvons donc déduire de ces résultats qu'une augmentation d'une unité du prédicteur est associée à une augmentation moyenne de 0.90 unité du score (B = 0.90, t(98) = 21.82, p<.001, R2 = .829). Le prédicteur permet donc d'expliquer ~83% de la variance des scores.