Test de Grubbs pour les valeurs extrêmes (Grubbs test for one or two outliers)
Introduction
Le test de Grubbs pour les valeurs extrêmes est un test statistique permettant de vérifier si un échantillon contient des valeurs extrêmes (appelées outliers).
Exécution du test
Syntaxe R
# Soit Y un vecteur de nos observations
library(outliers)
grubbs.test(Y)
Interprétation
| p >= 0.05 | p < 0.05 * |
|---|---|
| Acceptation de l'hypothèse nulle. | Rejet de l'hypothèse nulle. |
| La distribution ne contient pas de valeur extrême. | La distribution contient des valeurs extrêmes. |
Exemple
Voici nos données et notre fichier d'analyse:
| Fichiers |
|---|
| grubbs-test-for-one-or-two-outliers.csv |
| grubbs-test-for-one-or-two-outliers.R |
Commençons par activer les librairies nécessaires dans R:
Activation des librairies
library(outliers)
Importons nos données:
Importation des données
df <- read.csv("grubbs-test-for-one-or-two-outliers.csv")
Nous allons tester deux distributions pour voir si les variances de celles-ci sont homogènes.
Nous pouvons visualiser nos données dans un diagramme en boîtes à moustache:
Diagramme en boîtes à moustache
boxplot(
df$score,
ylab="Score",
main="Grubbs test for one or two outliers",
col="magenta"
)

Sur ce graphique, nous pouvons voir ce qui ressemble à une valeur extrême. Néanmoins, il est nécessaire d'effectuer un test pour vérifier cela:
Test de Grubbs pour les valeurs extrêmes
grubbs.test(df$score)
| G | U | p | |
|---|---|---|---|
| Score | 3.87885 | 0.84649 | 0.002775 |
Nous pouvons donc conclure que notre échantillon contient bel et bien une valeur extrême.