La droite de Henry

Diagramme de probabilité

Il existe un outil merveilleusement simple pour vérifier si une distribution suit une loi normale et il s’agit de la droite (ou diagramme) de Henry. Instrument visuel, elle n’a pas la rigueur des tests de normalité mais elle permet de déceler où se situent les écarts. C’est un type particulier de Q-Q plot (graphique de comparaison de quantiles, ou diagramme quantile-quantile).

 

Utilisations

En tant qu’outil directement opérationnel, la droite de Henry est notamment utilisée en management de la qualité.

Et sinon ?

Dans le cadre d’une régression ou d’un lissage, on peut visualiser la droite de Henry des résidus afin de s’assurer que leur distribution ne s’éloigne pas trop d’une loi normale.

Elle permet en outre de détecter d’éventuels outliers.

 

Transformation d’une cloche en droite

Les valeurs de la série statistique sont d’abord centrées et réduites. Si leur distribution est normale, leurs fréquences cumulées peuvent être comparées à la fonction de répartition de la loi normale centrée réduite.

Soit \(t\) la valeur centrée et réduite des valeurs observées. On remarque qu’on peut l’écrire sous la forme d’une expression de fonction affine :

\(t\) \(=\) \(\displaystyle{\frac{x - m}{\sigma}}\) \(=\) \(\displaystyle{\frac{1}{\sigma}x - \frac{m}{\sigma}}\)

L’intérêt est alors de comparer cette droite avec la fonction de répartition de la loi normale, elle-même transformée en droite, soit grâce au secours d’un papier gausso-arithmétique, soit grâce à votre logiciel qui s’occupe de ces petites transformations.

Donc, plus la distribution est proche d’une loi normale, plus l’alignement graphique de ses fréquences cumulées se confond avec une droite. Il n’existe pas de grandeur associée mesurant l’écart à la loi normale comme c’est le cas dans le cadre des tests ; c’est à l’œil que l’on juge l’écart entre les deux distributions, théorique et réelle.

 

Exemple avec Excel

Il n’est pas difficile de tracer une droite de Henry avec un tableur.

tableur

Sur le tableau ci-dessous, la première colonne correspond soit à des valeurs, soit à des limites supérieures de classes (triées par ordre croissant). La deuxième est celle des effectifs, la troisième est le calcul des fréquences \(\frac{\rm{effectif}}{\rm{effectif\;total}+1},\) la quatrième est le cumul de ces fréquences. La formule de calcul des fréquences laisse dubitatif puisqu’on ajoute 1 au dénominateur, c’est-à-dire à l’effectif total. Si on ne le fait pas, la dernière valeur de \(t\) sera aberrante. Ce faisant, on considère qu’il existe toujours une probabilité pour qu’une valeur soit supérieure à la valeur maximale observée.

La dernière colonne est obtenue à partir de la quatrième à laquelle on applique la fonction LOI.NORMALE.STANDARD.INVERSE (avec Excel).

tableau pour droite de Henry

Reste à tracer le diagramme, avec « valeurs » en abscisse et \(t\) en ordonnée. On peut ajouter sur le graphique d’Excel une tendance faisant office de droite de Henry mais il s’agit alors d’une droite de régression linéaire, ce qui ne serait pas très rigoureux dans cette problématique-ci.

droite de Henry

C’est un type de lecture moins immédiat mais plus fin que la visualisation d’un simple histogramme de fréquences… On remarque que la distribution est proche d’une loi normale car les points sont assez bien alignés.

 

Autres logiciels

Nul besoin de SAS/STAT. Le module de BASE suffit pour coder une proc UNIVARIATE avec l’option PROBPLOT.

Sur SPSS, voir les tests de normalité.

 

droite de Henry