Généralités sur les tests d'hypothèses

Généralités sur les tests et définitions

Incontournables, les tests. Contrôle de qualité, études de marché, détection de saisonnalité, biostatistiques sont autant de domaines d’application… Ils font partie de la démarche des statistiques inférentielles.

Inférence

Inférer signifie tirer une conclusion. Les statistiques inférentielles permettent d'établir des conclusions sur une population à partir d'un échantillon.

En effet, lorsqu’on travaille à partir d'une base de données, même très volumineuse, et que les moyens informatiques nous permettent de l’explorer rapidement, on obtient des statistiques descriptives sur une population totale ; mais l’affaire se complique lorsque les données sont coûteuses ou difficiles à obtenir (données primaires, notamment). Et c’est ici qu’interviennent les techniques d’échantillonnage, puis de statistique inférentielle.

Á partir de l'analyse d'un échantillon, il existe plusieurs techniques pour en inférer des conclusions sur la population entière.

On peut déterminer un estimateur du paramètre recherché (moyenne, variance...) à partir d'une statistique d'échantillon. C'est une estimation ponctuelle.

On peut aussi établir un intervalle de confiance autour d'un paramètre, c'est-à-dire une plage de valeurs dans laquelle le vrai paramètre de la population (inconnu) a une probabilité donnée de se trouver.

L'approche bayésienne est une troisième technique, fondée sur une estimation a priori du paramètre de la population.

Enfin, on peut procéder à un test, c'est-à-dire poser une alternative de deux hypothèses sur un paramètre (égal ou différent, supérieur ou inférieur...) dont une est privilégiée et, en fonction d'une probabilité d'erreur préétablie, de valider ou d'invalider celle-ci.

Selon le résultat du test, le statisticien prend une décision (par exemple, il rejette l'hypothèse). C'est pourquoi on parle aussi de statistique décisionnelle.

Cela étant, les tests sont aussi utilisés dans d'autres circonstances, par exemple pour comparer des sous-populations entre elles (comparaison de deux moyennes, ANOVA…) ou pour valider l’adéquation d'une distribution observée à une loi de probabilité.

Les deux hypothèses

Il existe une façon formelle et rigoureuse de présenter cette démarche inductive : on pose une hypothèse « nulle », traditionnellement appelée H0. Elle suppose l’absence d’effet et il s’agit souvent d’une égalité que l’on souhaite vérifier (ou infirmer). Une hypothèse alternative H1 est également énoncée. Celle-ci entraîne une action.

Sur ce site, on considère que l’hypothèse de base H0 est toujours celle de l’égalité.

Le but du test est de savoir si, pour un niveau de confiance donné, on doit rejeter ou non H0. Ne pas rejeter ne signifie pas que H0 est vérifiée sur la totalité de la population. Il n’y a donc pas symétrie entre les deux hypothèses. C’est une subtilité à prendre en compte dans le cadre d’une démarche scientifique bien qu'en pratique on interprête souvent les résultats d'un test par « bon » ou « pas bon » avec un empressement peu rigoureux.

En tout état de cause, il faut que l'erreur d'opter pour H0 alors que H1 serait en fait la bonne hypothèse soit moins grave que de commettre l'erreur inverse.

Qu’est-ce qui préside à l'égalité de H0 ? Ce peut être un avis d’expert, une caractéristique découverte par une technique statistique, une clause de contrat, une hypothèse à vérifier avant de procéder à une autre analyse, un paramètre observé sur la population et restitué par des statistiques qui ont été publiées…

A titre d’exemple, posons la formulation d’hypothèse d’égalité de variances sur deux échantillons :

\(\left\{ {\begin{array}{*{20}{c}} {H0: \sigma_1^2 = \sigma_2^2}\\{H1:\sigma_1^2 \ne \sigma_2^2} \end{array}} \right.\)

Il s’agit là d’un test bilatéral. L’hypothèse H1 pourrait se présenter sous la forme « supérieur à » ou « inférieur à » ; le test serait alors unilatéral. Ce sont là des tests d'hypothèse multiple. On peut aussi poser que sous H0 notre paramètre est égal à telle valeur et sous H1 à telle autre (test d'hypothèse simple).

La suite des opérations

Les hypothèses étant posées, on choisit le type de test adéquat et une probabilité de risque d'accepter par erreur H0 (voir plus bas). Ceci nous permet éventuellement d’estimer la taille d’échantillon la mieux adaptée et de collecter les données.

échantillon

Pour procéder au test, on bâtit une statistique à partir de quelques mesures simples relevées sur les observations. On connaît la loi de probabilité associée à cette statistique. Cette belle mécanique est invisible si l'on utilise un logiciel qui possède des fonctions adaptées. Eventuellement, les tests peuvent tous être construits avec un tableur. De nombreux exemples sont d’ailleurs détaillés sur ce site et plusieurs ouvrages donnent d’excellents modes d’emploi de tests avec Excel.

En fonction du risque d'erreur assumé, une plage de valeurs appelée intervalle (ou région) de confiance est déterminée. Son complémentaire est la zone de rejet ou région critique. L'intervalle de confiance est donc l'ensemble des valeurs estimées proches du paramètre qui est testé en H0.

Évidemment, lorsqu'on prend une décision en univers probabiliste, on peut se tromper (par définition !). Si l’on accepte H0 alors qu’elle est vraie ou si on la refuse alors qu’elle est fausse, tout va bien. Le risque de rejeter H0 à tort est dit « de première espèce » ou alpha (\(α\)), et celui de l’accepter à tort est dit « de seconde espèce » ou bêta (\(β\)). Si l’on peut associer des coûts à ces deux types de risque, on adapte éventuellement la « sévérité » du niveau de confiance (par exemple, coût d’un mailing envoyé à un prospect non intéressé par le produit et manque à gagner dû au mailing non envoyé à une personne qui serait pourtant devenu cliente).

La puissance d’un test est \(γ = 1 - β\) et son niveau est \(η = 1 - α.\) La puissance mesure en quelque sorte la qualité du test (comme un coefficient de corrélation mesure la qualité d'une régression...) et elle est donnée par les logiciels de statistiques. C'est la probabilité de rejeter H0 à juste titre.

La p-value (niveau de probabilité) est indépendante du niveau de confiance puisque c’est la probabilité que la statistique théorique sous H0 soit supérieure à la statistique calculée. Concrètement, plus une p-value est proche de zéro (notamment inférieure à 0,05 si le niveau de confiance est de 0,95), plus on rejette H0 avec confiance. Un test permettant d’affirmer qu’il existe une différence est dit « significatif » au risque de \(x\%.\)

Par conséquent, il existe deux façons équivalentes de savoir si l’on rejette H0 comme une malpropre : soit on s’assure que l’intervalle de confiance n’inclut pas la valeur calculée sur l’échantillon, soit on constate que la p-value est inférieure au seuil de risque que l’on s’est fixé.

Types de test

Un test qui compare un paramètre à une norme est un test de conformité (par exemple la conformité d'une moyenne).

L’hypothèse d’égalité entre deux paramètres observés nécessite quant à elle un test de comparaison (ou d'homogénéité), sur échantillons indépendants (moyenne ou proportion) ou appariés (voir page test de moyenne sur échantillons appariés).

Un troisième type de test est celui d'adéquation à une distribution statistique.

Enfin les tests d'indépendance (ou d'association) valident ou non une liaison entre deux caractères.

Un test qui calcule les vraies probabilités est dit exact, un test qui s’en approche lorsque l’échantillon est grand est dit asymptotique. Mais même sur un échantillon assez important, une approximation peut entraîner des conclusions erronées (exemple en page de conformité d’une proportion).

Il existe deux familles de tests : les paramétriques et les non paramétriques. Les premiers s’appliquent à des valeurs numériques (continues ou d’intervalles) et sont nommés ainsi parce qu’ils font intervenir les paramètres de lois de probabilité (espérance, variance, proportion). Les seconds sont utilisés sur des variables qualitatives (échelles ordinales ou modalités de données nominales) et parfois sur des quantitatives. Les tests d’adéquation à une loi, comme les tests de normalité ou le test d'ajustement du khi², sont non paramétriques.

Plusieurs tests paramétriques font l'objet de pages dédiées sur ce site. Les statistiques associées sont \(z\), \(t\) et \(F\) qui suivent respectivement sous H0 une loi normale, une loi de Student et une loi de Fisher. Mentionnons également le test sur le coefficient de corrélation.

Les tests non paramétriques sont plus nombreux : test d’indépendance du khi², test de Kolmogorov-Smirnov, des séquences, de McNemar, de Spearman, des signes, de Wilcoxon, exact de Fisher, de Mann-Whitney, de Cochran, de la médiane, de Durbin-Watson, etc.

champion