Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Les intervalles de confiance

logo

 

 

 

 

 

 

 

 

 

 

Intervalles et niveaux de confiance

Chacun d'entre nous a plus ou moins tendance à généraliser. Ceux dont c’est la profession s’appellent des statisticiens. Ces derniers emploient des techniques inductives. Les autres se fondent sur des représentations mentales. Il existe donc deux méthodes de généralisation : le jugement à l’emporte-pièce, parfois illustré par les brèves de comptoir, et la statistique inférentielle, parfois illustrée sur ce site.

La première méthode n’est pas dénuée d’intérêt (voir la longue série d’ouvrages de J. M. Gourio, chez Robert Laffont ou aux éditions J’ai lu). Bien que jamais représentée au théâtre ou au cinéma, du moins à ma connaissance, la seconde mérite également que l’on s’y arrête. Elle consiste à induire des observations réalisées sur un échantillon aléatoire afin d’obtenir l'estimation de paramètres sur une population globale. Les estimations sont soit ponctuelles (utilisation d’estimateurs), soit des plages de valeurs (qui de toute façon s’établissent à partir des estimateurs) associées à une probabilité de se tromper pour cause d'échantillon non représentatif.

NB : si vous êtes en classe de terminale, la page initiation aux intervalles de confiance est davantage adaptée à vos attente que le texte qui suit.

Donc, le statisticien estime un paramètre d’une population, par exemple sa moyenne, sa proportion ou sa variance, à partir d'une statistique d'échantillon. Un intervalle de confiance est construit autour de l’estimateur, qui est une variable aléatoire pour la bonne raison que si l'échantillon avait été différent, le paramètre n'aurait pas été estimé de façon identique. Ce « périmètre de sécurité » n’est donc pas construit autour du vrai paramètre à estimer puisqu’il est inconnu. L’intervalle est lui-même aléatoire.

Par conséquent, si l’on dit « la vraie moyenne a 95 chances sur 100 de se trouver dans cet intervalle », on prend le problème à l’envers. C’est comme si l’on considérait la vraie moyenne comme une variable aléatoire et notre intervalle comme LE standard. En revanche, il est de bon ton de dire « la probabilité pour que cet intervalle inclue la moyenne de la population est égale à 0,95 ».

Cette probabilité est appelée niveau de confiance, ou coefficient de confiance. C’est la probabilité de réussite associée à notre estimation. Si on la note η (êta) et que l’on nomme α (alpha) la probabilité de commettre une erreur de première espèce (niveau de signification), nous avons 1 – η = α.

α est généralement égal à 0,05 ou 0,01. Ces seuils sont parfois fixés par des textes réglementaires (exemple : Bâle 2 dans le secteur bancaire) mais ils sont souvent le fait d’une habitude…

À l’inverse, si l'on connaît les vrais paramètres d’une population-mère et que l’on cherche sur un échantillon l’intervalle pour lequel on a 95 chances sur 100 que ce vrai paramètre s’y situe (ça arrive…), on parle d’intervalle de fluctuation ou de pari. Cet intervalle est construit autour de la vraie valeur. On n’emploie pas d’estimateur et malgré de fortes similitudes il ne s'agit pas de statistique inférentielle (voir un exemple en page loi hypergéométrique).

C’est dans le cadre des tests que les intervalles de confiance sont souvent, mais pas exclusivement, utilisés. Voir notamment la page détection d'outliers par intervalle de confiance.

Les tests dits « paramétriques » utilisent des valeurs issues de lois statistiques, notamment la loi normale. Ils supposent qu’un travail préalable a été effectué pour s’assurer que la distribution observée est proche de celle d’une densité de probabilité connue. Un intervalle de confiance calculé à la main nécessite soit les tables des différentes lois utilisées, soit des abaques. N’importe quel logiciel de statistiques vous restituant les intervalles des tests les plus courants, on réservera les vieilles méthodes aux amateurs de sport cérébral qui cherchent autre chose que le sudoku pour se détendre.

L’intervalle de confiance est asymptotique, c’est-à-dire que plus l’échantillon est grand, plus l’intervalle est précis et se resserre. Il suffit d’ailleurs d’un minimum de bon sens pour le deviner.

Enfin, on a raisonné sur l’erreur relative (précision de x %) mais on peut aussi travailler sur un intervalle ABSOLU. On cherche alors la taille de l’échantillon qui permet à tel intervalle d’inclure le paramètre à estimer pour une probabilité donnée.

Les logiciels restituent les intervalles de confiance. Toutefois, au cas où vous auriez besoin d’en calculer un sur un coin de table, voici quelques formules.

Exemples d’intervalles de confiance bilatéraux (les intervalles unilatéraux s’en déduisent facilement)

Proportion. Les limites de l'intervalle sont :

intervalle de proportion

Avec pour un seuil de 0,05 :

alpha

Moyenne (échantillon d’au moins 30 observations) :

intervalle de moyenne

Avec pour un seuil de 0,05 :

Alpha bilatéral 5%

Moyenne (échantillon < 30) :

La formule est la même mais il ne faut pas oublier d’utiliser l’écart-type sans biais. De plus, ça se complique un peu car il n’y a pas qu’une valeur de t au seuil 0,05. Il faut la trouver dans la table du t (pour test bilatéral) si votre logiciel ne se débrouille pas seul : colonne 0,05 et ligne – 1. La valeur s’ est l'écart-type sans biais. En fait, votre logiciel peut utiliser la table du t pour des échantillons beaucoup plus importants que 30. En effet, la valeur trouvée pour 29 degrés de liberté est de 2,045, ce qui n’est pas tout à fait la même chose que 1,96… Concrètement, t est toujours compris entre 2 et 3 si le test est bilatéral au seuil de 5 %, sauf si l’échantillon est soit très grand soit minuscule (quatre observations ou moins).

Régressions

Les paramètres d'une régression simple ou multiple sont eux aussi des variables aléatoires et se trouvent au centre d'intervalles de confiance. Leur combinaison se traduit, pour la régression prise dans son ensemble, par un intervalle de prévision (ou de prédiction) dont la représentation graphique est composée de deux branches d'hyperboles autour d'une droite.

 

hors intervalle

 

© JY Baudot - Droits d'auteur protégés