Théorème central-limite : utilisation, formules...

Théorème central-limite (TCL)

Véritable pilier des statistiques, ce théorème énonce que les moyennes d’un grand nombre d’échantillons suivent une loi normale, même si ceux-ci suivent individuellement une autre loi de probabilité. Tous les étudiants qui ont le bonheur de bénéficier de cours de statistiques rencontrent un beau jour le théorème de la limite centrée, ou central-limite (TCL) qui ouvre la perspective d’un merveilleux monde de connaissances...

C'est à Laplace que nous devons ce théorème, au début du dix-neuvième siècle. Ci-dessous, une médaille à l'effigie du marquis de Laplace par le sculpteur David d'Angers (musée Carnavalet, Paris).

Laplace

Exemple

À titre d’exemple, si l’on relève la distribution des salaires dans mille entreprises, il serait surprenant que certaines d’entre elles présentent une courbe gaussienne car des salaires élevés étirent immanquablement les fonctions de densité sur la droite (dit autrement, l’équipe dirigeante est toujours grassement payée). C’est pourquoi le niveau du salaire moyen dans une entreprise donnée est peu significatif ; on indique toujours le médian. Pourtant, si l’on trace la fonction de densité des mille salaires moyens de notre échantillon, il y a fort à parier que cette courbe-ci ressemble à une gaussienne... Et plus l’échantillon est grand, plus on a de chances de le vérifier. Outre ce type d'application ponctuelle, le TCL explique également les bienfaits de la diversification dans la gestion de portefeuille (voir page théorie du portefeuille).

Cadre d'utilisation

La variable aléatoire (v.a) peut être discrète ou continue, seules les situations particulièrement tordues échappent au théorème (du type loi de Cauchy).

C’est parce que le TCL n’exige pas d’hypothèse sur la loi de probabilité suivie par chaque v.a hormis celle d’une variance finie qu’il se révèle si indispensable aux statistiques. Du coup, il s’applique à des lois de probabilité qu’il n’est même pas utile d’identifier… En statistiques inférentielles, c’est ce théorème qui permet le calcul des intervalles de confiance autour des estimateurs.

Enfin des formules

Formalisons-le.

Soit une suite de v.a \(X_1, X_2, …, X_n\) indépendantes et de même loi (donc de même espérance \(m\) et de même écart-type \(σ\)).

\(Y_n\) \(=\) \(\displaystyle{\frac{\overline{X}_n - m}{\frac{\sigma}{\sqrt{n}}}}\) \(\leadsto\) \(\mathscr{N}(0\,;1)\)

La variable aléatoire \(Y\) converge en loi vers la loi normale centrée réduite.

Mathématiquement, \(Y\) converge à l’infini mais en pratique on admet qu’à compter d’un échantillon de trente moyennes la loi normale peut être utilisée, comme le TCL nous y invite… S’il y a des valeurs aberrantes ou des distributions très asymétriques, on retient plutôt un minimum de cinquante.

Note : il revient au même de noter le TCL ainsi :

\(Y_n\) \(=\) \(\displaystyle{\frac{\sum_{i=1}^{n} (X_i - m)}{\frac{\sigma}{\sqrt{n}}}}\) \(\leadsto\) \(\mathscr{N}(0\,;1)\)

Ou bien...

\(Y_n\) \(=\) \(\displaystyle{\frac{\sum_{i=1}^{n} (X_i - m)}{\sigma}}\) \(\leadsto\) \(\mathscr{N}(0\,;\sqrt{n})\)

Ou encore de noter que la moyenne d’un gros échantillon aléatoire suit une loi normale…

\(\displaystyle{\overline{x} \leadsto \mathscr{N} \left(m\,; \frac{\sigma}{\sqrt{n}}\right)}\)

études

Approximations par la loi normale

Le TCL permet aussi de montrer qu’au-delà d’un certain effectif, la plupart des lois peuvent être approchées par une loi normale sous condition d'indépendance.

L’approximation de la loi binomiale par la loi normale fait aujourd'hui partie du programme de terminale. La variable binomiale est bien une somme de variables indépendantes (de Bernoulli). On sait qu’une loi \(\mathscr{B}(n \,; p)\) a pour espérance \(np\) et pour variance \(np(1 - p).\) Donc…

\(\mathscr{B}(n\,; p) \leadsto \left( np\,; \sqrt{np(1-p)} \right)\)

À titre d’exemple, on peut avoir \(\mathscr{B}(100\,;0,5)\) \(\leadsto\) \(\mathscr{N}(50\,; 5)\)

Cet exemple est illustré ci-dessous, les valeurs prises par la loi binomiale paraissant en bâtons et celles de la loi normale figurant sous forme de courbe. L’échantillon étant important puisque \(n = 100,\) on constate une forte similitude entre les deux distributions.

lois binomiale vs normale

Un exemple d’approximation de la loi binomiale par la loi normale figure en page seuil de rentabilité probabilisé.

De la même manière, voici la comparaison entre la distribution de la loi de Poisson de paramètre 16 et la loi normale \(\mathscr{N} (16\,;4).\) Rappelons que c’est à partir d’une valeur de paramètre située autour de 18 que la loi de Poisson est approchée par une loi normale, ce qui explique le décalage bien visible sur la figure :

lois de Poisson vs normale

Pour compléter le panorama, vous pouvez jeter un regard sur la loi du khi².

Généralisation

Le TCL a été généralisé à diverses conditions, notamment celle de Lyapounov. Ainsi, pour tendre vers une loi normale, les lois de probabilité suivies par chaque v.a n’ont même pas besoin d’être identiques, dès lors qu’aucune des v.a n’est prépondérante.

cible