Convergences en statistiques
Sur cette page sont résumés quelques principes fondamentaux, pour ne pas dire fondateurs, des statistiques inférentielles et des processus stochastiques. Certes, ils intéressent davantage les étudiants que les statisticiens d’entreprise (tout comme le langage binaire n’est pas le quotidien des informaticiens et le principe du moteur à explosion n’est pas connu de tous les automobilistes). Mais un autre principe est qu’une pratique qui oublie la théorie se traduit tôt ou tard par une convocation dans le bureau d’un chef de service qui s’interroge sur la qualité des études qui lui sont remises…
Nous verrons ici les modes de convergence les plus utiles en statistiques.
Tout au long de cette page, nous considérerons une suite de variables aléatoires (v.a) \(X_1,\) \(X_2,\) \(...,\) \(X_n\) et une v.a connue \(X.\)
La convergence presque sûre (ou convergence forte)
\(X_n\) converge presque sûrement vers \(X\) si \(P\left(\mathop {\lim }\limits_{n \to + \infty } X_n = X \right) = 1.\)
On l'écrit ainsi : \(X_n \overset{PS} \longrightarrow X\)
Par exemple, si l’on joue à pile ou face une infinité de fois (bon courage), la limite de la suite de la proportion de « piles » est égale à 0,5. La probabilité d’obtenir cette limite est de 1. Pour autant, la limite de 0,5 est théorique et pour cause… Donc, il n’est pas exclu que cette probabilité soit légèrement inférieure à 1 et c’est pourquoi l'on emploie l’adverbe « presque ».
Un autre exemple illustrera l’importance du « presque ». Si l’on choisit un nombre réel entre 0 et 2, quelle est la probabilité que ce soit 1 ? Étant donné qu’il y a une infinité de réels entre 0 et 2, la probabilité de choisir 1 ou d’ailleurs n’importe quel autre nombre est… nulle ! Et pourtant...
Nous verrons plus bas d’autres formes de convergences mais celle-ci est la plus forte de toutes. Ainsi, deux fonctions qui convergent presque sûrement ont un risque nul d’être différentes pour une valeur donnée. Certes, ce n’est pas la convergence certaine, mathématique, d’une suite vers une limite ou de deux suites entre elles mais c’est le mode de convergence qui s’en approche le plus. Elle reste donc assez théorique.
La convergence en probabilité
Elle est vérifiée si la précédente l’est, mais les conditions sont moins draconiennes.
\(X_n\) converge en probabilité vers \(X\) si, pour tout \(\varepsilon > 0\) (et notamment si \(\varepsilon\) est infiniment petit), on a :
\(\mathop {\lim }\limits_{n \to + \infty }P\left( |X_n - X| \geqslant \varepsilon \right) = 0\)
On la note aussi \(\rm{plim}\; X_n = X\) et on peut la réécrire de la façon suivante :
\(\mathop {\lim }\limits_{n \to + \infty }P\left( |X_n - X| \leqslant \varepsilon \right) = 1\)
Notation avec la flèche de convergence : \(X_n \overset{P} \longrightarrow X\)
Donc, une v.a converge en probabilité vers une autre si la suite de leurs différences tend vers zéro. Si \(n\) est la taille d'un échantillon assez important, on est alors à peu près sûr que \(X_n\) est très proche d’une valeur \(X.\)
A contrario, pour montrer qu'il existe une convergence en probabilité, il suffit d'établir que l'espérance et la variance de \((X_n - X)\) tendent vers 0 lorsque \(n\) tend vers l'infini.
Remarque : la loi faible des grands nombres de Bernoulli est établie à partir de ce type de convergence et de l’inégalité de Bienaymé-Tchebychev. Elle permet de prouver qu’une moyenne observée sur un échantillon suffisamment grand se rapproche de celle de la population, moyennant quelques hypothèses. La loi forte des grands nombres utilise quant à elle la convergence presque sûre. Elle est particulièrement féconde en implications théoriques.
La convergence en moyenne quadratique
La convergence en moyenne quadratique, ou convergence en moyenne d'ordre 2, se formule ainsi :
\(\mathop {\lim }\limits_{n \to + \infty }E\left( |X_n - X|^2 \right) = 0\)
Cette convergence est plus forte que celle d’ordre 3, elle-même plus forte que celle d’ordre 4, etc. Bien que non comparables à « presque sûre », ces convergences sont plus fortes que la convergence en probabilité.
La convergence en loi
Il s’agit du cas où une suite de lois de probabilité de v.a \(X_n\) converge vers la loi de \(X.\)
\(\mathop {\lim }\limits_{n \to + \infty }F_n(x) = F(x)\)
Si les v.a sont discrètes, on a :
\(\mathop {\lim }\limits_{n \to + \infty }P\left( X_n = k \right) = P(X = k)\)
On le note \(X_n \overset{L} \longrightarrow X\)
Si \(f\) est une fonction continue sur l'ensemble des réels, alors \(f(X_n) \overset{L} \longrightarrow f(X)\)
On parle de « convergence faible » puisqu’il s’agit du type le moins restrictif. S'il y a convergence en probabilité, il y a de facto convergence en loi. Ainsi, ce concept est plus général mais moins puissant que les autres : une loi de probabilité converge globalement vers une autre qui lui ressemble.
Les v.a \(X_n\) ne sont pas nécessairement de la même nature que \(X.\) Une loi discrète peut converger vers une loi continue.
Un exemple bien connu des statisticiens est la convergence d’une loi de Student vers la loi normale lorsque le nombre de degrés de liberté tend vers l'infini. L’indispensable théorème central-limite est une autre célébrité qui repose sur la convergence en loi. Mentionnons aussi l’exemple d’une loi binomiale dont la probabilité de succès est très faible qui converge vers une loi de Poisson, d’emploi plus pratique. En revanche, lorsque la probabilité d'occurrence est plus élevée, elle converge vers une loi normale moyennant quelques conditions (théorème de Moivre-Laplace). La loi de Poisson elle-même converge aussi vers la loi normale au fur et à mesure que son paramètre est plus élevé.