Efficacité d'un estimateur et information de Fisher

Information de Fisher et efficacité

En statistiques, l’efficacité qualifie plusieurs notions. Nous nous intéresserons ici à celle d'un estimateur. Pour l'établir, il faut déterminer la quantité d'information de Fisher qu'il apporte. Nous allons donc définir cette dernière puis évoquer l'inégalité de Cramer-Rao (ou Fréchet-Darmois-Cramer-Rao) sur laquelle s'appuie la définition de l'efficacité.

Nous terminerons par un exemple.

Quantité d’information de Fisher

Soit un estimateur \(θ\) et soit un échantillon de taille \(n.\) Soit \(L\) la vraisemblance de \(θ\) en fonction des \(n\) réalisations.

Sur un échantillon, la fonction positive \(L\) peut être considérée comme une variable aléatoire (v.a).

Donc, \(L(X_1,…,X_n \, ; θ ).\)

On considère la fonction de log-vraisemblance \(\ln L.\)

L’information de Fischer est l’espérance du carré de la dérivée partielle de la log-vraisemblance par rapport à \(θ.\)

\(I_n(θ) = E \left [ \left ( \frac{∂ \ln L}{∂ θ} \right ) ^2 \right ]\)

Dans la mesure où l’ensemble \(X\) ne dépend pas de \(θ\) nous avons :

\(I_n(θ) = - E \left ( \frac{∂^2 \ln L}{∂ θ^2} \right )\) (pour la démonstration, voir G. Saporta, Probabilités, analyse des données et statistique, éditions Technip).

De même, on montre que...

\(I_n(θ) = V \left ( \frac{∂ \ln L}{∂ θ} \right )\) (c'est d'ailleurs cette égalité qui sera utilisée dans l'exemple ci-dessous).

Une information de Fisher peut s’appuyer sur deux v.a indépendantes. On note alors la propriété d’additivité : \(I_n(θ_{(X,Y)}) = I_n(θ_X) + I_n(θ_Y)\)

abstraction

Inégalité de Cramer-Rao

Soit \( \widehat \theta \) un estimateur sans biais du vrai paramètre \(θ\) sur un échantillon. Toujours sous réserve de l’indépendance entre \(X\) et \(θ,\) sa variance est bornée inférieurement par l’inverse de l’information de Fisher :

\(V( \widehat θ ) \geqslant \frac{1}{I_n(θ)}\) (là encore, voir Saporta pour la démonstration).

Estimateur efficace

Un estimateur sans biais \( \widehat \theta \) est efficace si sa variance est minimale.

Donc : \(V( \widehat θ ) = \frac{1}{I_n(θ)}\) (borne de l’inégalité de Cramer-Rao).

Cette valeur ne peut pas toujours être atteinte. On doit alors se contenter d’un estimateur asymptotiquement efficace (elle est la limite pour un échantillon infiniment grand).

Exemple : estimation d’une proportion

La loi de Bernoulli est l'une des lois de probabilité les plus simples. Une variable aléatoire prend les valeurs 0 ou 1 (échec ou succès). La probabilité \(p\) de succès est l’espérance \(E(X)\) de cette loi.

Cet estimateur est-il efficace ?

Rappel :

\[L(X_1, …, X_n, p) = \prod\limits_{i = 1}^n {{p^{{X_i}}}{{(1 - p)}^{1 - {X_i}}}} \]

Écrivons l’expression de la log-vraisemblance.

\(\ln L({X_i},p) = \sum {X_i}\ln p + \left( {n - \sum {{X_i}} } \right)\ln (1 - p)\)

Déterminons le meilleur estimateur selon la technique du maximum de vraisemblance. D'abord, dérivons par rapport à \(p.\)

\(\frac{\partial }{{\partial p}}\ln \left[ {L\left( {{X_i},p} \right)} \right]\) \(=\) \(\frac{1}{p}\sum {{X_i} - \frac{1}{{1 - p}}} \left( {n - \sum {{X_i}} } \right)\)

Le maximum de vraisemblance est là où cette dérivée s’annule.

\(\frac{\partial }{{\partial p}}\ln \left[ {L\left( {{X_i},p} \right)} \right] = 0\)

Soit \(\widehat{p}\) l'estimateur sans biais sur un échantillon.

\(\frac{1}{\widehat{p}} \sum{X_i} = \frac{1}{1- \widehat{p}} \left( n - \sum{X_i} \right)\)
\(\Leftrightarrow (1 - \widehat{p}) \sum{X_i} = \widehat{p}(n - \sum{X_i})\)
\(\Leftrightarrow \sum {X_i} - \widehat{p} \sum {X_i} = \widehat{p} n - \widehat{p} \sum{X_i}\)
\(\Leftrightarrow \widehat{p} = \frac{\sum {X_i}}{n}\)

Par propriété de l'espérance, \(E(\widehat{p})\) \(=\) \(\frac{\sum{E(X_i)}}{n}\) \(=\) \(\frac{np}{n} \) \(=\) \(p\)

Il nous reste à établir la variance de cet estimateur pour nous assurer de son efficacité. Pour cela, déterminons la quantité d’information de Fisher.

\(I_n(p) = V \left ( \frac{∂ \ln L}{∂ p} \right )\)
\(\Leftrightarrow I_n(p) = V \left [ \frac{1}{p}\sum {{X_i} - \frac{1}{{1 - p}}} \left( {n - \sum {{X_i}} } \right) \right]\)
\(\Leftrightarrow I_n(p) = V\left [ \sum{X_i} \left ( \frac{1}{p} + \frac{1}{1 - p} \right ) - \frac{n}{1 - p} \right ]\)

Par propriété de la variance (démontrée en page de transformation affine d'une v.a) ...

\(I_n(p) = \left(\frac{1}{p} + \frac{1}{1 - p} \right)^2 V \left( \sum{X_i} \right) \)
\(\Leftrightarrow I_n(p) = \frac{1}{p^2(1 - p)^2} V \left( \sum{X_i} \right) \)

Les v.a étant indépendantes nous pouvons écrire :

\(I_n(p) = \frac{1}{p^2(1 - p)^2} \sum{V(X_i)} \)

Rappelons que la variance d'une loi de Bernoulli est \(p(1 - p)\) (démonstration en page de lois de Bernoulli et binomiale).

\(I_n(p) = \frac{1}{p^2(1 - p)^2} \sum{p(1-p)} \)
\(\Leftrightarrow I_n(p) = \frac{1}{p^2(1 - p)^2} np(1-p) \)
\(\Leftrightarrow I_n(p) = \frac{n}{p(1 - p)} \)

Si \( \widehat{p} = \frac{\sum {X_i}}{n},\) alors \(V( \widehat{p}) = V \left( \frac{\sum {X_i}}{n} \right) \)

\(V \left( \frac{\sum {X_i}}{n} \right) \) \(=\) \(\frac{1}{n^2} \sum V(X_i)\) \(=\) \(\frac{1}{n^2} \times np(1 - p)\) \(=\) \(\frac{p(1 - p)}{n}.\)

Par conséquent, \(V(\widehat{p}) = \frac{1}{I_n(p)}\)

\(\widehat{p}\) est bien un estimateur efficace.

Voir aussi l'efficacité du paramètre de la loi de Poisson.

estimation d'efficacité