Démonstrations sur le maximum de vraisemblance

Deux calculs fondés sur le maximum de vraisemblance

Le sujet traité ici n’est certes pas le plus opérationnel de ce site web ; il illustre une notion de statistiques inférentielles, celle du maximum de vraisemblance. Mais ne le boycottez pas pour autant et voyons de quoi il s’agit…

Rappelons d’abord la problématique.

 

Problématique

Comme il nous est impossible d'étudier une population complète, nous observons un échantillon aléatoire qui en est issu afin d’étudier une variable aléatoire. Supposons que la loi de probabilité théorique suivie par celle-ci sur l’ensemble de la population soit connue. Cette loi, qui peut être discrète ou continue, est soit construite autour d’un seul paramètre (loi de Poisson…) soit plus souvent de deux (loi normale…). Ceux-ci sont estimés à partir de statistiques réalisées sur l’échantillon pour la bonne raison que les vrais paramètres sont inconnus.

échantillon

Parmi les techniques qui visent à déterminer les meilleurs estimateurs, le maximum de vraisemblance est particulièrement usité. La démarche consiste à dériver la fonction de vraisemblance afin de trouver le paramètre pour lequel la loi de probabilité semble la plus adaptée à la distribution du critère étudié dans la population puis à s’assurer qu’il s’agit bien d’un maximum.

Voyons deux exemples d’estimateurs obtenus par la méthode du maximum de vraisemblance. Vous trouverez d'autres démonstrations en pages d'efficacité d'un estimateur (loi de Bernoulli) et d'efficacité du paramètre de la loi de Poisson.

 

La loi exponentielle

\[f(x) = \left\{ {\begin{array}{*{20}{c}} {0 \; \mathrm{si} \; x < 0}\\ {\lambda e^{- \lambda x} \; \mathrm{si} \; x \geqslant 0} \end{array}} \right.\]

À partir d’un paramètre unique, on détermine l’espérance et l’écart-type qui sont tous deux les inverses de \(\lambda .\)

Supposons un effectif de taille \(n.\)

\(L((x_1, x_2, ..., x_n\,; \lambda )\) \(=\) \(\lambda e^{-\lambda x_1} \times \lambda e^{-\lambda x_2} \times ... \times \lambda e^{-\lambda x_n}\)

En écrivant ceci de façon plus ramassée…

\(L(x_1, x_2, ..., x_n\,; \lambda )\) \(=\) \(\lambda ^n e^{- \lambda \sum x_i}\)

Il est toujours plus pratique de maximiser le logarithme de la vraisemblance. Comme la fonction logarithme est strictement croissante, le maximum de la vraisemblance est aussi celui de la log-vraisemblance.

\(\ln L(x_1, x_2, ... , x_n \,; \lambda)\) \(=\) \(n \ln \lambda - \lambda \sum\limits_{x = 1}^n {x_i} \)

Dérivons cette fonction par rapport à \(λ.\)

\(\frac{\partial L}{\partial \lambda} = \frac{n}{\lambda} - \sum\limits_{x = 1}^n {x_i} \)

La suite des opérations est bien sûr l’annulation de la dérivée.

\(\frac{n}{\lambda} - \sum\limits_{x = 1}^n {x_i} = 0\)

\(\Leftrightarrow \lambda = \frac{n}{\sum x_i}\)

On voit bien que \(\lambda\) doit être l’inverse de la moyenne. La  dérivée seconde a pour expression \(- \frac{n}{\lambda ^2}.\) Donc elle est négative. L'extremum est bien un maximum.

 

La loi normale (estimateur de la moyenne)

Il faut démontrer que la moyenne calculée sur l’échantillon est bien le meilleur estimateur de la moyenne sur la population.

La formule de la densité de probabilité est \(f(x)\) \(=\) \(\frac{1}{\sigma \sqrt{2 \pi}} \exp \left[-\frac{1}{2} \left(\frac{x - m}{\sigma} \right) ^2 \right]\)

Donc, la fonction de vraisemblance n’est autre que \(L(x_1, x_2, ..., x_n\,; m\,; \sigma)\) soit :

\[\frac{\prod\limits_{x = 1}^n {\exp \left[- \frac{(x_i - m)^2}{2 \sigma ^2} \right]}}{\sigma \sqrt{2 \pi}}\]

Préférons une autre expression plus pratique à travailler :

\[\frac{1}{(\sigma \sqrt{2 \pi})^n} \times e^{-\frac{1}{2 \sigma ^2} \sum\limits_{1}^n {(x_i - m)^2}} \]

La log-vraisemblance peut alors s’écrire…

\(\ln L(x_1, x_2, ..., x_n\,; m\,; \sigma )\) \(=\) \(-n \ln \sigma - n \frac{\ln 2 \pi}{2} \sum\limits_{i=1}^{n}{(x_i - m)^2}\)

Cette fois-ci, nous sommes en présence de deux paramètres et nous déterminons une dérivée partielle. Si l’on dérive par rapport à \(m\) afin de connaître la valeur pour laquelle cette dérivée s’annule, on pose :

\(\frac{\partial \ln L(x_1, x_2, ..., x_n\,; m\,; \sigma )}{\partial m} = 0\)

\(- \frac{1}{2 \sigma ^2} \left( -2 \sum\limits_{i=1}^n {x_i} + 2mn \right) = 0\)

Cette dernière expression nous servira plus loin pour calculer la dérivée seconde. Poursuivons.

\(- \sum\limits_{i=1}^n {x_i + mn} = 0\)

Comme on pouvait s'y attendre, on aboutit à la définition de la moyenne :

\(m = \frac{1}{n} \sum\limits_{i=1}^n {x_i}\)

La dérivée seconde, toujours par rapport à \(m,\) est égale à \(- \frac{n}{\sigma ^2}.\) Elle est bien négative.

 

maximum de vraisemblance