Maximum de vraisemblance
Le maximum de vraisemblance ne qualifie ni un biopic au cinéma ni l'excuse que vous avez adressé à votre supérieur hiérarchique pour justifier un retard. C'est plus technique que ça.
La vraisemblance
D'après le Petit Larousse : « Vraisemblance n.f. Caractère de ce qui est vraisemblable, a l’apparence de la vérité. »
Qu’est-ce-que la vérité pour un statisticien ? Il y a peut-être le data scientist irréaliste qui cherche LE modèle qui décrira parfaitement toute situation réelle et le statisticien modeste pour qui une loi de probabilité constitue déjà une forme de perfection. Donc, hypothèse : nous sommes modestes.
La vraisemblance (Likelihood) mesure une adéquation entre la distribution observée sur un échantillon aléatoire et une loi de probabilité supposée décrire une réalité sur la population dont l'échantillon est issu. Comment ?
Par hypothèse, nous connaissons la loi de probabilité la mieux adaptée à une variable aléatoire. Cependant, c’est une coquille vide puisque nous ignorons son ou ses paramètres (espérance, variance…). Nous les estimons alors à partir de statistiques d'échantillon. Intuitivement, on pourrait penser qu'il suffit de reporter sur la population les paramètres observés et que le tour est joué mais on se tromperait la plupart du temps. Il existe plusieurs techniques pour trouver l'estimateur le plus pertinent.
L’utilisation de la vraisemblance est l’une d’elles. Supposons que l’on compare une distribution observée à une loi discrète théorique, de Poisson par exemple. Pour chaque valeur observée indépendante des autres (mettons 0, 1, 2…), on ne retient pas la probabilité observée mais celle que l’on aurait obtenue en appliquant la loi de Poisson (on remplace le \(x\) de la formule de la distribution de Poisson par 0, 1, 2…), loi munie du paramètre à estimer. Le produit de toutes ces probabilités s’appelle la vraisemblance. Bon, ce n’est plus vraiment la définition du Petit Larousse…
Certes, cette mesure est réductrice puisqu’une adéquation est ainsi résumée par une seule valeur mais il s’agit là d’une démarche inhérente aux statistiques.
Plus la vraisemblance est proche de zéro, moins l’adéquation à la loi est bonne.
La fonction de vraisemblance
Maintenant que vous savez ce qu'est la vraisemblance, vous comprenez qu’elle varie en fonction du ou des paramètres de la loi théorique en question. Il peut s’agir du paramètre de la loi de Poisson, de la moyenne et de l’écart-type d’une loi normale, etc. Habituellement, quand on parle d’un paramètre de façon générale, on le nomme « thêta » (\(θ\)). La fonction de vraisemblance s’écrit alors ainsi (sous \(θ\) se trouvent un ou plusieurs paramètres et les \(x_i\) sont les \(n\) valeurs observées) :
\(L(x_1, x_2, ..., x_n\,; \theta )\)
- Dans le cas de variables discrètes, \(L\) \(=\) \(P_{\theta}(X_1=x_1,..., X_n = x_n).\) C'est donc la probabilité d'avoir obtenu cet échantillon.
- Dans le cas de variables continues, \(L\) \(=\) \(f_{\theta}(x_1,...,x_n)\) (densité conjointe des \(X_i\)).
Le grand intérêt de cette fonction est de permettre la détermination de la ou des valeurs de \(θ\) pour lesquelles la fonction de vraisemblance sera maximale.
Les expressions de ces fonctions font froid dans le dos (voir par exemple la page sur le paramètre de la loi de Poisson).
Le maximum de vraisemblance
En fait, il est plus pratique d’utiliser le logarithme de cette fonction (on n’a jamais fait mieux pour remplacer un produit par une somme). Dans la mesure où la fonction \(\ln\) est croissante, le maximum de la fonction de vraisemblance est aussi celui de la log-vraisemblance.
Une dérivée partielle nulle étant un moyen éprouvé pour trouver un extremum, on pose l’équation de vraisemblance et on dérive la fonction par rapport au paramètre à estimer.
\(\frac{\partial }{{\partial \theta }}\ln L(X;\theta ) = 0\)
En général, dans les démonstrations, on s'assure aussi que la dérivée seconde est négative pour s’assurer qu’il s’agit bien d’un maximum (histoire de vérifier qu’on n’a pas bêtement choisi le pire estimateur…).
Deux démonstrations figurent en page de calculs de maximums de vraisemblance (il s'agit du paramètre de la loi exponentielle et de la moyenne d'une loi normale). Voir aussi l'efficacité d'un estimateur (loi de Bernoulli) et l'efficacité du paramètre de la loi de Poisson.
Utilisation
Tout ceci semble bien théorique. Un intérêt pratique est que le calcul de l’estimateur du maximum de vraisemblance (EMV) est réalisé par les logiciels qui ajustent les valeurs observées d’un échantillon à une distribution (proposant parfois d’autres méthodes). La présentation des étapes ci-dessous doit beaucoup au manuel du logiciel @RISK de Palisade :
L’état des lieux : vous observez une ou plusieurs variables sur un ou plusieurs échantillons et vous souhaitez vous en servir pour estimer une fonction de densité (ou une fonction cumulative) représentative de toute la population, ceci afin d'utiliser ce modèle pour estimer un tas de choses passionnantes.
Donc, vous ou votre logiciel choisissez un certain nombre de distributions candidates. À titre d’exemple, @RISK connaît une quarantaine de lois de probabilité.
Étape suivante, le logiciel détermine le ou les paramètres des lois candidates par la méthode de l’EMV (ou d’autres approches).
Enfin, les distributions candidates, armées de leurs paramètres estimés par maximum de vraisemblance, sont toutes comparées à la distribution réelle. Ici aussi, il existe un choix de techniques pour juger la meilleure adéquation (Kolmogorov-Smirnov, khi², indicateurs d’écart…).
Et c’est ainsi qu’une pauvre distribution statistique observée s’habille d’une sublime loi de probabilité qui lui colle au corps comme aucune autre…