Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

La vraisemblance

logo

 

 

 

 

 

 

 

 

 

 

Maximum de vraisemblance

La vraisemblance

J’ouvre mon Petit Larousse et je lis : « Vraisemblance n.f. Caractère de ce qui est vraisemblable, a l’apparence de la vérité. »

Qu’est-ce-que la vérité pour un statisticien ? Je ne vais pas vous dispenser un cours de philosophie, ce n’est pas mon fort. Il y a peut-être le statisticien irréaliste qui cherche LE modèle qui décrira parfaitement toute situation réelle et le statisticien modeste pour qui une loi de probabilité constitue déjà une forme de perfection. Donc, hypothèse : nous sommes modestes.

La vraisemblance (Likelihood) mesure une adéquation entre la distribution observée sur un échantillon aléatoire et une loi de probabilité supposée décrire une réalité sur la population dont l'échantillon est issu. Comment ?

Par hypothèse, nous connaissons la fonction de densité de la loi de probabilité théorique la mieux adaptée à la population. Cependant, c’est une COQUILLE VIDE puisque nous ignorons son ou ses paramètres (espérance, variance…). N’ayant pas le choix, nous estimons ceux-ci à partir de statistiques d'échantillon. Intuitivement, on pourrait penser qu'il suffit de reporter sur la population les paramètres observés et que le tour est joué mais on se tromperait la plupart du temps. Il existe plusieurs techniques pour trouver l'estimateur le plus pertinent.

L’utilisation de la vraisemblance est l’une d’entre elles. Supposons que l’on compare une distribution observée à une loi discrète théorique, de Poisson par exemple. Pour chaque observation indépendante des autres (mettons 0, 1, 2…), on ne retient pas la probabilité observée mais celle que l’on aurait obtenue en appliquant la loi de Poisson (on remplace le x de la formule de la distribution de Poisson par 0, 1, 2…), loi munie du paramètre à estimer. Le PRODUIT de toutes ces probabilités s’appelle la vraisemblance. Bon, ce n’est plus vraiment la définition du Petit Larousse…

Certes, cette mesure est réductrice puisqu’une adéquation est ainsi résumée par une seule valeur mais il s’agit là d’une démarche habituelle en statistiques.

Plus la vraisemblance est proche de zéro, moins l’adéquation à la loi est bonne.

La fonction de vraisemblance

Maintenant que vous savez ce qu'est la vraisemblance, vous comprenez qu’elle varie en fonction du ou des paramètres de la loi théorique en question. Il peut s’agir du paramètre de la loi de Poisson, de la moyenne et de l’écart-type d’une loi normale, etc. Habituellement, quand on parle d’un paramètre de façon générale, on le nomme « thêta » (θ), comme on appelle « lambda » l’homme de la rue. La fonction de vraisemblance s’écrit alors ainsi (sous θ se trouvent un ou plusieurs paramètres et les xi sont les n valeurs observées) :

fonction de vraisemblance

Le grand intérêt de cette fonction est de permettre la détermination de la ou des valeurs de θ pour lesquelles la fonction de vraisemblance sera maximale.

Le maximum de vraisemblance

En fait, il est plus pratique d’utiliser le logarithme de cette fonction (on n’a jamais fait mieux pour remplacer un produit par une somme). Dans la mesure où la fonction ln est croissante, le maximum de la fonction de vraisemblance est aussi celui de la log-vraisemblance.

Une dérivée partielle nulle étant un moyen éprouvé pour trouver un extremum, on pose l’équation de vraisemblance. et on dérive la fonction par rapport au paramètre à estimer.

équation de vraisemblance

En général, dans les démonstrations, on étudie aussi la dérivée seconde pour s’assurer qu’il s’agit bien d’un maximum (histoire de vérifier qu’on n’a pas bêtement choisi le pire estimateur…).

Deux démonstrations figurent en page calculs de maximums de vraisemblance (il s'agit du paramètre de la loi exponentielle et de la moyenne d'une loi normale).

Utilisation

Tout ceci semble bien théorique. Un intérêt pratique est que le calcul de l’estimateur du maximum de vraisemblance (EMV) est réalisé par les logiciels qui ajustent les observations d’un échantillon à une distribution (proposant parfois d’autres méthodes). La présentation des étapes que je reprends ci-dessous doit beaucoup au manuel du logiciel @RISK de Palisade :

L’état des lieux : vous observez une ou plusieurs variables sur un ou plusieurs échantillons et vous souhaitez vous en servir pour estimer une fonction de densité (ou une fonction cumulative) représentative de toute la population, ceci afin d'utiliser ce modèle pour estimer un tas de choses passionnantes.

Donc, vous ou votre logiciel choisissez un certain nombre de distributions candidates. À titre d’exemple, @RISK connaît une quarantaine de lois de probabilité.

Étape suivante, le logiciel détermine le ou les paramètres des lois candidates par la méthode de l’EMV (ou d’autres approches).

Enfin, les distributions candidates, armées de leurs paramètres estimés par maximum de vraisemblance, sont toutes comparées à la distribution réelle. Ici aussi, il existe un choix de techniques pour juger la meilleure adéquation (Kolmogorov-Smirnov, khi², indicateurs d’écart…).

Et c’est ainsi qu’une pauvre distribution statistique observée s’habille d’une sublime loi de probabilité qui lui colle au corps comme aucune autre…

 

vraisemblance

 

© JY Baudot - Droits d'auteur protégés