Crière AIC (Akaike Information Criterion)

AIC (Akaike Information Criterion)

L’une des grandes préoccupations des data analysts est d’évaluer leur travail. Pas de vantardise mal placée, ce n’est pas parce qu’ils ont plus de conscience professionnelle que les autres mais parce qu’ils établissent des modèles ad hoc. Un analyste financier ne s’amuse pas à valider son ratio de rentabilité car il sait pertinemment qu’il peut compter sur cet indicateur alors que le statisticien se situe dans une autre démarche. Il a bâti un modèle, par exemple à partir d'une régression multiple, et la moindre des choses est d'évaluer ce qu'il vaut.

Test sur un autre échantillon

Parfois, les données sont suffisamment nombreuses pour être séparées en un échantillon d’apprentissage et un échantillon de test. Cette saine pratique fait par exemple partie de la démarche d'élaboration du scoring sur base de données. Il est alors possible de tester plusieurs modèles avec de vraies valeurs, en retirant telle variable ou en regroupant plusieurs modalités.

Mais la plupart du temps on ne dispose pas de données en nombre suffisant, ce qui nécessite des outils spécifiques d'évaluation.

Un outil d'évaluation

L’AIC est l’un d’eux. Son utilisation est assez fréquente et, ce qui ne gâche rien, cet indicateur est polyvalent. Grâce à lui, on évalue la bonne adéquation d’un modèle et surtout on peut comparer plusieurs modèles entre eux.

Ce critère permet par exemple d’évaluer des régressions multiples (confortant éventuellement un \(R^2\) ajusté), des prévisions sur séries chronologiques ou encore des régressions logistiques.

Technique

L’AIC utilise le maximum de vraisemblance, mais en pénalisant les modèles comportant trop de variables, qui « surapprennent » les données et généralisent mal (voir la page sur la robustesse). C’est pourquoi on parle de « vraisemblance pénalisée ». Pour les spécialistes, précisons que c’est une technique de minimisation de la divergence (ou dissemblance) de Kullback (voir démonstrations sur « le Modèle linéaire par l’exemple », J.-M. Azaïs et J.-M. Bardet, Dunod 2005).

Sa formulation est la suivante : \({\rm{AIC}} = - 2\ln L(\theta ) + 2k\)

En version française : « moins deux » fois la log-vraisemblance plus deux fois le nombre de paramètres.

Si les erreurs sont distribuées normalement, on peut directement utiliser l'erreur quadratique moyenne \({\rm{AIC}} = n \ln {\rm{MSE}} + 2k\)

Le modèle à retenir est celui qui montre l’AIC le plus faible.

Il est habituel de présenter ce critère avec le BIC de Schwarz, qui pénalise davantage le surparamétrage.

Précisons enfin qu’il existe plusieurs versions du critère AIC « corrigé », notamment pour s'ajuster à de petits échantillons. L’une d’elles est la suivante :

\[\rm{AIC_c} = \rm{AIC} + \frac{2k(k+1)}{n-k-1}\]

ordinateur

Logiciels

Attention à ne pas faire une confiance aveugle à l’AIC lorsqu’il est calculé sur un petit nombre de données !

XLSTAT fournit le critère AIC des régressions (linéaire et logistique).

Statgraphics Centurion permet de choisir un modèle prévisionnel en fonction du critère AIC (régression, lissages, ARIMA).

AIC