Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Les outliers

logo

 

 

 

 

 

 

 

 

 

 

Valeurs aberrantes et extrêmes

Qu’est-ce ?

Ce peut être des individus qui présentent des aberrations au regard des caractères étudiés : les atypiques, les inclassables, les clients qui n’appartiennent à aucune catégorie identifiable, un guitariste de glam metal au conseil d’administration d’une banque d’affaires... Certes, pas toujours des individus inintéressants pour la direction commerciale, mais ils sont les ennemis de plusieurs techniques de statistiques et de data mining car ils faussent les résultats.

Ce peut être un évènement : une absence de commandes pendant une période inhabituelle, une grève, une panique…

Les outliers sont alors des valeurs extrêmes, qui sont exactes et qu’il convient de ne pas modifier dans la base de données. A ne pas confondre avec les valeurs aberrantes, c’est-à-dire qui sont fausses et qui ne passent pas inaperçues.

Leur traitement fait partie, avec celui des données manquantes, du processus normal de préparation des données (qui est toujours l’étape la plus longue de l’étude). La principale différence avec les données manquantes est qu’une première analyse est nécessaire pour les détecter, quoique certains logiciels intègrent des procédures d’identification.

Toutefois, il arrive que la détection de valeurs extrêmes constitue l’objet même de l’étude (par exemple dans le cadre d’une lutte contre la fraude). La détection de valeurs aberrantes peut quant à elle s’inscrire dans une démarche d’amélioration de la qualité (fiabilité de la saisie des données, par exemple). Ce type d’étude est relativement facile à mener.

Détection et application de méthodes adaptées

Dans le cas des séries chronologiques, je vous renvoie à la page valeur extrêmes des chroniques.

Détection automatique : selon les logiciels, elle peut être implémentée afin que l’analyste les identifie (sur Statgraphics Centurion : « Identification des points extrêmes »...) ou leur traitement est intégré dans l’analyse à réaliser (une option à cocher).

La méthode de l'intervalle de confiance : si les observations suivent une loi normale, on peut considérer comme aberrantes ou extrêmes celles qui se situent au-delà de x écarts-types autour de la moyenne.

Détection non automatique : pour les amateurs de sur-mesure, lorsqu’il n’y a pas des millions d’unités statistiques à analyser.

Le plus simple est l’identification sur graphique (courbe ou nuage de points, en général). Sur la plupart des logiciels, il suffit de positionner le curseur sur l’observation bizarre et une info-bulle donne les coordonnées de la valeur. Selon le type d’analyse, les outliers peuvent être mis en évidence avec une CAH. Les analyses factorielles permettent également de visualiser des points très en-dehors des nuages.

Prenons le cas le plus simple, celui d’une analyse univariée. Que signifie la moyenne s’il existe un ou quelques outliers ? Rien. C’est le cas lorsqu’on analyse un ensemble de rémunérations. Et c’est pourquoi on retient dans ce cas la médiane plutôt que la moyenne.

Prenons maintenant le cas d’une régression linéaire simple. Nous savons tous qu’une valeur anormalement basse ou élevée peut modifier parfois de façon très sensible la pente de la droite de régression qui résume le nuage de points. Il existe alors des méthodes robustes aux outliers.

Dans le cadre des séries temporelles, mentionnons les méthodes expliquées par G. Mélard in Méthodes de prévision à court terme (Ellipses 2007) p. 60 et suiv. Il s’agit de la méthode des trois points et de la méthode de Theil.

Quand il n’existe pas d’issue de secours dans le choix des méthodes (ce qui est tout de même le cas le plus courant), on s’attaque aux données…

Elimination ou imputation ?

Si les données sont nombreuses, les observations qui présentent des valeurs aberrantes ou extrêmes sont en principe éliminées sans pitié. Il est toutefois judicieux de se constituer un fichier des éliminés : une observation rapide permet parfois de découvrir certaines inepties récurrentes, par exemple dues à des erreurs de saisie, et un traitement ad hoc plus ou moins automatisé permet de rétablir des informations sûres, soit dans la base de données elle-même, soit dans la base de travail. Dans le cadre des analyses multivariées, il est souvent possible de ne retenir pour l’analyse que les variables « correctes » d’une observation. Les observations qui présentent des valeurs extrêmes peuvent être incluses comme « illustratives ».

L’imputation consiste à quant à elle à remplacer les valeurs aberrantes, extrêmes ou manquantes par d’autres. La winsorisation est une technique efficace de traitement des valeurs extrêmes : on positionne une limite sur des quantiles, par exemple le premier et le 99e centile, puis on ramène à ces valeurs-ci celles qui se situaient au-delà. En revanche, l’idée d’une imputation par valeur moyenne est rarement bonne !

La méthode de l’intervalle de confiance évoquée plus haut permet soit l’élimination, soit l’imputation par les bornes de l’intervalle.

 

santons

 

© JY Baudot - Droits d'auteur protégés