Les outliers

Valeurs aberrantes et extrêmes

On peut toujours réaliser de longues études statistiques avec les méthodes les plus sophistiquées. Si les données comportent des anomalies, les conclusions de l'étude risquent de ne pas valoir grand chose. D'où l'importance de traiter les données en amont.

Certes, des algorithmes complexes peuvent traiter des bases de données brutes, avec leurs erreurs et leurs valeurs aberrantes, dans un cadre de machine learning. On parle alors de deep learning. Mais généralement, l'étape du nettoyage des données est réalisé par un spécialiste (data analyt ou data scientist). C'est même l'étape la plus cruciale du processus d'analyse.

 

Pourquoi d'étranges données ?

Il peut exister des individus qui présentent des aberrations au regard des caractères étudiés : les atypiques, les inclassables, les clients qui n’appartiennent à aucune catégorie identifiable, un guitariste de glam metal au conseil d’administration d’une banque d’affaires... Certes, pas toujours des individus inintéressants, mais ils sont les ennemis des techniques de statistiques et de data mining car ils peuvent impacter significativement les résultats.

Ces valeurs peuvent aussi correspondre à un évènement : une absence de commandes pendant une période inhabituelle, une grève, une panique…

Toutefois, ces outliers sont des valeurs extrêmes, qui reflètent la réalité. Il convient d'en tenir compte mais elles ont leur place dans la base de données. Il ne faut pas les confondre avec les valeurs aberrantes, qui sont fausses et qu'il faut traiter.

 

Traitement

Soit le traitement de ces valeurs particulières conduit à modifier la base de données, soit il s'effectue lors de l'analyse.

Il fait généralement partie du processus habituel de préparation des données (qui est toujours la partie la plus longue du travail d’étude). Contrairement au traitement des données manquantes, une première étape est nécessaire pour les détecter, quoique certains logiciels intègrent des algorithmes d’identification.

 

Détection et application de méthodes adaptées

Parfois, la détection de valeurs extrêmes constitue l’objet même de l’étude (par exemple dans le cadre d’une lutte contre la fraude). Ce type d’étude est relativement facile à mener.

La détection de valeurs aberrantes peut quant à elle s’inscrire dans une démarche d’amélioration de la qualité, par exemple la fiabilité de la saisie des données. Il est certain que si le volume de données anormales est trop élevé, il faut revoir le système de collecte.

Pour les séries chronologiques, voir la page valeurs extrêmes des chroniques.

Détection automatique : selon les logiciels, elle peut permettre à l'analyste de les repérer pour un traitement au cas par cas (par exemple sur Statgraphics Centurion : « Identification des points extrêmes »...) ou, si le volume de données est très important, de choisir un traitement global.

La méthode de l'intervalle de confiance : si les observations suivent une loi normale, on peut considérer comme aberrantes ou extrêmes celles qui se situent au-delà de x écarts-types autour de la moyenne.

Détection visuelle : pour les amateurs de sur-mesure, lorsqu’il y a peu d’unités statistiques à analyser.

Le plus simple est l’identification sur graphique (courbe ou nuage de points, en général). Sur la plupart des logiciels, il suffit de positionner le curseur sur l’observation qui attire le regard et une info-bulle donne les coordonnées de la valeur. Pour certains types d’analyse, les outliers peuvent être mis en évidence par une CAH. Les analyses factorielles offrent également la possibilité de visualiser des points très en-dehors des nuages.

Lorsque ce sont des données alphabétiques ou alphanumériques qui sont fantaisistes, de petits programmes permettent de les repérer (par exemple, des numéros de téléphone 01 00 00 00 00).

 

Robustesse de la technique

Il est parfois habituel de rencontrer des valeurs extrêmes et il n'est pas question de les traiter. En revanche, on adapte l'outil d'analyse.

Prenons le cas le plus simple, celui d’une série univariée. Que signifie la moyenne s’il existe un ou quelques outliers ? Rien. C’est le cas lorsqu’on analyse un ensemble de rémunérations. Et c’est pourquoi on retient dans ce cas la médiane comme indicateur de position centrale plutôt que la moyenne.

Prenons maintenant le cas d’une régression linéaire simple. Nous savons tous qu’une valeur anormalement basse ou élevée peut modifier parfois de façon très sensible la pente de la droite de régression qui résume le nuage de points. Il existe alors des alternatives robustes aux outliers (méthode de Theil, par exemple).

Lorsqu'il n’existe pas d’issue de secours dans le choix des méthodes (ce qui est tout de même le cas le plus courant), on s’attaque aux données…

 

Elimination ou imputation ?

Si les données sont nombreuses, les observations qui présentent des valeurs aberrantes ou extrêmes sont en principe éliminées sans pitié. Il est toutefois judicieux de se constituer un fichier des éliminés : une observation rapide permet parfois de découvrir certaines inepties récurrentes, par exemple dues à des erreurs de saisie, et un traitement ad hoc plus ou moins automatisé permet de rétablir des informations sûres, soit dans la base de données elle-même, soit dans la base de travail. Dans le cadre des analyses multivariées, il est souvent possible de ne retenir que les valeurs « correctes » d’une observation, celles qui présentent des valeurs extrêmes peuvant être incluses comme « illustratives ».

L’imputation consiste à quant à elle à remplacer les valeurs aberrantes, extrêmes ou manquantes par d’autres. La winsorisation est une technique efficace de traitement des valeurs extrêmes : on positionne une limite sur des quantiles, par exemple le premier et le 99ème centile, puis on affecte ces valeurs-ci à celles qui se situaient en-dehors de l'intervalle. En revanche, l’idée d’une imputation par valeur moyenne est rarement bonne !

La méthode de l’intervalle de confiance évoquée plus haut permet soit l’élimination, soit l’imputation par les bornes de l’intervalle.

Enfin, les valeurs manquantes peuvent elles aussi conduire soit à éliminer des observations, soit à procéder à des imputations.

 

santons