La méthode de Theil

Régression linéaire simple avec droite médiane

À l’instar de la droite de Mayer, la méthode de Theil est une technique « concurrente » de la régression linéaire simple (RLS) avec sa droite des moindres carrés. Concurrence dérisoire car elle est infiniment moins connue. Pourtant, elle présente le gros avantage d’être plus robuste, c’est-à-dire moins sensible à la présence de valeurs aberrantes. Toutefois, les principaux logiciels de statistiques et de prévisions l’ignorent. Elle est en effet plus gourmande en temps de traitement et comme la théorie qui la fonde ne permet pas d’extraordinaires développements (comme c'est le cas avec la RLS), sa connaissance reste assez confidentielle. Il est en revanche assez facile de réaliser une application sur feuille de calcul avec cette technique.

La littérature francophone n’est pas non plus très prolixe à son sujet. On peut se référer à Méthodes de prévision à court terme de Guy Mélard, éd. Ellipses 2007, pp. 64 et 65.

Cette technique est robuste car elle est fondée sur les propriétés de la médiane.

 

Technique

Le principe consiste d’abord, à partir d’un nuage de n points, à déterminer toutes les droites possibles qui relient ces points deux à deux. Ce qui nous fait la modique somme de \(\frac{n(n-1)}{2}\) droites. Il suffit ensuite d'établir l’équation de la droite médiane (coefficent directeur médian et ordonnée à l’origine médiane).

Contrairement à une droite de régression, celle-ci ne passe pas nécessairement par le centre de gravité du nuage.

Dans la mesure où le modèle obtenu est une simple équation de droite, il suffit de donner une nouvelle valeur à la variable explicative pour déterminer la valeur prise par la variable expliquée. Si par exemple on observe une série chronologique, il est facile d’extrapoler la tendance obtenue pour obtenir des prévisions (tout comme on le fait avec la droite des moindres carrés).

 

Exemple

Voici pour le principe. Passons à un exemple de traitement semi-automatique avec Excel. Soit la série chronologique suivante, dans laquelle s’est malencontreusement glissée une valeur aberrante (observation n°4).

données

Rappelons la formule de calcul du coefficient directeur : \(a= \frac{y_B - y_A}{x_B - x_A}\)

Nous allons construire un premier tableau de toutes les différences entre \(x_i,\) un autre de toutes des différences entre \(y_i,\) puis un troisième qui indique les rapports entre ces deux séries de différences. Nous obtiendrons ainsi la liste de tous les coefficients directeurs.

Le premier tableau apparaît ainsi :

1er tableau excel

Selon le degré d’automatisation souhaité, on peut simplement recopier dans le tableau gris les valeurs prises par \(x_i\) ou faire en sorte qu’elles s’inscrivent automatiquement. Dans ce cas, les valeurs de \(x_i\) en colonne D peuvent être une simple référence à la colonne A. Les \(x_i\) en ligne 1 (colonnes E à K) peuvent être un simple collage d’une transposée de la matrice colonne précédente (=TRANSPOSE).

À l’intérieur de la matrice, remarquez la formule qui apparaît ci-dessus dans la copie d’écran. Cette formule permet de forcer les valeurs de la diagonale « à blanc ».

Poursuivons.

autres tableaux excel

La matrice des différences entre \(y_i\) se construit de la même façon que la précédente (qui figure à gauche). En haut à gauche de la capture d’écran ci-dessus figure la formule utilisée pour établir tous les rapports entre différences des deux premières matrices. Les résultats font l’objet du troisième tableau. Là encore, au croisement des points vis-à-vis d’eux-mêmes se trouvent des cellules vides.

tableur

Enfin, la médiane figure en bas. Elle est tout simplement obtenue avec la fonction =MEDIANE et l’intégralité de la matrice a été sélectionnée. Évidemment, avec cette technique, les coefficients directeurs des droites qui relient les points sont tous repris deux fois au lieu d’une seule. Ceci n’a aucune importance puisque la médiane reste la même… Quant aux cellules non renseignées de la diagonale, Excel les exclut du calcul.

Nous obtenons donc un coefficient directeur \(a\) égal à 2. Grâce à lui, il est très facile de trouver l’ordonnée à l’origine médiane (soit 10) :

ordonnée à l'origine

Pour terminer, comparons sur le nuage de points la droite ainsi obtenue d'équation \(y = 2x + 10\) ci-dessous en rouge, avec la droite des moindres carrés calculée par Excel, représentée en noir. Dans cet exemple, les coefficients directeurs sont les mêmes. On observe juste une translation verticale. La valeur 0 observée en 4 tire la droite noire vers le bas alors que la droite rouge reste sourde à ses appels...

droite de Theil

 

Extension

La méthode de Theil s’applique bien sûr aussi aux séries non chronologiques, dont la « particularité » est que la variable explicative peut prendre plusieurs fois la même valeur (si par exemple on cherche à expliquer un poids en fonction de la taille des individus, on peut parfaitement avoir dans notre échantillon deux individus de tailles différentes qui n’ont pas le même poids). D’où la possibilité de coefficients directeurs infinis qu’il faut prévoir de gérer dans l’outil de calcul.

 

pas compris