Techniques et concepts de l'entreprise, de la finance et de l'économie 
(et fondements mathématiques)

Le coefficient de détermination

logo

 

 

 

 

 

 

 

 

 

 

Coefficient de détermination et R² ajusté

Très important. Un V.I.P de la modélisation. Mais on lui fait parfois dire ce qu’on veut…

Présentation

Le coefficient de détermination (R²) mesure l'adéquation entre un modèle issu d’une régression linéaire simple ou multiple et les données observées qui ont permis de l'établir. Certes, il a ses imperfections, mais son utilité n’a d’égale que sa simplicité.

Concrètement, ce coefficient se situe entre 0 (le modèle ne vaut rien) et 1 (il est parfait).

Deux façons de l'établir :

Dans le cadre d’une régression linéaire simple, le plus rapide est d'élever au carré le coefficient de corrélation. On le note plutôt avec une minuscule :.

La deuxième manière est beaucoup plus riche en implications car elle s’applique aussi bien à une régression simple qu’à une régression multiple. Surtout, elle permet de comprendre la signification de cette statistique.

Bref rappel. Soit yi une valeur prise par une observation que l'on cherche à expliquer. Cette valeur yi peut être décomposée en deux parties : une part expliquée par le modèle et une part résiduelle due à des erreurs de mesure, par exemple.

La dispersion de l’ensemble des observations se décompose donc en variance expliquée par la régression et en variance résiduelle (MSE), inexpliquée. La variance totale est la somme des deux.

Le R² se définit alors comme la part de variance expliquée dans la variance totale.

Si l'on multiplie ces deux variances par l'effectif n, on peut aussi bien écrire [(1 – somme des carrés des résidus) / somme des carrés totale].

R²=1-(SCR/SCT)

SCR est la somme des carrés des résidus. SCT est la somme des carrés totaux.

Vous comprenez alors pourquoi le est compris entre 0 et 1. Par exemple, un coefficient de 0,8 indique que 80 % de la dispersion est expliquée par le modèle de régression.

Inférence

Nous avons implicitement considéré que la régression était réalisée sur une population. En fait, elle l'est presque toujours sur un échantillon et l'équation du modèle est appelée à s'appliquer à une population plus vaste. De même lorsqu'il s'agit d'une évolution dans le temps, on souhaite étendre au futur le modèle établi sur le passé.

La question qui se pose est celle de la validité de notre sur un ensemble plus large.

Bonne nouvelle, il est un estimateur sans biais du inconnu qui aurait été obtenu en analysant l'ensemble de la population.

On peut tester s'il est significativement non nul avec un test du F à k et n – k – 1 degrés de liberté (k étant le nombre de variables explicatives). Ce test n’utilise pas directement le R² car il suppose un rapport de variances indépendantes, ce qui n’est pas le cas. Au numérateur de la statistique F se trouve donc la variance expliquée par la régression et au dénominateur se trouve la variance résiduelle divisée par n – k – 1. Dans la mesure où la qualité de la régression s’apprécie par une comparaison de variances, les logiciels fournissent le tableau de l’ANOVA… Voir la page régression multiple avec tableur (en l'occurrence Excel et l'add-in XLSTAT).

Coefficient ajusté

Le coefficient de détermination ajusté tient compte du nombre de variables. En effet, le principal défaut du R² est de croître avec le nombre de variables explicatives. Or, on sait qu’un excès de variables produit des modèles peu robustes. C’est pourquoi on s’intéresse davantage à cet indicateur qu’au R². Mais ce n’est pas un véritable carré et il peut même être négatif. Voici deux expressions du R² ajusté, sachant que certains auteurs lui donnent une définition légèrement différente :

R² ajusté

D'autres critères, comme l'AIC, permettent de comparer la qualité de différents modèles.

Une autre précaution d’usage concerne la variable à expliquer : selon qu’il s’agit d’un stock ou d’un flux, la dispersion entre les valeurs est forcément différente…  Dans le même ordre d’idée, le R² appliqué à un modèle chronologique sera évidemment plus élevé si la variable dépendante est un montant que si elle représente la progression d’une période sur l’autre ! D'une façon générale, il faut redoubler de méfiance vis-à-vis du R² si la série est chronologique (voir page régression avec saisonnalité).

 

R²

 

© JY Baudot - Droits d'auteur protégés