Le coefficient de détermination

Coefficient de détermination et \(R^2\) ajusté

Très important. Un V.I.P de la modélisation. Mais on lui fait parfois dire ce qu’on veut…

 

Présentation

Le coefficient de détermination mesure l'adéquation entre un modèle issu d’une régression linéaire simple ou multiple et les données observées (ou les réalisations des variables aléatoires) qui ont permis de l'établir. C'est par exemple un outil du data scientist qui mesure l'adéquation de son modèle prédictif avec la réalité.

Certes, il a ses imperfections, mais son utilité n’a d’égale que sa simplicité.

Deux façons de l'établir :

Dans le cadre d’une régression linéaire simple, le plus rapide est d'élever au carré le coefficient de corrélation.

On le note alors avec une minuscule : \(r^2\) dans le cadre de statistiques descriptives ou \(\rho^2\) si une estimation a été produite sur un échantillon. En revanche, lorsqu'il existe plusieurs séries de variables aléatoires éventuellement explicatives (régression multiple), on le note généralement avec une majuscule \(R^2\).

R²

Présenté ainsi, vous devinez une propriété du coefficient de détermination : il se situe entre 0 (le modèle linéaire ne vaut rien) et 1 (il est parfait). Mais cette approche pratique n'explique en rien la raison d'être de cet indicateur statistique.

La deuxième manière est beaucoup plus riche en implications car elle s’applique aussi bien à une régression simple qu’à une régression multiple. Surtout, elle permet de comprendre sa signification.

Bref rappel. Soit \(y_i\) une valeur prise par la variable que l'on cherche à expliquer. Elle peut être décomposée en deux parties : l'une expliquée par le modèle et l'autre résiduelle, due par exemple à des erreurs de mesure.

La dispersion de l’ensemble des observations se décompose donc en variance expliquée par la régression et en variance résiduelle (MSE), inexpliquée. La variance totale est la somme des deux.

Le \(R^2\) se définit alors comme la proportion de variance expliquée dans la variance totale.

Si l'on multiplie ces deux variances par l'effectif \(n\), on peut aussi bien écrire:

\[{R^2} = 1 - \frac{{\rm{SCR}}}{{\rm{SCT}}}\]

SCR est la somme des carrés des résidus. SCT est la somme des carrés totaux.

Par exemple, un coefficient de 0,8 indique que \(80\% \) de la dispersion est expliquée par le modèle de régression.

 

Inférence

Une régression est très souvent réalisée sur un échantillon et l'équation du modèle est appelée à s'appliquer à une population entière. De même lorsqu'il s'agit d'une évolution dans le temps, on souhaite étendre au futur le modèle établi sur le passé.

La question qui se pose est celle de la validité de notre \(R^2\) sur un ensemble plus large puisqu'il a été établi à partir de réalisations de variables aléatoires.

Bonne nouvelle, il est un estimateur sans biais du \(r^2\) inconnu qui aurait été obtenu en analysant l'ensemble de la population.

On peut tester s'il est significativement non nul avec un test du F de Fisher-Snedecor à \(k\) et \(n-k-1\) degrés de liberté (\(k\) étant le nombre de variables explicatives). Ce test n’utilise pas directement le \(R^2\) car il suppose un rapport de variances indépendantes, ce qui n’est pas le cas. Au numérateur de la statistique F se trouve donc la variance expliquée par la régression et au dénominateur se trouve la variance résiduelle divisée par \(n - k - 1.\) Dans la mesure où la qualité de la régression s’apprécie par une comparaison de variances, les logiciels fournissent le tableau de l’ANOVA… Voir la régression multiple avec tableur (en l'occurrence Excel et l'add-in XLSTAT).

 

Coefficient ajusté

Le coefficient de détermination ajusté tient compte du nombre de variables. En effet, le principal défaut du \(R^2\) est de croître avec le nombre de variables explicatives. Or, on sait qu’un excès de variables produit des modèles peu robustes. C’est pourquoi on s’intéresse davantage à cet indicateur qu’au \(R^2\). Mais ce n’est pas un véritable carré et il peut même être négatif. Voici deux expressions du \(R^2\) ajusté, sachant que certains auteurs lui donnent une définition légèrement différente :

\(R^2\) ajusté \( = {R^2} - \frac{{k(1 - {R^2})}}{{n - k - 1}}\) \( = 1 - \frac{{(1 - {R^2})(n - 1)}}{{n - k - 1}}\)

D'autres critères, comme l'AIC, permettent de comparer la qualité de différents modèles.

 

Prudence...

Une autre précaution d’usage concerne la variable à expliquer : selon qu’il s’agit d’un stock ou d’un flux, la dispersion entre les valeurs est forcément différente…  Dans le même ordre d’idée, le \(R^2\) appliqué à un modèle chronologique sera évidemment plus élevé si la variable dépendante est un montant que si elle représente la progression d’une période sur l’autre ! D'une façon générale, il faut redoubler de méfiance vis-à-vis du \(R^2\) si la série est chronologique (voir page régression avec saisonnalité).

 

R²