Systèmes libres et liés

Vecteurs dépendants et indépendants

Mine de rien, cette page traite d'une notion fondamentale de l’algèbre linéaire, indispensable pour maîtriser les rouages de techniques d'analyses de données. Elle ne présente ni démonstration ni exemple tordu. Notre but est juste de faire connaître quelques principes auxquels il est pratique de se référer lorsqu’on surfe sur les pages statistiques.

Problématique

Bref, la question qui nous tracasse ici est : considérant un certain nombre de vecteurs dans \(\mathbb{R}^n\), l’un ou plusieurs d’entre eux sont-ils liés aux autres par combinaison linéaire ?

Les vecteurs sont linéairement dépendants (i. e. le système est lié) si une combinaison linéaire de ceux-ci est égale au vecteur nul ou, ce qui revient au même, au moins un vecteur est combinaison linéaire des autres.

Tout est dit. Mais nous allons développer un peu…

Dans le cas contraire, les vecteurs sont linéairement indépendants (le système, ou famille, est libre). Pour arriver au vecteur nul, il faut alors que tous les scalaires soient nuls. Cependant, si une autre solution permet d’obtenir ce fameux vecteur nul, le système est lié.

En pages de combinaison linéaire et de pivot de Gauss, on voit comment éliminer un vecteur superflu, c’est-à-dire combinaison linéaire des autres. Il est indispensable de procéder à cette démarche pour vérifier qu’un système est libre. Une famille libre ne constitue pas toujours une base mais, même s'il manque des vecteurs pour celà, le système n'en est pas moins libre. À titre d'exemple, les vecteurs \((1\;;0\;;0)\) et \((0\;;1\;;0)\) constituent un système libre de \(\mathbb R^3\) mais ils ne suffisent pas à l'engendrer. Les vecteurs \((1\;;0\;;0)\) et \((2\;;0\;;0)\) forment quant à eux un système lié.

Deux vecteurs aux coordonnées proportionnelles sont donc liés. Un système dont l’un des vecteurs est le vecteur nul est également lié. En revanche, tout système extrait d'un système libre est libre lui aussi.

Exemple 1

Les polynômes suivants sont-ils linéairement indépendants ?

\(x^2 + 4x + 2,\) \(3x^2 + x - 1\) et \(3x^2 - 2x + 7.\)

Posons \(a(x^2 + 4x + 2) + b(3x^2 + x - 1) + c(3x^2 - 2x + 7)\) \(= 0\)

Donc \((a + 3b + 3c)x^2 + (4a + b - 2c)x + (2a - b + 7c)\) \(= 0\)

Si les coefficients de \(x^2,\) de \(x\) et la constante sont nuls, alors le système est libre.

\(\left\{ {\begin{array}{*{20}{c}} {a + 3b + 3c = 0}\\ {4a + b - 2c = 0}\\ {2a - b + 7c = 0} \end{array}} \right.\)

Ce système n’a pas d’autre solution que \(a = 0,\) \(b = 0\) et \(c =0.\) Donc, ces trois polynômes sont indépendants.

Exemple 2

Dans l'espace vectoriel des fonctions, les fonctions \(f(x) = 2x^2,\) \(g(x) = x + 1\) et \(h(x) = -2x^2 + 3x + 3\) sont-elles linéairement indépendantes ?

Non, puisque \(h(x) = -f(x) + 3g(x).\)

Voir aussi les exercices sur l'espace vectoriel des fonctions.

Exemple 3

On établit un modèle de régression multiple avec variables saisonnières dichotomiques. Prenons des données trimestrielles pour éviter des formules à rallonge. Pourquoi ne doit-on inclure que trois variables trimestrielles et non quatre ?

pourquoi ?

On pourrait se contenter d’une réponse intuitive : il suffit de construire l’équation autour d’un trimestre dont la variable est multipliée par un coefficient nul. Illustration : soit \(y = 1,01t + 41t_1 + 35t_2 - 4t_3 + 400.\) Aucune variable \(t_4\) n’apparaît et cinq paramètres de régression suffisent. La variable \(t\) correspond à la tendance. Si l’observation se situe au premier trimestre, nous avons \(t_1 = 1.\) Par exemple, si la première observation, correspondant à \(t = 1,\) se situe dans un trimestre 1, nous avons :

\(y\) \(=(1,01 \times 1) + (41 \times 1) + (35 \times 0)\) \(+\, (4 \times 0) + 400\) \(= 441,01.\)

Ainsi, si l’on estime une valeur d’un trimestre 4, seules deux variables sont actives : la tendance et la constante (comme s’il s’agissait d’une régression linéaire simple).

Mais ce qui semble n’être qu’une astuce pour faire l'économie d'une variable dans la présentation du modèle est en fait un impératif mathématique. Et c’est ici qu’interviennent les vecteurs. Quels sont ceux qui engendrent l’espace des variables explicatives ? Nous avons \(T = (1\;;2\;;3\;;4…)\) qui est celui de la variable \(t.\) Celui-ci ne pose aucune difficulté. Ensuite, le vecteur \(C\) représentant la constante. On a bien sûr \(C = (1\;;1\;;1\;;1\;;1…)\) puisqu’une constante s’applique de façon égale à toutes les valeurs estimées par la régression. En l'occurrence, c'est le scalaire 400 qui multiplie le vecteur \(C.\)

Soit \(T_1\) le vecteur des premiers trimestres, \(T_2\) celui des deuxièmes trimestres, etc. \(T1 = (1\;;0\;;0\;;0\;;1\;;0…)\) tandis que \(T_2 =(0\;;1\;;0\;;0\;;0\;;1\;;0…),\) etc. Et là, on voit bien que \(T_1 + T_2 + T_3 + T_4\) \(=C.\) Les vecteurs sont LIÉS. Il existe une colinéarité. Que signifie ceci ? Qu’aucun coefficient de régression ne peut être déterminé puisqu'une infinité de combinaisons permet d'obtenir \(C.\)

singe captif