Matrice hessienne : principes et exemple

Dérivées partielles d'ordre 2

Cette page introduit un outil de base employé pour résoudre de nombreux problèmes d’optimisation. Comme nous ne montrons pas ici comment il est utilisé, sa compréhension n'exige pas un effort intellectuel épuisant.

Rappels

Vous avez appris en classe de première qu’une fonction d’une variable pouvait être dérivée (du moins là où elle est dérivable). Vous savez aussi que l’on peut souvent dériver successivement une fonction, parfois même indéfiniment (la dérivée de la dérivée étant la dérivée seconde).

Une fonction de deux variables admet quant à elle deux dérivées partielles, l’une par rapport à la première variable et l’autre par rapport à la seconde. Il n'existe donc pas UN nombre dérivé comme avec une fonction d’une seule variable mais un couple de valeurs, c’est-à-dire un vecteur que l’on nomme gradient.

Matrice hessienne

Une fonction de deux variables admet elle aussi des dérivées secondes, mais cette fois-ci il y en a quatre !

Soit une fonction \(f(x,y)\) définie sur un ouvert.

Supposons que \(f\) peut être dérivée deux fois par \(x,\) deux fois par \(y,\) par \(x\) puis par \(y\) et enfin par \(y\) puis par \(x.\)

Il y a malheureusement de nombreuses façons d’écrire ces dérivées partielles secondes. À titre d’exemple, voici un échantillon de notations pour écrire la première d’entre elles (celle qui est dérivée deux fois par \(x\)) :

\(f'{'_x} = f'{'_{{x^2}}} = \frac{{{\partial ^2}f}}{{\partial {x^2}}}\) \(=\) \(\frac{{{d^2}f(x,y)}}{{d{x^2}}}\)

En revanche, voici une bonne nouvelle. Si les dérivées secondes suivantes sont continues, des calculs seront évités en vertu du théorème de Schwarz :

\[\frac{{{\partial ^2}f}}{{\partial x\partial y}} = \frac{{{\partial ^2}f}}{{\partial y\partial x}}\]

La matrice hessienne est la matrice \(2 × 2\) de ces quatre dérivées partielles en un point. Elle est symétrique puisque nous venons de voir que les deux dérivées croisées sont identiques.

\[H = \left( {\begin{array}{*{20}{c}}
{\frac{{{\partial ^2}f}}{{\partial {x^2}}}}&{\frac{{{\partial ^2}f}}{{\partial x\partial y}}}\\
{\frac{{{\partial ^2}f}}{{\partial y\partial x}}}&{\frac{{{\partial ^2}f}}{{\partial {y^2}}}}
\end{array}} \right)\]

Tout ceci se généralise sans difficulté aux fonctions à \(n\) variables. La hessienne est alors une matrice carrée d’ordre \(n,\) symétrique pour peu que toutes les dérivées croisées soient continues au voisinage du point qui nous intéresse.

Grâce aux matrices hessiennes, il est possible d'étudier la convexité d'une fonction de deux variables ou plus et donc de résoudre des problèmes d'optimisation.

Pour simplifier les écritures, on utilise parfois la notation de Monge. La dérivée première par rapport à \(x\) est notée \(p\) et la dérivée par rapport à \(y\) est notée \(q.\) Quant à la hessienne...

\[H = \left( {\begin{array}{*{20}{c}}
r&s\\
s&t
\end{array}} \right)\]

abstraction

Exemple

Soit \(f(x,y) = xy - \ln(x^2 + y^2).\) Déterminer la hessienne au point de coordonnées \((1\,; 2).\)

Nous supposons que vous connaissez suffisamment bien les opérations sur dérivées pour rendre inutiles les détails de calcul :

\(f'(x) = y - \frac{2x}{x^2 + y^2}\)

\(f'(y) = x - \frac{2y}{x^2 + y^2}\)

Les dérivées secondes étant dans cet exemple un peu plus compliquées à établir, nous détaillerons leur calcul. Celui-ci nécessite en effet un petit entraînement quand on est en présence d’une forme \((\frac{u}{v})’\) car la confusion guette…

\(\frac{\partial ^2 f}{\partial x^2}\) \(=\) \(-\frac{2(x^2 + y^2) - 2x(2x)}{(x^2 + y^2)^2}\) \(=\) \(\frac{2x^2 - 2y^2}{(x^2 + y^2)^2}\)

\(\frac{\partial ^2 f}{\partial y^2}\) \(=\) \(-\frac{2(x^2 + y^2) - 2y(2y)}{(x^2 + y^2)^2}\) \(=\) \(\frac{-2x^2 + 2y^2}{(x^2 + y^2)^2}\)

Et enfin, dérivons \(f’(x)\) par rapport à \(y\) :

\(\frac{\partial ^2 f}{\partial xy} = 1 + \frac{4xy}{(x^2 + y^2)^2}\)

Libre à vous de dériver \(f’(y)\) par rapport à \(x\) pour vérifier si Hermann Amandus Schwarz disait vrai.

Il nous reste à remplacer \(x\) par 1 et \(y\) par 2, ce qui donne ce spectaculaire résultat…

\[H = \left( {\begin{array}{*{20}{c}}
{ - \frac{6}{{25}}}&{\frac{{33}}{{25}}}\\
{\frac{{33}}{{25}}}&{\frac{6}{{25}}}
\end{array}} \right)\]

Rideau.

noir