Formes quadratiques, séries de Fourier (Mat404)

Dernière révision par B. Parisse, mai 2021

Table des matières

Index

  • [positive, définie, 4.2

  • absolument convergente, 5.1
  • antisymétrique, forme bilinéaire, 3.2
  • application linéaire, 2.3

  • base, 2.2
  • bilinéaire, forme, 3.2

  • chaleur, équation de la, 1.1
  • conique, C
  • convergente, absolument, 5.1
  • critère de d’Alembert, 5.1
  • critère de Riemann, 5.1

  • d’Alembert, critère de, 5.1
  • définie positive, 4.2

  • equation de la chaleur, 1.1
  • equation des ondes, 1.2
  • euclidien, espace, 4.2

  • Fourier, séries de, 6
  • forme quadratique, 3.2
  • forme bilinéaire, 3.2
  • forme linéaire, 2.3

  • Gram-Schmidt, 4.4
  • général, terme, 5.1
  • génératrice, famille, 2.2

  • image, 2.3
  • isométrie, 4.7

  • libre, famille, 2.2
  • linéaire, application, 2.3
  • linéaire, forme, 2.3

  • noyau, 2.3

  • ondes, équation des, 1.2
  • orthogonal, 3.4
  • orthogonale, matrice, 4.7
  • orthogonale, projection, 4.3
  • orthonormée, 3.4
  • orthonormalisation, 4.4

  • partielle, somme, 5.1
  • positive, 4.2
  • préhilbertien, espace, 4.2
  • produit matriciel, 2.4
  • produit scalaire, 4
  • projection orthogonale, 4.3

  • quadratique, forme, 3.2

  • Riemann, critère de, 5.1
  • rang (application linéaire), 2.3
  • rang (forme bilinéaire), 3.3
  • rang (matrice), 2.5

  • série, 5.1
  • séries de Fourier, 6
  • scalaire, produit, 4
  • signature, 3.5.2
  • somme partielle, 5.1
  • son, 1
  • spectrale, analyse, 1
  • symétrique, forme bilinéaire, 3.2
  • symétrique, matrice, 2.4

  • terme général, 5.1
  • transposition, 2.4

  • unitaire, matrice, 4.7

Chapitre 1  Motivations

Les séries de Fourier permettant d’écrire une fonction périodique (par exemple un signal périodique) comme une somme de fonctions périodiques fondementales (sinus et cosinus, ou exponentielle imaginaire pure). Le but est de simplifier la résolution de problèmes qui vérifient le principe de superposition et faisant intervenir des fonctions périodiques en se ramenant à ces fonctions périodiques fondementales.

Exemple: écriture approchée de 12+sin(t)\frac{1}{2+\sin(t)} comme somme de fonctions sinusoides fondementales 33+143+243cos(2t)+19433363cos(4t)+523903sin(3t)+43+63sin(t)\frac{\sqrt{3}}{3}+ \frac{-14 \sqrt{3}+24}{3} \cos\left(2\cdot t\right)+\frac{194 \sqrt{3}-336}{3} \cos\left(4\cdot t\right)+\frac{52 \sqrt{3}-90}{3} \sin\left(3\cdot t\right)+\frac{-4 \sqrt{3}+6}{3} \sin\left(t\right)

f1:=1/(2+sin(t));
g1:=(sqrt(3))/3+(-14*sqrt(3)+24)/3*cos(2*t)+(194*sqrt(3)-336)/3*cos(4*t)+
(52*sqrt(3)-90)/3*sin(3*t)+(-4*sqrt(3)+6)/3*sin(t);
plot([f1,g1],t,-pi,pi,color=[red,blue]);

onload
Il faut vraiment zoomer pour voir la différence

plot([f1,g1],t,-0.1,0.1,color=[red,blue]);

onload

Une application immédiate des séries de Fourier est l’analyse d’un son. Si on gratte sur une corde de guitare, on observe un phénomène périodique en temps, qui se décompose en une somme de sinusoides dont la fréquence est un multiple entier de la fréquence de base. Pour une même note de musique (par exemple un la à 440Hz), une guitare, un piano, une flute ne donneront pas le même son parce que les harmoniques sont différents. Voici 2 sons purs de fréquence 440Hz et 880Hz, et deux sons de fréquence de base 440Hz avec une harmonique n’ayant pas le même coefficient.





N.B. : la commande l:=soundsec(t) renvoie une liste ll de réels de la forme k/44100k/44100 pour k[0,44100*t]k \in [0,44100*t], par exemple


Ceci permet de générer un son de durée tt secondes échantilloné à 44.1 kHz (qualité sonore d’un CD audio) pour la commande playsnd. Si on calcule sin(2πfl)\sin(2\pi f l), on obtient la liste des sinus des réels sin(2πfk/44100)\sin(2\pi f k/44100), si on en trace la représentation graphique (avec en abscisse kk) on obtient une sinusoide avec ff périodes.

On pourrait ainsi numériser le son en stockant les coefficients des sinusoides pour la fréquence de base et de ses multiples (les harmoniques) jusqu’à la limite de sensibilité de l’oreille humaine. D’une certaine manière c’est ce que fait une partition de musique en donnant une succession de notes d’une certaine durée à jouer par des instruments de musique (chaque note jouée par un instrument correspondant en quelques sorte à une série de Fourier). Si on représente graphiquement la liste des coefficients des harmoniques en fonction des multiples de la fréquence de base, on obtient le spectre, qui donne une description complète du son (et qu’on peut manipuler avec des logiciels comme audacity par exemple faire l’analyse spectrale du son, supprimer des harmoniques trop aigües...). Voir par exemple ce document

Plus généralement, on parle d’analyse spectrale. Cette idée de décomposer en somme de fonctions périodiques“pures” s’applique à diverses généralisations des séries de Fourier : la transformée de Fourier (qui peut servir à comprendre la lumière, les couleurs correspondant à des fréquences, mais vues comme un paramètre continu variant dans +\mathbb{R}^+ et non discret restreint aux harmoniques d’une fréquence de base), et la transformée de Fourier discrète, adaptée au calcul sur machine.

Un exemple plus mathématique, si on veut résoudre une équation différentielle linéaire à coefficients constants avec second membre périodique (ressort soumis à un forçage périodique en temps, circuit RLC soumis à une source périodique en temps, ...), on a des formules simples pour trouver une solution particulière si le second membre est un sinus ou un cosinus (impédance complexe). Le principe de superposition s’applique (pour obtenir la solution particulière correspondant à un second membre somme de deux fonctions, il suffit de faire la somme des solutions particulières correspondant à chacune des deux fonctions). Bien sur, on sait résoudre ces équations différentielles avec un second membre quelconque, mais la forme de la solution n’est pas toujours explicite


et même si elle l’est, elle peut être compliquée et ne pas faire apparaitre certaines propriétés. L’existence de certains phénomènes, par exemple d’une fréquence de résonance ou d’un filtre passe-haut ou passe-bas, et la décomposition en somme de fréquences va permettre de mettre en évidence des propriétés de la solution particulière plus facilement


Historiquement, les séries de Fourier ont été inventées par Fourier pour résoudre le problème de la diffusion de la chaleur. On ne sait pas résoudre analytiquement l’équation de la chaleur, mais on va voir qu’on sait le faire lorsqu’on décompose la température initiale en somme de cosinus. On va aussi voir que la méthode utilisée pour l’équation de la chaleur est suffisamment générale pour s’appliquer dans d’autes cas, par exemple pour l’équation des ondes (qui elle se résoud analytiquement).

Mathématiquement, les concepts qui interviennent sont 

  1. de l’algèbre linéaire (principe de superposition)
  2. des sommes (de fonctions sinusoides) qui ne sont pas finies (puisqu’il y a une infinité de multiples entiers d’une fréquence de base), on les appelle des séries
  3. ces séries sont plus difficiles à étudier que des sommes de nombres réels, car il s’agit de fonctions. Pour donner un sens à la valeur d’une somme infinie de fonctions, il faut donner un sens à être petit pour une fonction, pour les séries de Fourier, le bon cadre pour cela est l’algèbre bilinéaire et les formes quadratiques.
  4. Les formes quadratiques particulières qui interviennent pour les séries de Fourier sont des produits scalaires qui généralisent le produit scalaire usuel dans 2\mathbb{R}^2 et 3\mathbb{R}^3. D’autres formes quadratiques ont des applications en physique, par exemple les trajectoires du problème à 2 corps (un astre en orbite autour d’un autre) sont des coniques dont l’équation cartésienne fait intervenir une forme quadratique, ou encore la relativité qui fait intervenir des formes quadratiques qui ne sont pas des produits scalaires, ou la mécanique quantique où les fonctions d’ondes sont des vecteurs de norme 1 d’un \mathbb{C}-espace vectoriel muni d’un produit scalaire (hermitien).

1.1  L’équation de la chaleur.

Considérons une tige chauffée de façon inhomogène, par exemple une tige métallique qui vient de servir à remuer les braises d’un feu de bois. Comment se diffuse la chaleur dans cette tige ?

On a donc une tige de longueur finie LL dont la température initiale (au temps t=0t=0) en un point d’abscisse xx est donnée par une fonction T init(x)=T(x,t=0),x[0,L]T_{\mbox{init}}(x) =T(x,t=0), \ x \in [0,L]. Dans l’exemple de la tige retirée du feu de bois, si l’extrémité de la tige est en x=Lx=L, alors T init(x)T_{\mbox{init}}(x) est une fonction croissante de xx (T init(L)T_{\mbox{init}}(L) vaut peut-etre 100 degrés, alors que T init(0)T_{\mbox{init}}(0) est proche de 20 degrés). On suppose que les échanges de chaleur entre la tige et l’air sont négligeables et que les extremités de la tige sont au contact d’un parfait isolant, ce qui implique qu’il n’y a pas de flux de chaleur à travers ces extrémités. En particulier le gradient de la température y est nul. On veut comprendre comment la chaleur se diffuse dans la barre avec le temps ; autrement dit, si T(x,t)T(x,t) est la température dans la tige au point xx en un temps tt, alors on veut comprendre l’évolution de la valeur de T(x,t)T(x,t) avec tt.

Si la température croit lorsque xx augmente, la chaleur va aller vers les xx décroissant, d’autant plus vite que Tx\frac{\partial T}{\partial x} est grand. Si on considère un petit élément de tige entre xx et x+dxx+dx, la chaleur entrante en x+dxx+dx est proportionelle à Tx(x+dx)\frac{\partial T}{\partial x}(x+dx) et la chaleur sortante en xx à Tx(x)\frac{\partial T}{\partial x}(x) donc on a un bilan de chaleur entrant de Tx(x+dx)Tx(x)\frac{\partial T}{\partial x}(x+dx)-\frac{\partial T}{\partial x}(x), qui va réchauffer le morceau de tige entre xx et x+dxx+dx, donc est proportionnel à Ttdx\frac{\partial T}{\partial t} dx Les lois de la physique entrainent donc que TT doit satisfaire à l’équation, dite équation de la chaleur : Tt=k 2Tx 2\frac{\partial T}{\partial t}= k \frac{\partial^2 T}{\partial x^2} kk est une constante positive (la diffusivité) qui dépend du matériau (proportionnelle à sa conductivité thermique).

Nous avons en plus les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t,\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t, qui traduisent l’absence de flux de chaleur à travers les extrémités, et la condition initiale T(x,t=0)=T init(x).T(x,t=0)= T_{\mbox{init}}(x). Oublions d’abord la condition T(x,0)=T init(x)T(x,0)=T_{\mbox{init}}(x). Autrement dit, on cherche les solutions vérifiant seulement les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t.\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t. L’équation étant beaucoup trop compliquée pour être résolue avec les méthodes dont nous disposons actuellement, nous allons commencer par simplement chercher des exemples de fonctions qui la satisfont. Les fonctions à variables séparées (c’est-à-dire s’écrivant dans la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t)) sont une source féconde d’exemples satisfaisant à des équations aux dérivées partielles, puisque de telles équations se simplifient souvent dans ce cas. Nous commencerons donc par chercher des solutions de la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t). On a alors : f(x)g(t)=kf(x)g(t),f(x)g'(t)=kf''(x)g(t), soit f(x)f(x)=g(t)kg(t),\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}, au moins sur la région ou ni ff ni gg ne s’annule. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)kg(t)=α.\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}=\alpha. Ainsi, on a f(x)αf(x)=0f''(x)-\alpha f(x)=0 et g(t)kαg(t)=0.g'(t)-k\alpha g(t)=0. On a donc g(t)=λe kαtg(t)=\lambda e^{k\alpha t} pour λ\lambda\in\mathbb{R}, et donc g(t)0g(t)\neq 0 pour tout t0t\geq 0 (car on cherche TT non identiquement nulle). La contrainte Tx(0,t)=Tx(L,t)=0\frac{\partial T}{\partial x}(0,t)=\frac{\partial T}{\partial x}(L,t) =0 entraîne alors f(0)=f(L)=0f'(0)=f'(L)=0. Pour résoudre l’équation en ff il nous faut maintenant distinguer 3 cas.

  1. Cas 1 : α=0\alpha=0. On a alors f(x)=0f''(x)=0, et donc f(x)=b 0x+a 0f(x)=b_0x+a_0. Les conditions f(0)=f(L)=0f'(0)=f'(L)=0 imposent alors facilement f(x)=a 0f(x)=a_0 pour tout xx. On a donc une première solution de base T 0(x,t)=1.T_0(x,t)=1.
  2. Cas 2 : α>0\alpha>0. On peut exclure ce cas par des considérations physiques, car gg serait exponentiellement croissante. D’un point de vue mathématique, on peut alors poser α=ω 2\alpha=\omega^2 et ff est de la forme f(x)=ae ωx+be ωxf(x)=a e^{\omega x}+ be^{-\omega x}. Les conditions que f(0)=0f'(0)=0 et f(L)=0f'(L)=0 impliquent alors a=b=0a=b=0, et ff est identiquement nulle, ce qui est exclu.
  3. Cas 3 : α<0\alpha&lt;0. On peut alors poser α=ω 2\alpha=-\omega^2 et f(x)=acos(ωx)+bsin(ωx),a,b,.f(x)=a\cos(\omega x)+b\sin(\omega x), a,b,\in\mathbb{R}. Puisque f(0)=0f'(0)=0 on a b=0b=0, et puisque f(L)=0f'(L)=0 on a asin(ωL)=0a\sin(\omega L)=0. Puisque l’on cherche TT non nulle, on a a0a\neq 0 et donc sin(ωL)=0\sin(\omega L)=0.

    Ainsi ωL=πn\omega L=\pi n pour n0n\geq 0 entier (remarque : ceci quantifie les ω\omega possibles qui prennent une suite discrète de valeurs), et donc pour chaque nn, on a une solution de la forme T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}.

Pour chaque entier positif n0n\geq 0 nous avons donc une solution de l’équation de la chaleur T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}. (Nous pouvons intégrer la solution T 0(x,t)=1T_0(x,t)=1 dans cette famille de solutions en considérant qu’il s’agit de T 0(x,t)=cos(0x)e 0tT_0(x,t)= \cos(0x)e^{-0t}.) La condition initiale T init,n(x)T_{\mbox{init},n}(x) correspondant à la solution T n(x,t)T_n(x,t) est donnée par T init,n(x)=T n(x,0)T_{\mbox{init},n}(x)= T_n(x,0), c’est à dire T init,n(x)=cos(nπxL). T_{\mbox{init},n}(x)= \cos\left(\frac{n\pi x}{L}\right). Nous avons donc trouvé une solution à l’équation de la chaleur pour certaines conditions initiales bien particulières, c’est à dire certains cosinus. Est ce qu’on peut en construire d’autres solutions pour d’autres conditions initiales ?

Notons tout d’abord que l’équation de la chaleur à une propriété très utile :

Remarque 1 (Linéarité de l’équation de la chaleur.)   Si T 1(x,t)T_1(x,t) et T 2(x,t)T_2(x,t) sont deux solutions à l’équation de la chaleur alors pour tous réels λ,μ\lambda, \mu\in \mathbb{R} T(x,t)=λT 1(x,t)+μT 2(x,t) T(x,t)= \lambda T_1(x,t)+\mu T_2(x,t) est encore une solution de cette équation. (Une telle fonction est appellée une combinaison linéaire de T 1T_1 et T 2T_2). On dit alors que l’équation de la chaleur est une équation linéaire.

Exercice. Démontrer que l’équation de la chaleur est une équation linéaire.

En particulier, toute fonction qui est une combinaison linéaire finie T(x,t)=λ 0T 0(x,t)+λ 1T 1(x,t)+λ 2T 2(x,t)++λ nT n(x,t)T(x,t)=\lambda_0 T_0(x,t)+\lambda_1 T_1(x,t)+\lambda_2T_2(x,t)+\ldots +\lambda_n T_n(x,t) avec des nombres réels λ 0,,λ n\lambda_0, \ldots, \lambda_n est encore une solution de l’équation de la chaleur. Cette solution corresponde à la condition initiale T init(x)=T(x,0)T_{\mbox{init}}(x)=T(x,0) c’est à dire T init(x)=λ 0+λ 1cos(πxL)+λ 2cos(2πxL)++λ ncos(nπxL).T_{\mbox{init}} (x)= \lambda_0+ \lambda_1 \cos\left(\frac{\pi x}{L}\right)+\lambda_2\cos\left(\frac{2 \pi x}{L}\right) +\ldots + \lambda_n\cos\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution pour l’équation de la chaleur pour certaines conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de cosinus.

Et il vient assez naturellement l’idée : Peut-on résoudre cette équation de la même façon pour une condition initiale T initT_{\mbox{init}} quelconque en l’écrivant comme une “somme infinie” de cosinus ?

Remarque 2   La méthode de séparation de variables s’applique aussi à l’équation de Schrödinger, ici pour une particule de masse mm et charge qq soumise à un potentiel V(x)V(x) en dimension 1 d’espace, et permet de trouver les états stationnaires : iφt=( 22m 2x 2+qV(x))φi \hbar \frac{\partial \varphi}{\partial t}= \left(-\frac{\hbar^2}{2m}\frac{\partial^2 }{\partial x^2} +qV(x) \right) \varphi Si on pose φ(x,t)=f(x)g(t)\varphi(x,t)=f(x)g(t), on a if(x)g(t)=( 22mf(x)+qV(x)f(x))g(t)i \hbar f(x) g'(t)=\left(-\frac{\hbar^2}{2m}f''(x)+qV(x) f(x)\right) g(t) Donc ig(t)g(t)= 22mf(x)f(x)+qV(x)=Ei \hbar \frac{g'(t)}{g(t)}=-\frac{\hbar^2}{2m}\frac{f''(x)}{f(x)}+qV(x)= E constant, c’est le niveau d’énergie de la particule que l’on trouve en résolvant l’équation en xx (pour un potentiel qui piège la particule, on trouve, comme pour l’équation de la chaleur, que seules certaines valeurs de EE conviennent), alors qu’en tt, on a g(t)=e iEtg(0)g(t)=e^{-i\frac{Et}{\hbar}} g(0)

1.2  L’équation des ondes.

Pour illustrer que la méthode utilisée pour l’équation de la chaleur est pertinente, nous allons voir qu’elle peut s’appliquer à une équation que l’on sait résoudre autrement : l’équation des ondes.

Un fil horizontal de longueur LL, soumis à une tension TT et de densité linéaire μ\mu, est tenu aux deux extremités. Par exemple une corde de guitare de longueur L=3L=3 pincée en un point d’abscisse 1 et d’ordonnée très petite (0.2 sur le dessin) aura le profil suivant

gl_ortho=1; L:=3; P:=point(1,0.2); segment(0,P);segment(P,L);

onload
Au temps t=0t=0 il est relaché et se met à osciller librement dans un plan vertical.

Soit y(x,t)y(x,t) la fonction égale au déplacement vertical1 à l’instant tt de la partie du fil qui se trouve (à l’équilibre) à une distance xx d’une des extremités.
Nous avons cette fois les conditions aux bords y(0,t)=y(L,t)=0, y(0, t)= y(L,t)=0, qui traduisent le fait que le fil est attaché aux extrémités. Si le déplacement initial du fil est décrit par la fonction y init(x)y_{\mbox{init}}(x) alors nous avons aussi les conditions initiales y(x,0)=y init(x) et yt(x,0)=0,y(x,0)= y_{\mbox{init}}(x)\ \mbox{ et }\ \frac{\partial y}{\partial t}(x,0)=0, cette dernière condition traduisant le fait que le fil est relâché à l’instant t=0t=0 et se trouve donc à ce moment-là au repos.

Si on considère le morceau de fil compris entre les abscisses xx et x+dxx+dx, il est soumis à deux forces :

Le principe fondemental de la dynamique donne alors μ 2yt 2dx=T(y(x+dx)y(x))\mu \frac{\partial ^2 y}{\partial t^2} dx = T(y'(x+dx)-y'(x)) L’évolution de yy est décrite (au premier ordre, car on a fait comme si le vecteur (1,y)(1,y') était normé, et on n’a pas tenu compte de la possible variation locale de tension si yy' est non nul) par l’équation des ondes 2yt 2=c 2 2yx 2 \frac{\partial ^2 y}{\partial t^2}=c^2\frac{\partial^2 y}{\partial x^2} cc est la constante positive c 2=Tμc^2=\frac{T}{\mu}.

On sait déterminer la solution de cette équation, on prolonge y inity_{\mbox{init}} par périodicité (période LL), on a alors : y(x,t)=12(y init(x+ct)+y init(xct))y(x,t)=\frac{1}{2}(y_{\mbox{init}}(x+ct)+y_{\mbox{init}}(x-ct)) Cherchons comme ci-dessus des solutions de la forme f(x)g(t)f(x)g(t). On a alors f(x)g(t)=c 2f(x)g(t),f(x)g''(t)=c^2f''(x)g(t), soit f(x)f(x)=g(t)c 2g(t).\frac{f''(x)}{f(x)}=\frac{g''(t)}{c^2g(t)}. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont deux variables indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)c 2g(t)=α.\frac{f''(x)}{f(x)}=\frac{g''(t)}{c^2g(t)}=\alpha. Ainsi, on a f(x)αf(x)=0 et g(t)c 2αg(t)=0.f''(x)-\alpha f(x)=0\ \mbox{ et }\ g''(t)-c^2\alpha g(t)=0. Le même raisonnement que ci-dessus nous montre que cette équation a une solution telle que y(0,t)=y(L,t)=0y(0,t)= y(L, t)=0 si et seulement si il existe un entier nn tel que α=n 2π 2L 2\alpha= -\frac{n^2\pi^2}{L^2} et dans ce cas on a une solution donnée par y n(x,t)=sin(nπxL)cos(cnπtL). y_n(x,t)= \sin\left(\frac{n\pi x}{L}\right)\cos\left(\frac{ cn\pi t}{L}\right) . Ceci nous donne une solution au problème pour une condition initiale Y n(x)=sin(nπxL). Y_n(x)= \sin\left(\frac{n\pi x}{L}\right). On vérifie bien que y n(x,t)=12(Y n(x+ct)+Y n(xct))y_n(x,t)=\frac{1}{2} (Y_n(x+ct)+Y_n(x-ct))

Remarque 1   L’équation des ondes est encore une équation linéaire,

Exercice Démontrer que l’équation des ondes est linéaire.

Puisque la fonction y n(x,t)y_n(x,t) est une solution pour chaque nn, toute combinaison linéaire finie y(x,t)=λ 1y 1(x,t)+λ 2y 2(x,t)++λ ky k(x,t)y(x,t)=\lambda_1 y_1(x,t)+\lambda_2y_2(x,t)+\ldots +\lambda_k y_k(x,t) ou les λ k\lambda_k sont des nombres réels est encore une solution de l’équation de la chaleur. Cette solution correspond à la condition initiale y init(x)=λ 1sin(πxL)+λ 2sin(2πxL)++λ nsin(nπxL).y_{\mbox{init}} (x)= \lambda_1 \sin\left(\frac{\pi x}{L}\right)+\lambda_2\sin\left(\frac{2\pi x}{L}\right) +\ldots + \lambda_n\sin\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution à cette équation pour des conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de sinus.

Il vient la même idée que dans le cas de l’équation de la chaleur : Peut-on résoudre cette équation pour une condition initiale quelconque y inity_{\mbox{init}} en écrivant y inity_{\mbox{init}} comme une “somme infinie” de sinus ?

Avant de se lancer dans des spéculations sur les sommes infinies de fonctions, il faudrait déjà savoir ce que veut dire une somme infinie de nombres. Dans un prochain chapitre, nous allons étudier les séries2 numériques.

Puis nous remplacerons les nombres par des fonctions. Nous voudrions prendre une fonction y init(x)y_{\mbox{init}}(x), définie sur une intervalle [0,L][0,L], et l’écrire comme une somme infinie de fonctions trigonométriques, dans l’espoir que cela nous permettra de résoudre l’équation de la chaleur avec condition initiale y inity_{\mbox{init}}.

Notons tout d’abord que la définition que nous avons donnée d’une somme infinie de nombres ne s’applique pas naturellement aux fonctions. En effet, la valeur d’une somme infinie s’exprime comme une limite d’une suite, et pouvoir parler de la limite d’une suite on a besoin d’une notion de distance - il faut pouvoir dire quand deux objets sont “proches”. Or, si cette notion est intuitive pour des nombres réels ou complexes, c’est beaucoup plus délicat de dire quand deux fonctions sont “proches” ou de définir une “distance” entre deux fonctions.

Mettons brièvement de côté cette difficulté. Si on nous donne une fonction y inity_{\mbox{init}} sur une intervalle [0,L][0,L], comment pourrait-on essayer d’écrire y inity_{\mbox{init}} comme une somme infinie de fonctions trigonométriques ? Une première idée pourrait être de calculer cette somme par approximations successives : pour chaque entier kk, on pourrait essayer de calculer S k(y init)S_k(y_{\mbox{init}}), qui serait le “meilleur approximant” de y inity_{\mbox{init}}, sous la forme a 0+a 1cos(πxL)+a 2cos(2πxL)++a kcos(kπxL) a_0+ a_1\cos(\frac{\pi x}{L})+a_2\cos(2\frac{\pi x}{L})+\ldots + a_k\cos(k\frac{\pi x}{L}) Peut être qu’en prenant des valeurs de kk de plus en plus grandes, on trouvera des S k(y init)S_k(y_{\mbox{init}}), sommes trigonométriques finies, de plus en plus proches de y inity_{\mbox{init}} ? Peut être que lorsque kk tend vers \infty, les S k(y init)S_k(y_{\mbox{init}}) convergeront vers une somme infinie de fonctions trigonométriques dont le résultat est y inity_{\mbox{init}} ?

Cette idée d’écrire y inity_{\mbox{init}} comme une somme infinie de fonctions trigonométriques par approximations successives est séduisante, mais pose beaucoup de questions :

  1. Quel sens donner à une somme infinie de fonctions ?
  2. Qu’est ce que ça veut dire, quand on dit que deux fonctions sont “proches” ?
    Comment quantifier la “distance” entre deux fonctions ?
  3. Comment calculer effectivement cette “meilleure approximation” S k(y init)S_k(y_{\mbox{init}}) ?
  4. Qu’est ce que cela signifie quand on dit qu’une suite de fonctions converge vers une autre fonction ?

Nous avons déjà commencé dans le chapitre précedent à répondre à la question 1), au moins dans le cas simple qui est celui d’une somme infinie de nombres. Nous chercherons maintenant à comprendre ce que peut vouloir dire une “bonne approximation” pour des fonctions. En effet, le premier problème que l’on rencontre lorsqu’on essaie de résoudre ces deux équations par une méthode d’approximations successives est celui de définir ce qu’on veut dire par une “bonne approximation”, ou une “distance” entre deux fonctions.3

Nous allons en particulier regarder de près la question suivante :
Supposons donnée sur un intervalle [0,L][0,L] une fonction ff. Comment faire pour trouver la meilleure approximation pour ff de la forme S n(f)=a 0+ j=1 na jcos(jπxL)+b jsin(jπxL)? S_n(f)= a_0+ \sum_{j=1}^n a_j \cos\left(j \frac{\pi x}{L}\right)+b_j\sin \left(j\frac{\pi x}{L}\right)\; ? Si nous ne disposons pas actuellement d’une bonne notion de distance entre des fonctions4 il existe bien des espaces pour lesquels on connait une définition de distance. Ce sont les espace géométriques 2\mathbb{R}^2 et 3\mathbb{R}^3. De plus, dans ces espaces, il existe des algorithmes efficaces qui permettent, étant donnés un point xx et un plan ou droite SS, de calculer le point de SS le plus proche de xx.

Nous allons nous baser sur ce que nous savons sur 2\mathbb{R}^2 et 3\mathbb{R}^3 pour définir des distances entre fonctions (et plein d’autres choses). Dans le prochain chapitre, nous allons étudier la notion d’espace vectoriel, qui réunit (entre autres) les espaces géométriques et les espaces de fonctions.


1
par rapport à l’équilibre
2
C’est le nom que les mathématiciens donnent aux sommes infinies.
3
Nous serons particulièrement attentifs à la question de l’approximation d’une fonction quelconque par des sommes de fonctions trigonométriques sin(nπx)\sin(n\pi x) et cos(nπx)\cos(n\pi x), puisque ces fonctions, qui représentent mathématiquement les phénomènes physiques ondulatoires, occupent une place très importante dans les mathématiques au service de la physique.
4
Et encore moins d’un algorithme permettant de calculer ce “meilleur approximant” pour une fonction donnée...

Chapitre 2  Rappels d’algèbre linéaire.

2.1  Rappels sur les espaces vectoriels : définitions et exemples.

Un \mathbb{R}-espace vectoriel est un ensemble VV tel que la somme de deux éléments de VV est encore un élément de VV, le produit d’un réel (appelé scalaire réel) par un élément de VV est encore un élément de VV, et qui vérifie les propriétés habituelles des sommes et produits (x+y=y+xx+y=y+x, existence d’un élément nul, d’un opposé, distributivité du produit par rapport à la somme...). L’exemple typique est l’ensemble des solutions d’un système homogène d’équations linéaires.

Définition 1   Plus formellement, un espace vectoriel VV doit être muni d’une loi interne V×VV,(x,y)x+y,V\times V\to V,(x,y)\mapsto x+y, et d’une loi externe ×VV,(λ,x)λx,\mathbb{R}\times V\to V,(\lambda,x)\mapsto \lambda\cdot x, appelée parfois multiplication par un scalaire, satisfaisant aux propriétés suivantes:
  1. Il existe un élément 0 VV0_V\in V tel que 0 V+x=x+0 V=x0_V+x=x+0_V=x pour tout xVx\in V.
  2. x+(y+z)=(x+y)+zx+(y+z)=(x+y)+z pour tout x,yVx,y\in V
  3. x+y=y+xx+y=y+x pour tout x,yVx,y\in V
  4. Pour tout xVx\in V, il existe un élément xVx'\in V tel que x+x=x+x=0 Vx+x'=x'+x=0_V. Cet élément xx' est alors unique, et est noté x-x.
  5. 1x=x1\cdot x=x pour tout xMx\in M
  6. (λμ)x=λ(μx)(\lambda\mu)\cdot x=\lambda\cdot(\mu\cdot x) pour tout λ,μ,xV\lambda,\mu\in \mathbb{R},x\in V
  7. λ(x+y)=λx+λy\lambda\cdot (x+y)=\lambda\cdot x+\lambda\cdot y pour tout x,yV,λx,y\in V,\lambda\in \mathbb{R}
  8. (λ+μ)x=λx+μx(\lambda+\mu)\cdot x=\lambda\cdot x+\mu\cdot x pour tout xV,λ,μx\in V,\lambda,\mu\in \mathbb{R}.

Un \mathbb{C}-espace vectoriel est défini de manière analogue en remplaçant \mathbb{R} par \mathbb{C}, on peut donc multiplier un élément de VV par un complexe (un scalaire complexe).

Remarque 2   On écrira λx\lambda x pour λx\lambda \cdot x.

Exemples :

  1. n\mathbb{R}^n, l’espace de vecteurs colonnes X̲=(x 1 x 2 x n)\underline{X}=\begin{pmatrix} x_1 \\ x_2\\ \vdots \\ x_n\end{pmatrix} avec x ix_i\in \mathbb{R}, est un espace vectoriel réel. L’espace n\mathbb{C}^n de vecteurs colonnes complexes est un espace vectoriel complexe.
  2. [X]\mathbb{R}[X], l’espace de polynômes réels en une variable XX, est un espace vectoriel réel. De même, [Y]\mathbb{C}[Y], l’espace de polynômes complexes en une variable YY est une espace vectoriel complexe.
  3. n[X]\mathbb{R}_n[X], l’espace de polynômes réels en une variable XX de degré n\leq n, est un espace vectoriel réel. De même, n[Y]\mathbb{C}_n[Y], l’espace de polynômes complexes en une variable YY de degré n\leq n, est une espace vectoriel complexe.
  4. M n()\mbox{M}_n(\mathbb{R}), l’espace de matrices n×nn\times n à coefficients réels, est un espace vectoriel réel,
  5. Pour tout a<ba&lt;b\in \mathbb{R} l’espace C 0([a,b],)C^0([a,b],\mathbb{R}) de toutes les fonctions continues réelles sur l’intervalle [a,b][a,b], est un espace vectoriel réel.
  6. Pour tout a<ba&lt;b\in \mathbb{R} et tout entier i>0i&gt;0 l’espace C i([a,b],)C^i([a,b],\mathbb{C}) de toutes les fonctions ii-fois continument dérivables à valeurs dans les complexes sur l’intervalle [a,b][a,b], est un espace vectoriel complexe.

Vérifier tous ces axiomes est fastidieux. Heureusement dans la pratique, nous travaillerons souvent avec des espaces vectoriels qui sont inclus dans d’autres pour lesquels on a une procédure de vérification simplifiée.

Définition 3   Soit VV un \mathbb{R}-espace vectoriel. Un sous-espace vectoriel WW de VV est un sous-ensemble de WVW\subset V contenant le vecteur nul de VV, tel que
  1. pour tout w 1,w 2Ww_1, w_2\in W nous avons que w 1+w 2Ww_1+w_2\in W
  2. pour tout w 1Ww_1\in W et λ\lambda\in \mathbb{R} nous avons que λw 1W\lambda w_1\in W

On montre que l’ensemble WW est bien un espace vectoriel avec l’addition et la multiplication héritées de VV.

Exercice 4   Montrer que les sous-ensembles suivants sont tous des sous-espaces vectoriels.
  1. L’ensemble de tous les (x,y) 2(x,y)\in \mathbb{C}^2 tels que x+y=0x+y=0.
  2. L’ensemble des solutions d’un système linéaire homogène d’équations.
  3. Un plan d’équation ax+by+cz=0ax+by+cz=0 (a,b,ca,b,c\in\mathbb{R} fixés) dans 3\mathbb{R}^3.
  4. L’ensemble {P[X]|P(1)=0}\{ P\in \mathbb{R}[X]| P(1)=0\} des polynômes à coefficients réels qui s’annulent en 1
  5. L’ensemble {MM n()| tM=M}\{ M\in M_n(\mathbb{C})| {}^tM= M\} des matrices symétriques dans M n()M_n(\mathbb{C}).
  6. L’ensemble de toutes les fonctions deux fois dérivables fC 2(,)f\in C^2(\mathbb{R},\mathbb{R}) telles que f=2ff''= -2f dans C 2(,)C^2(\mathbb{R},\mathbb{R}).
  7. L’ensemble PP des fonctions de \mathbb{R} dans \mathbb{R} de période 2π2\pi (i.e. fPf \in P lorsque f(x+2π)=f(x)f(x+2\pi)=f(x) pour tout réel xx). Qu’en est-il des fonctions périodiques ?

2.2  Familles libres, génératrices, bases et coordonnées.

Définition 1   On vérifie aisément que l’ensemble EE des combinaisons linéaires d’une famille de vecteurs {v 1,...,v n}\{v_1,...,v_n\} d’un espace vectoriel VV est un sous-espace vectoriel de VV que l’on notera E=E=Vect(v 1,...,v n)(v_1,...,v_n). On dit aussi que {v 1,...v n}\{v_1,...v_n\} est une famille génératrice de EE (tout élément de EE sécrit comme combinaison linéaire des éléments de la famille).

Si v nv_n est une combinaison linéaire de v 1,...,v n1v_1,...,v_{n-1} v n=λ 1v 1+...+λ n1v n1v_n=\lambda_1 v_1+... + \lambda_{n-1} v_{n-1} alors Vect(v 1,...,v n1)(v_1,...,v_{n-1})=Vect(v 1,...,v n)(v_1,...,v_n), on peut donc enlever v nv_n de la famille génératrice sans changer l’espace vectoriel engendré.

Définition 2   On dit qu’une famille vecteurs (e 1,,e n)(e_1,\ldots, e_n) est libre si aucun vecteur n’est combinaison linéaire des autres, ou de manière équivalente si l’équation λ ie i=0 V\sum \lambda_i e_i=0_V d’inconnues λ 1,...,λ n\lambda_1,...,\lambda_n a pour unique solution λ 1=...=λ n=0\lambda_1=...=\lambda_n=0

Une base d’un espace vectoriel EE est une famille génératrice et libre. On peut obtenir une base en enlevant tous les éléments superflus d’une famille génératrice : on commence par enlever v 1v_1 si v 1=0v_1=0, puis v 2v_2 si v 2v_2 est combinaison linéaire de v 1v_1, puis v 3v_3 si v 3v_3 est combinaison linéaire de v 1,v 2v_1,v_2, etc.

Une base permet de représenter (de manière unique) un élément d’un espace vectoriel par un vecteur colonne.

Définition 3   Soit VV un espace vectoriel réel. Une famille ordonnée d’éléments de VV, e={e 1,,e n}{\bf e}=\{e_1, \ldots, e_n\} est une base (finie) pour VV si pour tout élément vVv\in V il existe un unique n-uplet de scalaires λ 1,λ 2,,λ n\lambda_1, \lambda_2, \ldots, \lambda_n tels que v=λ 1e 1+λ 2e 2++λ ne n. v= \lambda_1e_1+\lambda_2e_2+\ldots +\lambda_n e_n.

L’écriture est unique sinon la famille {e 1,,e n}\{e_1, \ldots, e_n\} ne serait pas libre.

Définition 4   Avec les notations de la définition 3, nous dirons que le vecteur colonne (λ 1 λ 2 λ n) \begin{pmatrix}\lambda_1\\ \lambda_2 \\ \vdots \\ \lambda_n\end{pmatrix} est le vecteur des coordonnées de vv dans la base e{\bf e}.
Remarque 5 (Attention !)   Le vecteur de coordonnées de vv dans une base e{\bf e} dépend autant de la base e{\bf e} que du vecteur vv.
Remarque 6 (Notation)  Dans ce qui suit il sera très important de distinguer l’élément vv dans un espace vectoriel VV de dimension finie nn (qui peut être un vecteur colonne, ou une matrice, ou une fonction, ou un polynôme, ou plein d’autres choses) et le vecteur colonne V̲ n\underline{V}\in \mathbb{R}^n qui le représente dans une base donnée.

Pour bien distinguer ces deux objets, nous soulignerons systématiquement les noms des variables qui sont des vecteurs colonnes, et ne soulignerons pas ceux qui ne le sont pas.
Exemples 7  

  1. Les vecteurs (1 0 0),,(0 0 1)\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) ,\cdots,\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) forment une base de n\mathbb{R}^n, appelée la base canonique.

    Si
    (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) est un élément de n\mathbb{R}^n alors on peut écrire (x 1 x 2 x n)=x 1(1 0 0)++x n(0 0 1); \left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right)= x_1\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) +\cdots+ x_n\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) ; autrement dit, le vecteur de coordonnées de (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) dans la base canonique est (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right). Ceci est une source importante de confusion.
  2. Montrons que B={(1 1),(1 2)}B=\left\{\left(\begin{array}{c} 1\\ 1\end{array}\right), \left(\begin{array}{c} 1\\ 2\end{array}\right)\right\} est une base de 2\mathbb{C}^2. Nous considérons pour un vecteur arbitraire (x y)\left(\begin{array}{c} x\\ y\end{array}\right) l’équation (x y)=λ 1(1 1)+λ 2(1 2) \left(\begin{array}{c} x\\ y\end{array}\right)= \lambda_1 \left(\begin{array}{c} 1\\ 1\end{array}\right)+ \lambda_2\left(\begin{array}{c} 1\\ 2\end{array}\right) c’est-à-dire x=λ 1+λ 2 x= \lambda_1+ \lambda_2 y=λ 1+2λ 2 y= \lambda _1+ 2\lambda_2 ce qui (après pivot de Gauss) nous donne l’unique solution λ 1=2xy,\lambda_1= 2x-y, λ 2=yx.\lambda_2= y-x. Cette famille est donc une base et le vecteur de coordonnées de (x y)\left(\begin{array}{c} x\\ y\end{array}\right) dans la base BB est (2xy yx). \left(\begin{array}{c} 2x-y\\ y-x\end{array}\right).
  3. La famille B=(1,X,,X n)B=(1,X,\ldots,X^n) forme une base de l’espace vectoriel [X] n\mathbb{R}[X]_n des polynômes à coefficients dans \mathbb{R} de degré au plus nn. Si P=a 0+a 1X+a nX nP= a_0+a_1X+\ldots a_n X^n est un élément de n[X]\mathbb{R}_n[X] alors son vecteur de coefficients dans la base BB est (a 0 a 1 a n). \left(\begin{array}{c} a_0\\ a_1\\ \vdots \\ a_n \end{array}\right).
  4. On considère M 2()M_2(\mathbb{C}), l’espace de matrices carrées complexes 2×22\times 2. Elle a une base B=((1 0 0 0),(0 1 0 0),(0 0 1 0),(0 0 0 1),)B=\left(\begin{pmatrix} 1 & 0\\ 0& 0 \end{pmatrix}, \begin{pmatrix} 0& 1\\ 0& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 1& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 0& 1\end{pmatrix}, \right) et dans cette base la matrice M=(a b c d)M=\begin{pmatrix}a & b\\ c& d\end{pmatrix} a pour vecteur de coefficients (a b c d)\begin{pmatrix}a \\ b\\ c\\ d\end{pmatrix}.
  5. On considère l’espace de fonctions réelles deux fois dérivables sur \mathbb{R} qui satisfont l’équation f=2ff''= -2f. Vous avez vu en L1 que cette espace est de dimension 2 et la famille (cos(2x),sin(2x))(\cos(\sqrt{2}x), \sin(\sqrt{2} x)) en est une base. Le vecteur de coordonnées de la fonction f=acos(2x)+bsin(2x)f=a\cos(\sqrt{2} x)+ b\sin(\sqrt{2}x) dans cette base est (a b)\begin{pmatrix}a\\ b\end{pmatrix}.
Définition 8   Lorsqu’un espace vectoriel VV possède une base finie on dit que VV est de dimension finie.

Soit nn le nombre d’éléments de cette base BB de VV. Alors une famille libre de VV a au plus nn éléments. Sinon, considérons une famille libre {v 1,...,v n+1}\{v_1,...,v_{n+1}\}. On pose le système λ 1v 1+...+λ n+1v n+1=0\lambda_1 v_1+...+\lambda_{n+1} v_{n+1}=0 en écrivant les coordonnées des vecteurs dans la base BB. Ce système a plus d’inconnues (n+1n+1) que d’équations (nn) donc il admet une solution non identiquement nulle, ce qui est absurde car on a supposé la famille libre. (En faisant le pivot de Gauss on peut écrire le système sous forme échelonnée. Si on trouve un pivot dans les colonnes de 1 à nn, on peut exprimer λ n\lambda_n en fonction de λ n+1\lambda_{n+1} avec la dernière équation, puis λ n1\lambda_{n-1} en fonction de λ n+1\lambda_{n+1}, etc. et on trouve une solution non identiquement nulle. S’il y a une colonne sans pivot, par exemple la troisième, alors on prend λ 4=...=λ n+1=0\lambda_4=...=\lambda_{n+1}=0, la deuxième équation donne λ 2\lambda_2 en fonction de λ 3\lambda_3 et la première équation λ 1\lambda_1 en fonction de λ 2\lambda_2.

On en déduit que :

Proposition 9   Toutes les bases de VV ont alors le même nombre d’éléments : ce nombre s’appelle la dimension de VV.
Exemples 10  
  1. L’espace n\mathbb{R}^n est de dimension nn.
  2. L’espace n[X]\mathbb{R}_n[X] est de dimension n+1n+1.
  3. L’espace M 2()M_2(\mathbb{R}) est de dimension 44.
  4. L’espace [X]\mathbb{R}[X] n’est pas de dimension finie (sinon on aurait une base, on regarde le plus grand degré des éléments de la base, un polynôme de degré plus grand ne peut pas être combinaison linéaire des éléments de la base).
  5. On peut aussi montrer que l’espace des fonctions 2π2\pi-périodiques n’est pas de dimension finie. Un des objectif des séries de Fourier, c’est en quelque sorte d’en donner une “base” mais ayant un nombre infini d’éléments.

Le résultat suivant sera souvent utilisé pour vérifier qu’une famille de vecteurs est une base.

Lemme 11   Soit VV un espace vectoriel de dimension nn et soit {e 1,,e n}\{e_1,\ldots, e_n\} une famille de nn vecteurs dans VV. Si la famille {e 1,,e n}\{e_1,\ldots, e_n\} est libre alors elle est une base.

En effet, si vVv \in V, alors la famille {e 1,,e n,v}\{e_1,\ldots, e_n,v\} n’est pas libre puisqu’elle a n+1n+1 éléments, donc on a une combinaison linéaire non identiquement nulle λ 1e 1+...+λ ne n+λv=0\lambda_1 e_1+...+\lambda_ne_n+\lambda v=0 On a λ0\lambda \neq 0 car {e 1,,e n}\{e_1,\ldots, e_n\} est libre, donc vv est combinaison linéaire de {e 1,,e n}\{e_1,\ldots, e_n\}.

Proposition 12   Tout sous-espace WW d’un espace VV de dimension finie nn est de dimension finie mnm \leq n (avec égalité si et seulement si W=VW=V).

En effet, une famille libre de WW est une famille libre de VV donc a au plus nn éléments. On crée ensuite une famille libre de WW ayant un nombre maximal d’éléments, c’est une base de WW.

Les coordonnées d’un élément vVv\in V dans une base seront essentielles dans la suite, car elles nous permettront de ramener tous nos calculs à de simples multiplications de matrices. Il nous sera, d’ailleurs, souvent utile de simplifier nos calculs au maximum en choississant une base bien adaptée. Pour faire cela, il nous faut comprendre comment le vecteur V̲\underline{V} des coordonnées d’un élément vVv\in V dans une base e{\bf e} se transforme lorsqu’on change de base.

Définition 13   Soit VV un espace vectoriel de dimension nn et soient E={e 1,,e n}{\bf E}=\{e_1, \ldots, e_n\} et F={f 1,,f n} {\bf F}=\{f_1,\ldots, f_n\} des bases de VV. On appelle matrice de passage de E{\bf E} vers F{\bf F} la matrice obtenue en écrivant en colonnes les coordonnées des f if_i dans la base E{\bf E} : P=(V̲ 1,,V̲ n)P=(\underline{V}_1,\ldots, \underline{V}_n) V̲ i\underline{V}_i est le vecteur de coordonnés de f if_i dans la base E={e 1,,e d}{\bf E}=\{e_1,\ldots, e_d\}.
Remarque 14   Cas particulier
Si
E{\bf E} est la base canonique de n\mathbb{R}^n, la matrice de passage PP est donnée par P=(f̲ 1,,f̲ n). P= (\underline{f}_1,\ldots, \underline{f}_n). C’est-à-dire que la première colonne de PP est formée par les composantes de f 1f_1, la deuxième colonne de PP par les composantes de f 2f_2, etc.

Soit {e 1,...,e n}\{e_1,...,e_n\} une base de VV. Soit {f 1,...,f n}\{f_1,...,f_n\} une autre base de VV, et vVv \in V tel que v 1f 1+...+v nf n=vv_1f_1+...+v_nf_n=v Cette équation devient un système si on remplace par les coordonnées des f if_i et de vv dans la base {e 1,...,e n}\{e_1,...,e_n\}. Ce système a pour inconnues les coordonnées de vv dans la base {f 1,...,f n}\{f_1,...,f_n\}, il a comme matrice PP la matrice de passage de {e 1,...,e n}\{e_1,...,e_n\} vers {f 1,...,f n}\{f_1,...,f_n\} et comme second membre les coordonnées de vv dans la base {e 1,...,e n}\{e_1,...,e_n\}. D’où le :

Théorème 15   Soient B 1{\bf B_1} et B 2{\bf B_2} des bases de VV et soit vv un élément de VV. Soient V̲ 1\underline{V}_1 et V̲ 2\underline{V}_2 les vecteurs de coordonnés de vv dans les bases B 1{\bf B}_1 et B 2{\bf B}_2. Soit PP la matrice de passage de B 1B_1 vers B 2B_2. Alors V̲ 1=PV̲ 2 \underline{V}_1= P \underline{V}_2 ou, de façon équivalente V̲ 2=P 1V̲ 1 \underline{V}_2= P^{-1} \underline{V}_1
Remarque 16   Attention il faut multiplier par P 1P^{-1} (et pas PP) le vecteur colonne des composantes de vv dans la base B 1{\bf B_1} pour obtenir le vecteur colonnes des composantes de vv dans la base B 2{\bf B_2}.

Il y a une généralisation de la notion de base qui sera utile dans la démonstration d’un théorème ultérieur.

Définition 17   Soient V 1,,V mV_1,\ldots,V_m des sous-espaces vectoriels de VV. On dit que VV est la somme directe des sous-espaces V 1,,V mV_1,\ldots,V_m, et on écrit V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m, si et seulement si pour tout vVv\in V il existe des uniques éléments v 1V 1,,v mV mv_1\in V_1, \ldots, v_m\in V_m tels que v=v 1++v m.v=v_1+\ldots+v_m.

On montre aussi que :

Proposition 18   Si V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m et pour chaque ii nous avons que e i{\bf e}_i est une base de V iV_i alors la concatenation (e 1,e 2,,e m)({\bf e}_1, {\bf e}_2,\ldots, {\bf e}_m) est une base de VV.

2.3  Applications linéaires.

Considérons maintenant la classe des applications qui préservent la structure d’un espace vectoriel.

Définition 1   Soient VV et VV' deux \mathbb{R}-espaces vectoriels.

Une application linéaire de VV dans VV' est une application φ:VV\varphi: V\to V' qui commute avec l’addition et la multiplication par un réel, donc vérifiant

  1. φ(v 1+v 2)=φ(v 1)+φ(v 2)\varphi(v_1+v_2)=\varphi(v_1)+\varphi(v_2) pour tous v 1,v 2Vv_1,v_2\in V (l’image de la somme est la somme des images)
  2. φ(λv)=λφ(v)\varphi(\lambda v)=\lambda \varphi(v) pour tous λ,vV\lambda\in \mathbb{R},v\in V (l’image du produit par λ\lambda est le produit par λ\lambda de l’image)

Dans le cas où l’espace d’arrivée est \mathbb{R} on dira que φ\varphi est une forme linéaire

Remarque 2  Pour toute application linéaire φ\varphi on a nécessairement φ(0)=0\varphi(0)=0.

Pour définir une application linéaire entre deux espaces vectoriels sur \mathbb{C}, on remplace ci-dessus \mathbb{R} par \mathbb{C}

Exemples :

  1. L’application 3 2\mathbb{R}^3\rightarrow \mathbb{R}^2 donnée par (x y z)(x y)\begin{pmatrix}x\\y\\z\end{pmatrix} \mapsto \begin{pmatrix}x\\y \end{pmatrix} est linéaire. Elle l’est aussi de 3 2\mathbb{C}^3\rightarrow \mathbb{C}^2.
  2. L’application 3 2\mathbb{C}^3\rightarrow \mathbb{C}^2 donnée par (x y z)(x y+1)\begin{pmatrix}x\\y\\z\end{pmatrix}\mapsto \begin{pmatrix}x\\y+1 \end{pmatrix} n’est pas linéaire.
  3. L’application de \mathbb{C} \rightarrow \mathbb{C} définie par φ(z)=z¯\varphi(z)=\overline{z} n’est pas linéaire. Mais si on considère \mathbb{C} comme un \mathbb{R}-espace vectoriel (de dimension 2) elle le devient.
  4. L’application des fonctions continument dérivables dans les fonctions continues (C 1(,)C 0()C^1(\mathbb{R}, \mathbb{R})\mapsto C^0(\mathbb{R}\mathbb{R})), définie par ff2ff \mapsto f'-2f est linéaire.
  5. L’application de transposition dans l’espace vectoriel des matrices carrées M n()M n()M_n(\mathbb{C}) \mapsto M_n(\mathbb{C}) donnée par M tMM\mapsto {}^tM est linéaire.
  6. L’application de l’espace des polynômes de degré inférieur ou égal à 3 dans l’espace des polynômes de degré inférieur ou égal à 1 3[X] 1[X]\mathbb{R}_3[X] \mapsto \mathbb{R}_1[X], PPP\mapsto P'', est une application linéaire.
Exercice 3   Démontrer que les applications 1, 3, 4, 5 sont bien linéaires et que 2 ne l’est pas.
Définition 4   Le noyau de φ\varphi, noté Ker(φ)\mbox{Ker}(\varphi), est l’ensemble Ker(φ)={vVφ(v)=0}(V).\mbox{Ker}(\varphi)=\{ v\in V \mid \varphi(v)=0\}(\subseteq V). C’est un sous-espace vectoriel de VV.
Définition 5   L’image de φ\varphi, notée Im(φ)\mbox{Im}(\varphi), est l’ensemble Im(φ)={φ(v),vV}V.\mbox{Im}(\varphi)=\{ \varphi(v), v\in V\}\subseteq V'. C’est un sous-espace vectoriel de VV'.

Exercices

  1. Montrer que le noyau et l’image d’une application linéaire sont des sous-espaces vectoriels.
  2. Calculer l’image et le noyau des applications linéaires données en exemple.
Définition 6   On appelle rang d’une application linéaire φ\varphi la dimension de son image Im(φ)(\varphi).

On rappelle le théorème du rang, dont nous aurons besoin dans une démonstration ultérieure.

Théorème 7   Soit φ:VW\varphi:V\rightarrow W une application linéaire. On suppose que VV est de dimension finie. Alors Im(φ)\mbox{Im}(\varphi) est de dimension finie et dim(V)=dim(Ker(φ))+dim(Im(φ)). \mbox{dim}(V)= \mbox{dim}(\mbox{Ker}(\varphi))+\mbox{dim}(\mbox{Im}(\varphi)).

Preuve : on prend une base {v 1,...,v n}\{ v_1, ..., v_n\} de VV, les images {φ(v 1),...,φ(v n)}\{ \varphi(v_1), ..., \varphi(v_n) \} forment une partie génératrice de Imφ\varphi qui est donc de dimension finie, on prend une base de Imφ\varphi et on écrit les coordonnées des vecteurs images dans une matrice (en ligne ii, les coordonnées de φ(v i)\varphi(v_i)). On ajoute une colonne contenant les vecteurs v 1,...,v nv_1,...,v_n pour savoir de quel vecteur on a l’image. On applique le pivot de Gauss. On obtient une matrice échelonnée dont les lignes non nulles (colonne rajoutée non comprise) forment une base de Imφ\varphi, et les lignes nulles sont les images d’une base de Kerφ\varphi, base que l’on lit dans la colonne rajoutée. Comme le nombre de lignes nn est la somme des deux nombres précédents, on conclut.

2.4  Calcul Matriciel.

Dans cette section nous ferons des rappels sur les matrices et leurs manipulations. Celles-ci seront un élément clé de notre travail ce semestre.

Définition 1   Etant donnés deux entiers mm et nn strictement positifs, une matrice à mm lignes et nn colonnes est un tableau rectangulaire de réels A=(a i,j)A=(a_{i,j}). L’indice de ligne ii va de 11 à mm, l’indice de colonne jj va de 11 à nn. A=(a i,j)=(a 1,1 a 1,j a 1,n a i,1 a i,j a i,n a m,1 a m,j a m,n).A=(a_{i,j}) = \left( \begin{array}{ccccc} a_{1,1}&\cdots&a_{1,j}&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&a_{m,j}&\cdots&a_{m,n} \end{array} \right) \;. Les entiers mm et nn sont les dimensions de la matrice, a i,ja_{i,j} est son coefficient d’ordre (i,j)(i,j).

Notons qu’une matrice AA peut être précisée en donnant une expression pour ses coefficients a i,ja_{i,j} Par exemple, la matrice AA de taille 2×22\times 2 donnée par le formule a i,j=i+ja_{i,j}= i+j est la matrice A=(1+1 1+2 2+1 2+2)=(2 3 3 4).A= \begin{pmatrix} 1+1 & 1+2 \\ 2+1 & 2+2\end{pmatrix}= \begin{pmatrix} 2 & 3 \\ 3 & 4\end{pmatrix}.

L’ensemble des matrices à mm lignes et nn colonnes et à coefficients réels est noté m,n()\mathcal{M}_{m,n}(\mathbb{R}). Ce qui suit s’applique aussi, si on remplace \mathbb{R} par \mathbb{C}, à l’ensemble des matrices à coefficients complexes.

Notons trois cas spéciaux :

  1. Un vecteur de nn éléments peut s’écrire comme une vecteur colonne (x 1 x 2 x n)\begin{pmatrix}x_1\\x_2\\ \vdots \\ x_n\end{pmatrix} (matrice n×1n\times 1).
  2. Un vecteur de nn éléments peut s’écrire comme un vecteur ligne (x 1, x 2, , x n)\begin{pmatrix}x_1,&x_2,&\ldots, &x_n\end{pmatrix} (matrice 1×n1\times n).
  3. Un nombre réel xx peut être vu comme une matrice 1×11\times 1.

Du point de vue du calcul matriciel - en particulier lorsqu’il s’agit de faire des multiplications - un vecteur ligne ne se comporte pas comme un vecteur colonne. Nous ferons cette distinction en considérant, par exemple, que les vecteurs (1 2 3)et(1 2 3) \begin{pmatrix}1&2&3\end{pmatrix}\ \mbox{et}\ \begin{pmatrix}1\\ 2\\ 3\end{pmatrix} sont différents, même s’ils contiennent les mêmes nombres dans le même ordre. Toutefois certains logiciels, notamment Xcas, permettent de multiplier une matrice par un vecteur ligne, qui est alors remplacé par le vecteur colonne ayant les mêmes composantes.

Notation. Si X̲\underline{X} est un vecteur colonne à nn éléments, on notera le coefficient X̲ 1,i\underline{X}_{1,i} par X̲ i\underline{X}_i.

L’ensemble m,n()\mathcal{M}_{m,n}(\mathbb{R}) est naturellement muni d’une addition (on peut ajouter deux matrices de mêmes dimensions terme à terme) et de multiplication par des scalaires (on peut multiplier une matrice par un réel terme à terme).

  1. Addition : Si A=(a i,j)A=(a_{i,j}) et B=(b i,j)B=(b_{i,j}) sont deux matrices de m,n()\mathcal{M}_{m,n}(\mathbb{R}), leur somme A+BA+B est la matrice (a i,j+b i,j)(a_{i,j}+b_{i,j}). Par exemple : (1 1 2 3 1 1)+(3 1 5 3 0 2)=(2 2 7 0 1 1)\left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) + \left( \begin{array}{rr} -3&1\\ 5&-3\\ 0&2 \end{array} \right) = \left( \begin{array}{rr} -2&2\\ 7&0\\ 1&1 \end{array} \right)
  2. Multiplication par un scalaire : Si A=(a i,j)A=(a_{i,j}) est une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}), et λ\lambda est un réel, le produit λA\lambda A est la matrice (λa i,j)(\lambda a_{i,j}). Par exemple : 2(1 1 2 3 1 1)=(2 2 4 6 2 2)-2\, \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) = \left( \begin{array}{rr} -2&-2\\ -4&-6\\ -2&2 \end{array} \right)

Observons que ces opérations auraient le même effet si les matrices étaient disposées comme des mnmn-uplets de réels (toutes les lignes étant concaténées, par exemple)

Définition 2   (Matrice d’une application linéaire)
Soit
φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1=(e 1,...,e n)B_1=(e_1,...,e_n) dans un espace vectoriel V 2V_2 de base B 2=(f 1,..,f n)B_2=(f_1,..,f_n). On appelle matrice de φ\varphi dans les bases B 1B_1 et B 2B_2 la matrice dont les colonnes sont les composantes dans la base B 2B_2 des images φ(e 1),...,φ(e n)\varphi(e_1),...,\varphi(e_n) des vecteurs e 1,...,e ne_1,...,e_n de la base B 1B_1.

Si V 1=V 2V_1=V_2 on choisit (presque toujours) B 1=B 2B_1=B_2.

Exemple
Soit l’application linéaire de 3\mathbb{R}^3 dans 2\mathbb{R}^2 qui a un vecteur X=(x,y,z)X=(x,y,z) associe le vecteur Y=(x+2yz,3x2z)Y=(x+2y-z,3x-2z). Sa matrice dans les bases canoniques de 3\mathbb{R}^3 et 2\mathbb{R}^2 a pour première colonne les composantes de φ(e 1)=φ((1,0,0))=(1,3)\varphi(e_1)=\varphi((1,0,0))=(1,3), pour deuxième colonne les composantes de φ(e 2)=φ((0,1,0))=(2,0)\varphi(e_2)=\varphi((0,1,0))=(2,0) et pour troisième colonne les composantes de φ(e 3)=φ((0,0,1))=(1,2)\varphi(e_3)=\varphi((0,0,1))=(-1,-2) donc φ(e 1) φ(e 2) φ(e 3) 1 2 1 f 1 3 0 2 f 2,M=(1 2 1 3 0 2)\begin{array}{cccc} \varphi(e_1) & \varphi(e_2) & \varphi(e_3) & \\ 1 & 2 &-1 & f_1\\ 3 & 0 & -2 & f_2 \end{array}, \quad \Rightarrow \quad M= \left(\begin{array}{ccc} 1 & 2 &-1 \\ 3 & 0 & -2 \end{array}\right) On observe qu’on a en ligne les coefficients en x,y,zx,y,z des coordonnées du vecteur image.

Applications : Noyau et image d’une application linéaire de matrice MM
Soit φ:VV\varphi: V \mapsto V' a pour matrice MM relativement à des bases BB et BB'. Pour calculer le noyau de φ\varphi, il faut résoudre le système linéaire {x+2yz = 0 3x2z = =0\left\{ \begin{array}{ccc} x+2y-z&=&0\\ 3x-2z&=&=0 \end{array} \right. dont la matrice est MM. On réduit donc MM (en lignes) par l’algorithme du pivot de Gauss pour se ramener à une matrice triangulaire. Dans l’exemple ci-dessus, on remplace la ligne L 2L_2 par L 23L 1L_2-3L_1 ce qui donne la matrice M=(1 2 1 0 6 1)M=\left(\begin{array}{ccc} 1 & 2 &-1\\ 0 & -6 & 1 \end{array}\right) La deuxième équation donne 6y+z=0-6y+z=0 soit y=z/6y=z/6. Ensuite la première équation donne x+2yz=0x+2y-z=0 soit x=2y+z=2z/3x=-2y+z=2z/3. Donc (x,y,z)=z(2/3,1/6,1)(x,y,z)=z(2/3,1/6,1) et Ker(φ)(\varphi) est de dimension 1, engendré par le vecteur (2/3,1/6,1)(2/3,1/6,1). Le théorème du rang donne alors que Im(φ)(\varphi) est de dimension 3-1=2, c’est donc 2\mathbb{R}^2 tout entier.

Dans le cas général, les vecteurs colonnes de MM forment une famille génératrice de Im(φ)(\varphi). Il suffit de réduire MM en colonnes par l’algorithme du pivot de Gauss, une fois la réduction terminée les colonnes non nulles forment une base de Im(φ)(\varphi).
N.B : La commande rref de Xcas permet de réduire une matrice de vecteurs lignes, il faut donc transposer la matrice MM, la réduire avec rref puis extraire les vecteurs lignes non nuls pour avoir les coordonnées d’une base de Im(φ)(\varphi).

Proposition 3   Soit φ\varphi une application linéaire de V 1V_1 muni de la base B 1={e 1,...,e n}B_1=\{e_1,...,e_n\} vers V 2V_2 muni de la base B 2={f 1,...,f n}B_2=\{f_1,...,f_n\} et MM la matrice de φ\varphi dans les bases B 1B_1 et B 2B_2. Soit vV 1v \in V_1 un vecteur de composantes X̲\underline{X} dans la base B 1B_1.

Alors les composantes de φ(v)\varphi(v) dans la base B 2B_2 sont données par le vecteur MX̲M\underline{X} de composantes : (MX̲) i:= j=1 nM i,jX̲ j. (M\underline{X})_i := \sum_{j=1}^n M_{i,j} \underline{X}_j.

En effet : φ(v)=φ( jX je j)= jX jφ(e j)= jX j iM i,jf i= i( jM i,jX j))f i\varphi(v)=\varphi(\sum_j X_j e_j) =\sum_j X_j \varphi(e_j) = \sum_j X_j \sum_i M_{i,j} f_i = \sum_i (\sum_j M_{i,j} X_j)) f_i

Soit φ\varphi une application linéaire de V 1V_1 de base B 1B_1 dans V 2V_2 de base B 2B_2 et ψ\psi une autre application linéaire de V 2V_2 dans V 3V_3 de base B 3B_3. On peut montrer que la composée ψ(φ(.))\psi(\varphi(.)) est une application linéaire de V 1V_1 dans V 3V_3. Que se passe-t-il pour les matrices représentant ψ\psi, φ\varphi et la matrice de la composée ? On vérifie que la matrice de la composée s’obtient en faisant le produit matriciel des matrices de ψ\psi et φ\varphi (cela peut même être une façon de définir le produit de matrices).

Définition 4   Soient m,n,pm,n,p trois entiers strictement positifs. Soit A=(a i,j)A=(a_{i,j}) une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}) et soit B=(b j,k)B=(b_{j,k}) une matrice de n,p()\mathcal{M}_{n,p}(\mathbb{R}). On appelle produit matriciel de AA par BB la matrice C m,p()C\in \mathcal{M}_{m,p}(\mathbb{R}) dont le terme général c i,kc_{i,k} est défini, pour tout i=1,,mi=1,\ldots,m et pour tout k1,,pk\in 1,\ldots,p par : c i,k= j=1 na i,jb j,k.c_{i,k} = \sum_{j=1}^n a_{i,j}\,b_{j,k}\;.

Nous insistons sur le fait que le produit ABAB de deux matrices n’est défini que si le nombre de colonnes de AA et le nombre de lignes de BB sont les mêmes (pour la composition des applications linéaires, ceci correspond au fait que l’espace vectoriel de départ de la deuxième application ψ\psi est le même que l’espace vectoriel d’arrivée de la première application φ\varphi, ils ont donc même dimension). Dans le cas particulier où BB est un vecteur colonne de taille n×1n\times 1 cette opération nous fournit un vecteur colonne de taille m×1m\times 1. (b 1,1 b 1,k b 1,n b j,k b n,1 b n,k b n,p) (a 1,1 a 1,n a i,1 a i,j a i,n a m,1 a m,n) (c 1,1 c 1,p c i,k c m,1 c m,p)\begin{array}{cc} & \left( \begin{array}{ccccc} b_{1,1}&\cdots&b_{1,k}&\cdots&b_{1,n}\\ \vdots&&\vdots&&\vdots\\ &\cdots&b_{j,k}&\cdots&\\ \vdots&&\vdots&&\vdots\\ b_{n,1}&\cdots&b_{n,k}&\cdots&b_{n,p} \end{array} \right) \\ \left( \begin{array}{ccccc} a_{1,1}&\cdots&&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&&\cdots&a_{m,n} \end{array} \right) & \left( \begin{array}{ccccc} c_{1,1}&&\vdots&&c_{1,p}\\ &&\vdots&&\\ \cdots&\cdots&c_{i,k}&\ &\\ &&&&\\ c_{m,1}&&&&c_{m,p} \end{array} \right) \end{array} Posons par exemple : A=(1 1 2 3 1 1)etB=(0 1 1 2 3 2 0 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad\mbox{et}\quad B= \left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right)\;. La matrice AA a 3 lignes et 2 colonnes, la matrice BB a 2 lignes et 4 colonnes. Le produit ABAB a donc un sens : c’est une matrice à 3 lignes et 4 colonnes. (0 1 1 2 3 2 0 1)(1 1 2 3 1 1)=(3 1 1 1 9 4 2 1 3 3 1 3)\left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right) \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \ = \ \left( \begin{array}{rrrr} -3&-1&-1&-1\\ -9&-4&-2&-1\\ 3&3&-1&-3 \end{array} \right) Le produit matriciel a les propriétés habituelles d’un produit, à une exception notable près : il n’est pas commutatif

Proposition 5   Le produit matriciel possède les propriétés suivantes.
  1. Associativité : Si les produits ABAB et BCBC sont définis, alors les produits A(BC)A(BC) et (AB)C(AB)C le sont aussi et ils sont égaux. A(BC)=(AB)C.A(BC)=(AB)C\;.
  2. Linéarité à droite : Si BB et CC sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si AA a autant de colonnes que BB et CC ont de lignes, alors A(λB+μC)=λAB+μAC.A(\lambda B+\mu C) = \lambda AB+\mu AC\;.
  3. Linéarité à gauche : Si AA et BB sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si CC a autant de lignes que AA et BB ont de colonnes, alors (λA+μB)C=λAC+μBC.(\lambda A+\mu B)C = \lambda AC+\mu BC\;.

Ces propriétés se démontrent par le calcul à partir de la définition 4 ou en interprétant le produit comme une composition d’applications linéaires.

La transposition est une opération qui va intervenir plus loin dans le calcul matriciel avec les formes bilinéaires (d’un point de vue théorique cela provient de la dualité, qui dépasse le cadre de ce cours).

Définition 6   Étant donnée une matrice A=(a i,j)A=(a_{i,j}) de m,n()\mathcal{M}_{m,n}(\mathbb{R}), sa transposée est la matrice de n,m()\mathcal{M}_{n,m}(\mathbb{R}) dont le coefficient d’ordre (j,i)(j,i) est a i,ja_{i,j}.

Pour écrire la transposée d’une matrice, il suffit de transformer ses lignes en colonnes. Par exemple : A=(1 1 2 3 1 1),tA=(1 2 1 1 3 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad,\quad {^t\!A}= \left( \begin{array}{rrr} 1&2&1\\ 1&3&-1 \end{array} \right)\;. Observons que la transposée de la transposée est la matrice initiale. t(tA)=A.{^t({^t\!A})} = A\;. La transposée d’un produit est le produit des transposées, mais il faut inverser l’ordre des facteurs.

Proposition 7   Soient m,n,pm,n,p trois entiers strictement positifs. Soient A=(a i,j)A=(a_{i,j}) une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}) et B=(b j,k)B=(b_{j,k}) une matrice de n,p()\mathcal{M}_{n,p}(\mathbb{R}). La transposée du produit de AA par BB est le produit de la transposée de BB par la transposée de AA. t(AB)=tBtA.{^t(AB)} = {^t\!B}\,{^t\!A}\;.

Par exemple, en reprenant les matrices AA et BB définies ci-dessus : (1 2 1 1 3 1)(0 3 1 2 1 0 2 1)=(3 9 3 1 4 3 1 2 1 1 1 3)\left( \begin{array}{rrr} \;1&\quad2&1\\ \; 1&\quad 3&-1 \end{array} \right) \left( \begin{array}{rr} 0&-3\\ 1&-2\\ -1&0\\ -2&1 \end{array} \right) \ = \ \left( \begin{array}{rrr} -3&-9&3\\ -1&-4&3\\ -1&-2&-1\\ -1&-1&-3 \end{array} \right)

Définition 8  

Soit nn un entier strictement positif et AA une matrice carrée à nn lignes et nn colonnes. On dit que AA est symétrique si pour tous i,j=1,,ni,j=1,\ldots,n, ses coefficients d’ordre a i,ja_{i,j} et a j,ia_{j,i} sont égaux, ce qui est équivalent à dire que AA est égale à sa transposée.

Le produit d’une matrice par sa transposée est toujours une matrice symétrique. En effet : t(AtA)=t(tA)tA=AtA.{^t(A\,{^t\!A})} = {^t({^t\!A})}\,{^t\!A}=A\,{^t\!A}\;.

2.5  Matrices carrées

En général si le produit ABAB est défini, le produit BABA n’a aucune raison de l’être. Le produit d’une matrice par sa transposée est une exception, les matrices carrées en sont une autre : si AA et BB sont deux matrices à nn lignes et nn colonnes, les produits ABAB et BABA sont tous deux définis et ils ont les mêmes dimensions que AA et BB. En général ils ne sont pas égaux. Par exemple, (0 1 1 0)(0 1 1 0)=(1 0 0 1)(0 1 1 0)(0 1 1 0)=(1 0 0 1)\left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} 1&0\\ 0&-1 \end{array} \right) \qquad \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} -1&0\\ 0&1 \end{array} \right) Nous noterons simplement n()\mathcal{M}_n(\mathbb{R}) l’ensemble n,n()\mathcal{M}_{n,n}(\mathbb{R}) des matrices carrées à nn lignes et nn colonnes, à coefficients réels. Parmi elles la matrice identité, notée I nI_n, joue un rôle particulier. I n=(1 0 0 0 1 1 0 0 0 1)I_n= \left( \begin{array}{ccccc} 1&0&\cdots&\cdots&0\\ 0&1&\ddots&&\vdots\\ \vdots&\ddots&\ddots&\ddots&\vdots\\ \vdots&&\ddots&1&0\\ 0&\cdots&\cdots&0&1 \end{array} \right) En effet, elle est l’élément neutre du produit matriciel : pour toute matrice A n,m()A\in\mathcal{M}_{n,m}(\mathbb{R}), AI n=I mA=A.A\,I_n = I_m\,A = A\;. On le vérifie facilement à partir de la définition 4.

Définition 1   Soit AA une matrice de n\mathcal{M}_n. On dit que AA est inversible s’il existe une matrice de n\mathcal{M}_n, notée A 1A^{-1}, telle que AA 1=A 1A=I n.A\,A^{-1} = A^{-1}\,A = I_n\;.

Par exemple : (1 0 1 1 1 0 1 1 1)(1 1 1 1 2 1 0 1 1)=(1 1 1 1 2 1 0 1 1)(1 0 1 1 1 0 1 1 1)=(1 0 0 0 1 0 0 0 1)\left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&0&0\\ 0&1&0\\ 0&0&1 \end{array} \right) Observons que l’inverse, s’il existe, est nécessairement unique. En effet, soient B 1B_1 et B 2B_2 deux matrices telles que AB 1=B 1A=I nA\,B_1=B_1\,A=I_n et AB 2=B 2A=I nA\,B_2=B_2\,A=I_n. En utilisant l’associativité, le produit B 1AB 2B_1\,A\,B_2 vaut B 1(AB 2)=B 1I n=B 1B_1\,(A\,B_2)=B_1\,I_n=B_1, mais aussi (B 1A)B 2=I nB 2=B 2(B_1\,A)\,B_2=I_n\,B_2=B_2. Donc B 1=B 2B_1=B_2.

Nous rappelons la proposition suivante, qui nous dit qu’il suffit de trouver une matrice BB telle que AB=I nA\,B=I_n pour être sûr que AA est inversible et que son inverse est BB.

Proposition 2   Soit AA une matrice de n\mathcal{M}_n. Supposons qu’il existe une matrice BB telle que AB=I nA\,B=I_n ou bien BA=I nB\,A=I_n. Alors AA est inversible et B=A 1B=A^{-1}.

Si AA et BB sont deux matrices inversibles de n\mathcal{M}_n, leur produit est inversible.

Proposition 3   Soient AA et BB deux matrices inversibles de n()\mathcal{M}_n(\mathbb{R}). Le produit ABAB est inversible et son inverse est B 1A 1B^{-1}A^{-1}.

Preuve : Nous utilisons le théorème 2, ainsi que l’associativité du produit : (B 1A 1)(AB)=B 1(A 1A)B=B 1I nB=B 1B=I n.(B^{-1}A^{-1})(AB)=B^{-1}(A^{-1}A)B=B^{-1}I_nB=B^{-1}B=I_n\;.

L’inverse d’une matrice et la proposition 5 permettent de donner une formule de changement de base pour une application linéaire.

Proposition 4   Soit φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1B_1 vers un espace vectoriel V 2V_2 de base B 2B_2, de matrice MM relativement à ces bases B 1B_1 et B 2B_2. Soit B 1B_1' une autre base de V 1V_1 de matrice de passage P 1P_1 dans la base B 1B_1, et B 2B_2' une autre base de V 2V_2 de matrice de passage P 2P_2 dans la base B 2B_2. Alors la matrice MM' de φ\varphi relativement aux bases B 1B_1' et B 2B_2' est donnée par M=P 2 1MP 1M'=P_2^{-1} M P_1 Si V 1=V 2V_1=V_2 on prend B 1=B 2B_1=B_2 et B 1=B 2B_1'=B_2' donc P 1=P 2=PP_1=P_2=P et on a M=P 1MPM'=P^{-1}MP

Exemple 1 Dans 2\mathbb{R}^2 vu comme le plan complexe, on considère l’application linéaire f:zz¯f: z \rightarrow \overline{z}. On vérifie qu’il s’agit bien d’une application linéaire (c’est une symétrie par rapport à l’axe OxOx). Dans la base canonique BB, sa matrice est

Prenons la base BB' dont les vecteurs ont pour affixe 1+i1+i et 1i1-i, la matrice de passage de BB à BB' est

donc la matrice de ff dans BB' est

ce qu’on vérifie directement puisque les deux vecteurs de base sont conjugués l’un de l’autre.

Exemple 2
Dans 2\mathbb{R}^2, on considère la projection orthogonale sur la droite vectorielle engendrée par le vecteur v(1,1)v(1,1). On prend pour B 1=B 2B_1=B_2 la base canonique (e 1,e 2)(e_1,e_2) et pour B 1=B 2B_1'=B_2' la base formée par vv et un vecteur orthogonal w(1,1)w(1,-1).

gl_ortho=1;
e1:=vecteur(1,0); e2:=vecteur(0,1);
v:=vecteur(1,1,color=red); w:=vecteur(1,-1,color=green);
display(1/2*v,magenta); 
segment(1,i,color=cyan);

onload
L’image de vv est lui-même i.e. 1v+0w1v+0w, donc la première colonne de MM' est (1,0)(1,0). L’image de ww est le vecteur nul, donc M=(1 0 0 0)M'= \left(\begin{array}{cc} 1 & 0\\ 0 & 0 \end{array}\right) L’image du vecteur (1,0)(1,0) par la projection est 12v=(12,12)\frac{1}{2} v =(\frac{1}{2},\frac{1}{2}) de même pour (0,1)(0,1) donc les 2 colonnes de MM ont pour coordonnées (12,12)(\frac{1}{2},\frac{1}{2}) M=(12 12 12 12)M=\left(\begin{array}{cc} \frac{1}{2} & \frac{1}{2}\\ \frac{1}{2} & \frac{1}{2} \end{array}\right) La matrice de passage de B 1B_1' est (coordonnées de vv et ww en colonnes) P=(1 1 1 1)P=\left(\begin{array}{cc} 1 & 1\\ 1 & -1 \end{array}\right) Vérifions que M=P 1MPM'=P^{-1}MP.

Définition 5   On définit le rang d’une matrice MM comme étant la dimension du sous-espace vectoriel engendré par ses vecteurs colonnes. Il s’agit donc du rang de toute application linéaire ayant MM comme matrice.
Proposition 6   Multiplier une matrice à droite ou/et à gauche par une matrice inversible ne change pas son rang.

Cela résulte du fait que le produit de matrices correspond à la composition de deux applications linéaires et que composer avec une application linéaire inversible ne change pas le rang. En effet

Enfin, nous aurons parfois besoin du lemme suivant:

Lemme 7   Soit MM n()M\in M_n(\mathbb{R}) une matrice carrée n×nn\times n. Si pour tout X̲,Y̲ n\underline{X}, \underline Y\in \mathbb{R}^n nous avons que tX̲MY̲=0{}^t\underline{X} M \underline{Y}=0 alors M=0M=0.

Preuve : Soit pour tout ii le vecteur colonne e̲ i n\underline{e}_i\in \mathbb{R}^n défini par (e̲ i) j=1sii=j,0siij. (\underline{e}_i)_j= 1\ \mbox{si}\ i=j,\; 0\ \mbox{si}\ i\neq j. Alors pour tout 1i,jn1\leq i,j\leq n on a que te̲ iMe̲ j=M i,j=0{}^t\underline{e}_i M \underline{e}_j=M_{i,j}=0 et donc M=0M=0.

Réécrivons maintenant notre problème initial dans le language des espaces vectoriels. Nous considérons une fonction réelle continue ff, définie sur une intervalle [0,L][0,L] (fV=C 0([0,L],)f \in V=C^0([0,L], \mathbb{R})). Nous voulons chercher une fonction g ng_n qui est de la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL) g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right) et qui doit être “aussi proche que possible” de ff.

Dans le langage des espaces vectoriels on pourrait écrire la chose suivante :

Soit WW le sous-espace de tous les éléments gVg\in V qui peuvent s’écrire sous la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right). WW est alors un sous-espace vectoriel de VV (exercice : démontrez-le !): de plus, WW est de dimension finie et admet pour base finie la famille e=(1,cosπxL,sinπxL,,cosnπxL,sinnπxL). {\bf e}=( 1, \cos{\frac{\pi x}{L}},\sin{\frac{\pi x}{L}}, \ldots, \cos{ \frac{n\pi x}{L}}, \sin{\frac{n\pi x}{L}}). Nous cherchons à identifier un élément gWg\in W qui est “le plus proche que possible” de fVf\in V.

Notre problème initial est donc un exemple particulier du problème suivant :

Question. J’ai un espace vectoriel VV et un élément vVv\in V. Il y a dans VV un sous-espace spécial de dimension finie WVW\subset V. Je veux approcher au mieux vv par un élément wWw\in W. Comment faire ? Et tout d’abord, qu’est ce que ça veut dire “approcher au mieux” ?

Dans les deux prochains chapitres, nous aborderons surtout la question : qu’est ce que ça veut dire “approcher au mieux” ?

Chapitre 3  Formes bilinéaires.

3.1  Le produit scalaire canonique sur 3\mathbb{R}^3.

Dans le chapitre précedent, nous avons étudié la notion d’espace vectoriel. Cette notion est utile parce qu’elle englobe à la fois des espaces géométriques tels que 2\mathbb{R}^2 et 3\mathbb{R}^3 et des espaces de fonctions tels que n[X]\mathbb{R}_n[X] et C 0([0,1],)C^0([0,1], \mathbb{R}). Notre but est maintenant d’utiliser cette notion pour étendre des idées géométriques (distance et angle, par exemple) à des espaces de fonctions. Pour faire cela, il nous sera nécessaire d’identifier une formule purement algébrique qui permet de calculer distances et angles dans 3\mathbb{R}^3, faisant intervenir le produit scalaire canonique sur 3\mathbb{R}^3.

Définition 1   Le produit scalaire canonique sur 3\mathbb{R}^3 est une fonction prenant en argument deux vecteurs X̲=(x 1 x 2 x 3)\underline{X}=\begin{pmatrix} x_1\\x_2\\x_3\end{pmatrix} et Y̲=(y 1 y 2 y 3)\underline{Y}=\begin{pmatrix} y_1\\y_2\\y_3\end{pmatrix} définie par X̲|Y̲=x 1y 1+x 2y 2+x 3y 3\langle \underline{X} | \underline {Y}\rangle= x_1y_1+x_2y_2+x_3y_3

Le produit scalaire canonique tire son intérêt du fait qu’il encode la géométrie de l’espace 3\mathbb{R}^3.

X:=vecteur(3,1); Y:=vecteur(2,3);
X-Y; legend(X-Y,"X-Y"); angle(X,Y,"θ");

onload

Théorème 2   Soient X̲\underline{X} et Y̲\underline{Y} deux vecteurs dans 3\mathbb{R}^3, soit dd la longueur de la différence X̲Y̲\underline{X}-\underline{Y} et soit θ\theta l’angle entre ces deux vecteurs. On a : d=X̲Y̲||X̲Y̲,θ=arccos(X̲|Y̲X̲|X̲Y̲|Y̲). d= \sqrt{\langle \underline{X}-\underline{Y}| | \underline{X}-\underline{Y}\rangle}, \quad \theta= \arccos\left(\frac{\langle\underline{X}|\underline{Y}\rangle} {\sqrt{\langle\underline{X}|\underline{X}\rangle\langle\underline{Y}|\underline{Y}\rangle}}\right).

Il existe donc une formule qui permet de calculer la distance et l’angle entre deux vecteurs utilisant seulement le produit scalaire. Nous allons donc essayer de définir des classes de fonctions sur des espaces vectoriels qui ressemblent au produit scalaire sur 3\mathbb{R}^3 dans l’espoir qu’elles nous livront une bonne notion de “distance”.

Une des propriétés clés du produit scalaire est qu’il se comporte effectivement comme un produit sous les opérations algébriques de base sur les vecteurs, c’est-à-dire qu’on a, pour tout X̲,Y̲,Z̲ 3\underline{X}, \underline{Y},\underline{Z}\in \mathbb{R}^3 et pour tout λ\lambda\in \mathbb{R}

  1. X̲+Y̲,Z̲=X̲|Z̲+Y̲|Z̲\langle\underline{X}+\underline{Y}, \underline{Z} \rangle=\langle\underline{X}|\underline{Z}\rangle+\langle\underline{Y}|\underline{Z}\rangle
  2. X̲|Y̲+Z̲=X̲|Y̲+X̲|Z̲\langle\underline{X}|\underline{Y}+\underline{Z}\rangle=\langle\underline{X}|\underline{Y}\rangle+\langle\underline{X}|\underline{Z}\rangle
  3. X̲|λY̲=λX̲|Y̲=λX̲|Y̲\langle\underline{X}|\lambda \underline{Y}\rangle=\langle\lambda \underline{X}|\underline{Y}\rangle= \lambda \langle\underline{X}|\underline{Y}\rangle

Nous allons donc commencer par étudier les fonctions de deux vecteurs qui respectent ces conditions.

3.2  Formes bilinéaires : définitions et exemples.

Dans cette section, de nouveau, nous présenterons la théorie des formes bilinéaires réelles, mais tous nos résultats seront valables pour des formes complexes.

Définition 1   Soient VV un \mathbb{R}-espace vectoriel, et soit φ\varphi une fonction de 2 variables de VV à valeur réelle φ:V×V\varphi :V\times V\to \mathbb{R}. On dit que φ\varphi est une forme bilinéaires’il se comporte comme un produit, i.e. :
  1. pour tout v 1,v 2Vv_1, v_2\in V et vVv\in V nous avons que φ(v 1+v 2,v)=φ(v 1,v)+φ(v 2,v)\varphi(v_1+v_2, v)= \varphi(v_1, v)+\varphi(v_2,v)
  2. pour tout vVv\in V et v 1,v 2Vv_1, v_2 \in V nous avons que φ(v,v 1+v 2)=φ(v,v 1)+φ(v,v 2)\varphi(v, v_1+v_2)= \varphi(v, v_1)+\varphi(v,v_2)
  3. pour tout vVv\in V, vVv' \in V et λ\lambda\in \mathbb{R} nous avons que φ(λv,v)=φ(v,λv)=λφ(v,v)\varphi(\lambda v, v')= \varphi(v, \lambda v') =\lambda \varphi(v,v').
On dit que φ\varphi est symétrique si φ(y,x)=φ(x,y)\varphi(y,x)=\varphi(x,y) pour tout x,yVx,y\in V,
On dit que
φ\varphi est antisymétrique si φ(y,x)=φ(x,y)\varphi(y,x)=-\varphi(x,y) pour tout x,yVx,y\in V.

Remarque :
On utilise le terme forme parce que la valeur de φ\varphi est un réel. Le terme bilinéraire vient du fait que si on fixe un des arguments, on a une application linéaire par rapport à l’autre argument.

Exemples :

  1. L’application φ:{× (x,y) xy\varphi: \ \left\{ \begin{array}{ccc} \mathbb{R}\times \mathbb{R} & \to & \mathbb{R}\\ (x,y) & \mapsto & xy \end{array} \right. est une forme bilinéaire symétrique.
  2. Le produit scalaire φ: n× n,((x 1 x n),(y 1 y n))xy= i=1 nx iy i\varphi: \ \mathbb{R}^n \times \mathbb{R}^n\to \mathbb{R}, \quad \left(\left(\begin{array}{c}x_1 \\ \vdots \\ x_n \end{array}\right),\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right)\right)\mapsto x\cdot y=\sum_{i=1}^n x_iy_i est une forme bilinéaire symétrique. Lorsque n=2n=2 ou 33, on retrouve le produit scalaire étudié ci-dessus. Nous appelons cette forme le produit scalaire canonique sur n\mathbb{R}^n.
  3. L’application qui à deux polynômes PP et QQ associe le produit P(0)Q(1)P(0)Q(1) φ:{[X]×[X] (P,Q) P(0)Q(1)\varphi: \ \left\{ \begin{array}{ccc} \mathbb{C}[X]\times\mathbb{C}[X] & \to &\mathbb{C}\\ (P,Q) &\mapsto & P(0)Q(1) \end{array} \right. est une forme bilinéaire. Elle n’est pas symétrique et n’est pas antisymétrique.
  4. L’application qui à deux matrices carrées MM et NN associe la trace du produit des deux matrices φ:{M n()×M n() (M,N) tr(MN)\varphi: \ \left\{ \begin{array}{ccc} \M_n(\mathbb{R})\times \M_n(\mathbb{R}) &\to &\mathbb{R} \\ (M,N) &\mapsto & \mbox{tr}(MN) \end{array} \right. est une forme bilinéaire symétrique.
  5. L’application déterminant φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to \mathbb{R}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_2-x_2y_1 est bilinéaire et antisymétrique.
  6. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1x 2+2x 1y 2\varphi:\mathbb{C}^2\times \mathbb{C}^2\to \mathbb{C}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1x_2+2x_1y_2 n’est pas bilinéaire.
    En effet, posons U̲=(x 1 x 2),V̲=(y 1 y 2)\underline{U}=\left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \underline{V}=\left(\begin{array}{c}y_1 \\ y_2\end{array}\right). On a φ(λU̲,V̲)=(λx 1)(λx 2)+2(λx 1)y 2=λ 2x 1x 2+2λx 1y 2λφ(U̲,V̲).\varphi(\lambda \underline{U}, \underline{V})=(\lambda x_1)(\lambda x_2)+2(\lambda x_1)y_2= \lambda^2 x_1x_2+2\lambda x_1y_2\neq \lambda \varphi(\underline{U},\underline{V}).
  7. L’application qui associe à deux fonctions continues ff et gg l’intégrale de leur produit sur [0,1][0,1] φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow & \mathbb{R} \\ (f,g) & \rightarrow & \int_0^1 f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.
  8. Pour toute fonction continue p:[0,1]p:[0,1]\rightarrow\mathbb{R}, l’application φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1p(x)f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow &\mathbb{R}\\ (f,g) & \rightarrow & \int_0^1 p(x) f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.

Un cas particulier intéressant est celui ou on applique une forme bilinéaire à deux vecteurs identiques.

Définition 2   Soit VV un espace vectoriel sur \mathbb{R} et soit φ\varphi une forme bilinéaire symétrique sur VV. Alors la forme quadratique associée à φ\varphi, notée q φq_\varphi, est la fonction définie sur VV par q φ(v)=φ(v,v)q_\varphi(v)=\varphi(v,v)

La forme quadratique associée à une forme bilinéaire est un analogue de la fonction carrée d’un nombre réel, ou de la norme de vv au carré (v 2\|v\|^2) quand vv est un vecteur dans 2\mathbb{R}^2 ou 3\mathbb{R}^3. Les formules suivantes (dites “formule de polarisation” et “formule du parallélogramme”) permettent de rétrouver une forme bilinéaire symétrique à partir de la forme quadratique associée.

Lemme 3   Soit VV un espace vectoriel, φ\varphi une forme bilinéaire sur V×VV\times V et q φq_\varphi la forme quadratique associée. Alors pour tout v,wVv,w\in V on a φ(v,w)=12(q φ(v+w)q φ(v)q φ(w))\varphi(v,w)= \frac{1}{2}(q_\varphi(v+w)-q_\varphi(v)-q_\varphi(w)) q φ(v+w)+q φ(vw)=2(q φ(v)+q φ(w)).q_\varphi(v+w)+q_\varphi(v-w)= 2(q_\varphi(v)+q_\varphi(w)).

La démonstration de ce lemme est laissée en exercice.

Remarque :
Ces formules sont les généralisations des relations suivantes sur \mathbb{R} : xy=12((x+y) 2x 2y 2). xy= \frac{1}{2}((x+y)^2-x^2-y^2). (x+y) 2+(xy) 2=2(x 2+y 2). (x+y)^2+ (x-y)^2= 2(x^2+y^2).

3.3  Formes bilinéaires : représentation matricielle.

Nous allons maintenant définir la matrice d’une forme bilinéaire dans une base, qui va nous permettre, modulo le choix d’une base, de réduire les calculs faisant intervenir des formes bilinéaires sur des espaces de dimension finie à des multiplications de matrices.

Définition 1   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. La matrice de φ\varphi dans la base e est la matrice n×nn\times n, MM, dont les coefficients sont donnés par M i,j=(φ(e i,e j)) 1i,jn.M_{i,j}=(\varphi(e_i,e_j))_{1\leq i,j\leq n}.
Lemme 2   Soit VV un espace vectoriel de dimension finie nn, soient x,yVx,y\in V, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, notons X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix} et Y=(y 1 y n)Y= \begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix} les vecteurs coordonnées de xx et yy dans la base e (autrement dit x= i=1 nx ie i,y= i=1 ny ie ix=\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit MM la matrice de φ\varphi dans la base e{\bf e}. Alors on a φ(x,y)= tX̲MY̲= i,jφ(e i,e j)x iy j.\varphi(x,y)={}^t\underline{X}M\underline{Y}=\sum_{i,j}\varphi(e_i,e_j)x_iy_j.

Preuve : On a φ(x,y)=φ( i=1 nx ie i, j=1 ny je j)= j=1φ( i=1 nx ie i,y je j)= j=1y jφ( i=1 nx ie i,e j),\varphi(x,y)=\varphi(\sum_{i=1}^n x_i e_i,\sum_{j=1}^n y_j e_j)=\sum_{j=1}\varphi(\sum_{i=1}^n x_i e_i,y_j e_j)=\sum_{j=1}y_j \varphi(\sum_{i=1}^n x_i e_i,e_j), puisque φ\varphi est linéaire en yy. Or on a aussi φ( i=1 nx ie i,e j)= i=1 nφ(x ie i,e j)= i=1 nx iφ(e i,e j).\varphi(\sum_{i=1}^n x_i e_i,e_j)=\sum_{i=1}^n \varphi(x_i e_i,e_j)=\sum_{i=1}^n x_i\varphi(e_i,e_j). Ainsi, on obtient φ(x,y)= j=1 ny j( i=1 nx iφ(e i,e j))= i,jφ(e i,e j)x iy j.\varphi(x,y)=\sum_{j=1}^n y_j(\sum_{i=1}^n x_i\varphi(e_i,e_j))=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

On a aussi MY̲=( j=1 nφ(e i,e j)y j ),M\underline{Y}=\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right), et donc tX̲MY̲=( x i )( j=1 nφ(e i,e j)y j )= i,jx iφ(e i,e j)y j= i,jφ(e i,e j)x iy j.{}^t\underline{X}M\underline{Y}=\left(\begin{array}{ccc}\cdots & x_i& \cdots \end{array}\right)\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right)=\sum_{i,j} x_i\varphi(e_i,e_j)y_j=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

Corollaire 3   Soit VV un espace vectoriel de dimension finie nn. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Les propositions suivantes sont équivalentes.
  1. φ\varphi est symétrique
  2. Pour tout base e de VV, la matrice MM de φ\varphi dans la base e est symétrique.
  3. Il existe une base e de VV telle que la matrice MM de φ\varphi dans la base e est symétrique.

Preuve : Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit e une base de VV.

Si φ\varphi est symétrique, alors on a φ(e i,e j)=φ(e j,e i)pour touti,j,\varphi(e_i,e_j)=\varphi(e_j,e_i)\ \mbox{pour tout}\ i,j, et ceci s’écrit matriciellement tM=M{}^tM=M, par définition de la matrice de φ\varphi. On a donc (1)(2)(1)\Rightarrow (2). L’implication (2)(3)(2)\Rightarrow (3) étant claire, il reste à montrer (3)(1)(3)\Rightarrow (1).

Supposons qu’il existe une base e de VV telle que MM est symétrique. Soient x,yVx,y\in V, et soient X̲,Y̲\underline{X}, \underline{Y} leurs vecteurs de coordonnées dans la base e{\bf e}. On a alors que φ(x,y)= tX̲MY̲ \varphi(x,y)= {}^t\underline{X} M \underline{Y} Le membre de droit est une matrice 1×11\times 1 : elle est donc égale à sa propre transposée et on a φ(x,y)= tX̲MY̲= t( tX̲MY̲)= tY̲ tMX̲= tY̲MX̲=φ(y,x) \varphi(x,y)= {}^t\underline{X} M \underline{Y}= {}^t({}^t\underline{X} M \underline{Y})= {}^t \underline{Y}{}^t M \underline{X}= {}^t\underline{Y}M \underline{X}= \varphi(y,x) CQFD.

Le lemme précédent admet une réciproque, bien utile pour démontrer qu’une application est bilinéaire et donner sa matrice représentative dans une base fixée.

Lemme 4   Soit VV un \mathbb{R}-espace vectoriel de dimension finie, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Pour tout a ij,1i,jna_{ij}\in \mathbb{R}, 1\leq i,j\leq n, l’application φ:{V×V ( i=1 nx ie i, j=1 ny je j) 1i,jna ijx iy j\varphi:\ \left\{ \begin{array}{ccc} V\times V & \to & \mathbb{R} \\ (\sum_{i=1}^n x_ie_i,\sum_{j=1}^n y_je_j) & \mapsto & \sum_{1\leq i,j\leq n} a_{ij}x_iy_j \end{array}\right. est une forme bilinéaire, dont la matrice AA dans la base e est donnée par A ij=(a ij).A_{ij}=(a_{ij}).

Exemples

  1. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 1+x 2y 2+3x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to\mathbb{R}, \left(\left(\begin{array}{cc}x_1 \\ x_2\end{array}\right),\left(\begin{array}{cc}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_1+x_2y_2+3x_1y_2-x_2y_1 est bilinéaire, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est M=(1 3 1 1).M=\left(\begin{array}{cc} 1 & 3 \\ -1 & 1\end{array}\right).
  2. Considérons l’application qui à deux polynomes de degré inférieurs ou égaux à 2 associe le produit de leur valeur en 1 et 0 φ: 2[X]× 2[X],(P,Q)P(1)Q(0).\varphi: \mathbb{R}_2[X]\times \mathbb{R}_2[X]\to \mathbb{R}, (P,Q)\mapsto P(1)Q(0). On peut vérifier directement que φ\varphi est bilinéaire, mais on peut aussi utiliser la remarque précédente. Pour cela, considérons la base 1,X,X 21,X,X^2 de 2[X]\mathbb{R}_2[X]. On écrit P=x 1+x 2X+x 3X 2,Q=y 1+y 2X+y 3X 2.P=x_1+x_2X+x_3 X^2, Q=y_1+y_2X+y_3X^2. On vérifie alors que φ(P,Q)=x 1y 1+x 2y 1+x 3y 1\varphi(P,Q)=x_1y_1+x_2y_1+x_3y_1. Donc φ\varphi est bilinéaire et sa matrice représentative dans la base 1,X,X 21,X,X^2 est M=(1 0 0 1 0 0 1 0 0).M=\left(\begin{array}{ccc} 1 & 0& 0 \\ 1 & 0& 0\\ 1& 0& 0\end{array}\right).

Regardons maintenant ce qui se passe lorsque l’on effectue un changement de base.

Proposition 5   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soient e{\bf e} et e{\bf e'} deux bases de VV, et soit PP la matrice de passage de la base e{\bf e} à la base e{\bf e}' (c’est-à-dire colonne par colonne la matrice des coordonnées des vecteurs de e{\bf e'} dans la base e). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, soit MM sa matrice dans la base e{\bf e} et soit NN sa matrice dans la base e{\bf e'}. Alors on a N= tPMP.N={}^tPMP.

Preuve : Soient x,yVx,y\in V, soient X̲,Y̲\underline{X}, \underline{Y} leur vecteurs de coordonnées dans la base e{\bf e} et soient X̲,Y̲\underline{X}', \underline{Y}' leurs coordonnées dans la base e{\bf e'}. On a alors X̲=PX̲\underline{X}= P\underline{X}' et Y̲=PY̲ \underline{Y}= P\underline{Y}' pour tout x,yx,y et donc φ(x,y)= tX̲MY̲= t(PX̲)MPY̲= tX̲ tPMPY̲= tX̲NY̲. \varphi(x,y)= {}^t \underline{X}M \underline Y= {}^t(P\underline{X}') M P\underline{Y}'= {}^t\underline{X}'{}^tP MP \underline{Y}'={}^t\underline{X}'N\underline{Y}'. c’est à dire que N= tPMPN= {}^t P MP par 7.

Nous sommes prêts à définir la notion de rang.

Définition 6   Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Le rang de φ\varphi est le rang de n’importe quelle matrice représentative de φ\varphi dans une base de VV.

Le rang est bien défini et ne dépend pas de la base choisie d’après la proposition précédente et la proposition 6.

3.4  Orthogonalité.

Les expressions permettant de calculer φ(x,y)\varphi(x,y) peuvent se simplifier grandement lorsque la base e est adaptée. Par exemple, il est souvent utile de se débarasser des termes croisés lorsque c’est possible. On introduit pour cela la notion d’orthogonalité.

Définition 1   Soit VV un espace vectoriel de dimension nn sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique.

On dit que deux vecteurs x,yVx,y\in V sont φ\varphi-orthogonaux si φ(x,y)=0\varphi(x,y)=0.

On le note xφyx\underset{\varphi}{\perp} y, ou xyx\perp y s’il n’y a pas de confusion possible.

On dit que la base e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est φ\varphi-orthogonale si les vecteurs de la base sont φ\varphi-orthogonaux deux à deux, c’est-à-dire si on a φ(e i,e j)=0pour toutij.\varphi(e_i,e_j)=0\ \mbox{pour tout}\ i\neq j.

Lemme 2   La base e{\bf e} est φ\varphi-orthogonale si et seulement si MM, la matrice de φ\varphi dans la base e{\bf e}, est diagonale.

Preuve : La base e{\bf e} est φ\varphi-orthogonale \Leftrightarrow φ(e i,e j)=0\varphi(e_i, e_j)=0 si iji\neq j \Leftrightarrow M i,j=0M_{i,j}=0 si iji\neq j \Leftrightarrow MM est diagonale.

On dit que e est φ\varphi-orthonormée si on a φ(e i,e j)={0siij 1sii=j\varphi(e_i,e_j)=\left\lbrace\begin{array}{l}0 \ \mbox{si}\ i\neq j \\ 1 \ \mbox{si}\ i=j\end{array}\right.

Lemme 3   La base e{\bf e} est φ\varphi-orthonormée si et seulement si Mat(φ,e)\Mat(\varphi, {\bf e}) est la matrice identité.

Preuve : Laissée en exercice.

Définition 4   On dit que deux sous-espaces W,WW,W' de VV sont orthogonaux si on a φ(w,w)=0pour toutwW,wW.\varphi(w,w')=0\ \mbox{pour tout}\ w\in W,w' \in W'.

On dit que VV est la somme directe orthogonale des sous-espaces V 1,,V mV_1,\ldots,V_m si V=V 1V mV=V_1\oplus\ldots\oplus V_m et les sous-espaces V 1,,V mV_1,\ldots,V_m sont orthogonaux deux à deux. On note alors V=V 1V m.V=V_1\underset{\perp}{\oplus}\ldots\underset{\perp}{\oplus} V_m.

On a le :

Lemme 5   Soit VV un espace vectoriel et soit φ\varphi une forme bilinéaire sur VV. Soient V 1,V kV_1,\ldots V_k des sous-espaces de VV tels que V=V 1V kV= V_1\underset{\perp}{\oplus}\ldots\underset{\perp}{\oplus} V_k. Si pour chaque ii, v i{\bf v_i} est une base orthonormée de V iV_i alors la concatenation (v 1,v 2,,v k)({\bf v}_1, {\bf v}_2, \ldots, {\bf v}_k) est une base orthonormée de VV

En effet tout vecteur ww de cette base de VV est dans un des (v i({\bf v}_i donc φ(w,w)=0\varphi(w,w)=0, et il est orthogonal à tout autre vecteur ww' de cette base de VV, soit parce que (v 1({\bf v}_1 est orthonormée si wv 1w' \in {\bf v}_1 , soit parce que les V iV_i sont orthogonaux entre eux.

Exemples

  1. L’application qui a une paire de polynômes de degré au plus 2 associe φ(P,Q)= 1 1P(t)Q(t)dt\varphi(P,Q)= \int_{-1}^1 P(t)Q(t)\mbox{d}t est bilinéaire symétrique. De plus, 1φX1\underset{\varphi}{\perp}X et XφX 2X\underset{\varphi}{\perp} X^2.

    Par contre, 11 et X 2X^2 ne sont pas φ\varphi-orthogonaux, puisque l’on a φ(1,X 2)=23\varphi(1,X^2)=\frac{2}{3}. La base 1,X,X 21,X,X^2 n’est donc pas φ\varphi-orthogonale.
    On peut vérifier que la base 1,X,X 2131,X,X^2-\frac{1}{3} est φ\varphi-orthogonale. Elle n’est pas φ\varphi-orthonormée puisque φ(1,1)=2,φ(X,X)=2/3,φ(X 213,X 213)=8/45.\varphi(1,1)=2,\; \varphi(X, X)= 2/3,\; \varphi(X^2-\frac{1}{3}, X^2-\frac{1}{3})= 8/45.

    On peut la rendre φ\varphi-orthonormée en multipliant chaque élément de la base par une constante bien choisie. Plus précisement, la base : 1232X458(X 213)\frac{1}{\sqrt{2}}\; \sqrt{\frac{3}{2}} X\; \sqrt{\frac{45}{8}} (X^2-\frac{1}{3}) est une base φ\varphi-orthonormée.
  2. La base canonique de n\mathbb{R}^n est φ\varphi-orthonormée pour la forme bilinéaire symétrique φ(x,y)=xy= i=1 nx iy i\varphi( x, y)=x \cdot y=\sum_{i=1}^n x_iy_i
  3. Soit V=C 0([1,1],)V=C^0([-1,1],\mathbb{R}), et soient 𝒫\mathcal{P} et \mathcal{I} le sous-espace des fonctions paires et impaires respectivement. On sait que l’on a V=𝒫.V=\mathcal{P}\oplus\mathcal{I}. Considérons sur V×VV\times V l’application φ(f,g)= 1 1f(t)g(t)dt\varphi(f,g)= \int_{-1}^1 f(t)g(t)\mbox{d}t Alors, on a φ(f,g)=0pour toutf𝒫,g.\varphi(f,g)=0\ \mbox{pour tout}\ f \in\mathcal{P},g\in\mathcal{I}. On a donc V=𝒫.V=\mathcal{P}\underset{\perp}{\oplus}\mathcal{I}.
  4. Soit φ\varphi la forme bilinéaire symétrique sur 3\mathbb{R}^3 de matrice (0 1 0 1 0 1 0 1 0)\begin{pmatrix} 0 & 1 & 0 \\ 1 & 0 & -1 \\ 0 & -1 & 0 \end{pmatrix} Alors (1,0,1)(1,0,1) est orthogonal à tout vecteur, (1,0,0)(1,0,0) est orthogonal à lui-même. La base {(1,0,1),(1,1,0),(1,1,0)}\{ (1,0,1), (1,1,0), (1,-1,0) \} est φ\varphi-orthogonale.

Le lemme 2 entraîne immédiatement:

Lemme 6   Soit VV un espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soient x= i=1 nx ie i,y= i=1 ny ie ix=\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i deux vecteurs de VV. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Si e{\bf e} est φ\varphi-orthogonale, on a φ(x,y)= i=1 nφ(e i,e i)x iy i.\varphi(x,y)=\sum_{i=1}^n \varphi(e_i,e_i)x_iy_i. En particulier, si e{\bf e} est φ\varphi-orthonormée, on a φ(x,y)= i=1 nx iy i.\varphi(x,y)=\sum_{i=1}^n x_iy_i.

Il n’existe pas toujours une base φ\varphi-orthonormée. En effet, si φ:V×V\varphi:V\times V\to \mathbb{R} est bilinéaire symétrique et s’il existe une base φ\varphi-orthonormée alors le lemme précédent montre que φ(x,x)>0\varphi(x,x)&gt;0 pour tout x0x\neq 0.

Par exemple, la forme bilinéaire symétrique sur 2× 2\mathbb{R}^2\times \mathbb{R}^2 définie par φ((x 1,x 2),(y 1,y 2))=x 1y 1x 2y 2.\varphi((x_1,x_2),(y_1,y_2))= x_1y_1-x_2y_2. n’admet pas de base φ\varphi-orthonormée, puisque φ((0,1),(0,1))=1<0\varphi((0,1),(0,1))=-1&lt;0.

En revanche, on a le théorème suivant:

Théorème 7   Soit VV un espace vectoriel de dimension finie sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Alors il existe une base de VV qui est φ\varphi-orthogonale.

Preuve : On démontre l’existence d’une base φ\varphi-orthogonale par récurrence sur n=dim(V)n=\dim(V).

Idée de la preuve : prenons un vecteur e 0e_0, et regardons l’ensemble des vecteurs φ\varphi-orthogonaux à e 0e_0, c’est un sous-espace de dimension nn ou n1n-1. Si la dimension vaut nn, e 0e_0 est orthogonal à tout le monde, on peut prendre un sous-espace de dimension n1n-1 qui ne contient pas e 0e_0, une base φ\varphi-orthogonale de ce sous-espace auquel on ajoute e 0e_0 convient. Si la dimension vaut n1n-1, on prend une base φ\varphi-orthogonale de ce sous-espace, si e 0e_0 n’appartient pas au sous-espace, on ajoute e 0e_0 à la base. On a donc intérêt à choisir e 0e_0 tel que φ(e 0,e 0)0\varphi(e_0,e_0)\neq 0 (dans l’exemple sur 3\mathbb{R}^3, on ne peut pas par exemple prendre e 0=(1,0,0)e_0=(1,0,0) qui est orthogonal à lui-même).

Soit donc (P n)(P_n) la propriété:
(P n)(P_n) Pour tout \mathbb{R}-espace vectoriel de dimension nn et tout φ:V×V\varphi:V\times V\to \mathbb{R}, il existe une base φ\varphi-orthogonale.

Si n=1n=1, il n’y a rien à démontrer.

Supposons que (P n)(P_n) soit vraie, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique avec dim(V)=n+1\dim(V)=n+1.

Si φ=0\varphi=0, toute base est φ\varphi-orthogonale, et on a fini. On suppose donc que φ0\varphi\neq 0. Soit qq la forme quadratique associée. Par le formule de polarisation, si q=0q=0 alors φ=0\varphi=0, ce qui n’est pas le cas. Il existe donc un e 0e_0 tel que q(e 0)0q(e_0)\neq 0, c’est à dire, φ(e 0,e 0)0\varphi(e_0,e_0)\neq 0.

L’application f:{V y φ(e 0,y)f: \left\{ \begin{array}{ccc} V & \to & \mathbb{R}\\ y&\mapsto &\varphi(e_0,y) \end{array}\right. est alors une application linéaire non nulle, puisque f(e 0)=φ(e 0,e 0)0f(e_0)=\varphi(e_0,e_0)\neq 0 et son image est donc ==\mathbb{R}. Par le théorème du rang, dimKer(f)=n+11=n.\dim\mbox{Ker}(f)=n+1-1=n.

Par hypothèse de récurrence, il existe une base (e 1,,e n)(e_1,\ldots,e_n) de Ker(f)\mbox{Ker}(f) qui est orthogonale pour la forme φ:{Ker(f)×Ker(f) (x,y) φ(x,y)\varphi': \left\{ \begin{array}{ccc} \mbox{Ker}(f)\times \mbox{Ker}(f) &\to & \mathbb{R}\\ (x,y) &\mapsto &\varphi(x,y) \end{array}\right.

Montrons que e=(e 0,e 1,,e n){\bf e}=(e_0,e_1,\ldots,e_n) est une base de VV. Puisque dim(V)=n+1\dim(V)=n+1, il suffit de montrer que la famille (e 0,,e n)(e_0,\ldots,e_n) est libre. Soient λ 0,,λ n\lambda_0,\ldots,\lambda_n\in \mathbb{R} tels que λ 0e 0+λ 1e 1++λ ne n=0.\lambda_0 e_0+\lambda_1 e_1+\ldots+\lambda_n e_n=0. En appliquant ff à cette égalité et en utilisant la linéarité, on obtient λ 0f(e 0)+λ 1f(e 1)++λ nf(e n)=0.\lambda_0 f(e_0)+\lambda_1 f(e_1)+\ldots+\lambda_n f(e_n)=0.

Puisque e 1,,e nKer(f)e_1,\ldots,e_n\in\mbox{Ker}(f), on obtient λ 0f(e 0)=0\lambda_0 f(e_0)=0. Comme f(e 0)0f(e_0)\neq 0, on obtient λ 0=0\lambda_0=0. On a donc λ 1e 1++λ ne n=0.\lambda_1 e_1+\ldots+\lambda_n e_n=0. Comme (e 1,,e n)(e_1,\ldots,e_n) est une base de Ker(f)\mbox{Ker}(f), ils sont linéairement indépendants, et on obtient donc λ 1==λ n=0.\lambda_1=\cdots=\lambda_n=0.

Ceci prouve que e est une base de VV. Il reste à vérifier que cette base est φ\varphi-orthogonale.

Par choix des e ie_i, on a φ(e i,e j)=φ(e i,e j)=0pour toutij,1i,jn\varphi(e_i,e_j)=\varphi'(e_i,e_j)=0\ \mbox{pour tout}\ i\neq j,1\leq i,j\leq n et aussi φ(e 0,e j)=f(e j)=0pour toutj>0\varphi(e_0,e_j)=f(e_j)=0\ \mbox{pour tout}\ j&gt;0 parce que e jKer(f)e_j\in \mbox{Ker}(f). On a donc que φ(e i,e j)=0pour tout0ijn.\varphi(e_i,e_j)=0\ \mbox{pour tout}\ 0\leq i\neq j\leq n. Ainsi, (e 0,e 1,,e n)(e_0,e_1,\ldots,e_n) est une base φ\varphi-orthogonale. Ceci achève la récurrence.

Remarque
Le résultat précédent peut être faux si φ\varphi n’est pas bilinéaire symétrique. Par exemple, si φ:V×V\varphi: V\times V\to \mathbb{R} est antisymétrique, c’est-à-dire si on a φ(y,x)=φ(x,y)pour toutx,yV,\varphi(y,x)=-\varphi(x,y)\ \mbox{pour tout}\ x,y\in V, et si φ\varphi est non nulle, alors il n’existe pas de base φ\varphi-orthogonale de VV.

En effet, si φ\varphi est une telle forme, alors on a φ(x,x)=φ(x,x)pour toutxV.\varphi(x,x)=-\varphi(x,x)\ \mbox{pour tout}\ x\in V. On a donc φ(x,x)=0pour toutxV.\varphi(x,x)=0\ \mbox{pour tout}\ x\in V. Supposons maintenant que e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est une base φ\varphi-orthogonale. On a donc φ(e i,e i)=0pour touti=1,,n.\varphi(e_i,e_i)=0\ \mbox{pour tout}\ i=1,\ldots,n. Comme φ(e i,e j)=0\varphi(e_i,e_j)=0 pour tout iji\neq j puisque e est φ\varphi-orthogonale, on en déduit que si MM est la matrice de φ\varphi dans e{\bf e} alors M=0.M=0.

Le Lemme 2 entraîne alors que l’on a φ(x,y)=0pour toutx,yV,\varphi(x,y)=0\ \mbox{pour tout}\ x,y\in V, ce qui contredit le fait que φ\varphi est non nulle.

Un exemple d’une telle forme bilinéaire φ\varphi est donné par le déterminant de deux vecteurs de 2\mathbb{R}^2, det((x 1 x 2),(y 1 y 2))=x 1y 2x 2y 1.\mbox{det}\left( \left(\begin{array}{c}x_1\\ x_2\end{array}\right), \left(\begin{array}{c}y_1\\ y_2\end{array}\right) \right) = x_1y_2-x_2y_1.

Proposition 8   Soit EE un sous-ensemble d’un espace vectoriel VV, et φ\varphi une forme bilinéaire symétrique sur VV. L’ensemble WW des vecteurs φ\varphi-orthogonaux à tous les él’ements de EE est un sous-espace vectoriel de VV, on le note E E^\perp. On a E =E^\perp=Vect(E) (E)^\perp et si FF est une famille génératrice de Vect(E)(E) alors E =F E^\perp=F^\perp.

Preuve : utiliser la linéarité de φ\varphi par rapport à un de ses arguments.

Pour chercher l’orthogonal d’un ensemble EE (en dimension finie), il suffit donc de trouver une base {e 1,...,e n}}\{ e_1,...,e_n\}\} de Vect(E)(E) et de résoudre le système linéaire φ(v,e j)=0,j=1..n\varphi(v,e_j)=0, j=1..n

Définition 9   Soit VV un espace vectoriel et φ\varphi une forme bilinéaire symétrique sur VV. On appelle noyau de φ\varphi l’orthogonal de l’espace VV tout entier. Ker(φ)=V \mbox{Ker}(\varphi)=V^\perp En dimension finie, si on a une base BB de VV, et si MM est la matrice de φ\varphi, le noyau de φ\varphi est le noyau de l’endomorphisme de matrice MM Ker(φ)=Ker(M)\mbox{Ker}(\varphi)=\mbox{Ker}(M)

En effet, si vv et ww ont pour coordonnées les vecteurs colonnes XX et YY, on a φ(v,w)= tXMY\varphi(v,w)=\, ^tXMY, donc si ww est dans le noyau de l’endomorphisme de matrice MM, alors MY=0MY=0 et φ(v,w)=0\varphi(v,w)=0. Réciproquement, on prend X=MYX=MY.

Exercice : calculer les noyaux des formes des exemples ci-dessus.

Si BB est une base φ\varphi-orthogonale, on voit que le noyau de φ\varphi a pour base l’ensemble des vecteurs e je_j de BB tels que φ(e j,e j)=0\varphi(e_j,e_j)=0, la dimension du noyau de φ\varphi est le nombre de coefficients nuls sur la diagonale de MM (qui est diagonale). Ce nombre ne change donc pas si on prend une autre base φ\varphi-orthogonale.

Définition 10   Soit VV un espace vectoriel de dimension finie et φ\varphi une forme bilinéaire symétrique sur VV. On définit le rang de φ\varphi par rang(φ)=dim(V)dim(Ker(φ))\mbox{rang}(\varphi)=\mbox{dim}(V)-\mbox{dim(Ker}(\varphi)) SI BB est une base de VV, c’est aussi le rang de la matrice MM de φ\varphi dans la base BB.

Le calcul du rang se fait donc comme si MM était une matrice d’application linéaire. Si BB est une base φ\varphi-orthogonale, le rang de MM est le nombre de coefficients non nuls sur la diagonale de MM. Ce nombre ne change donc pas si on prend une autre base φ\varphi-orthogonale.

En fait on a un résultat un peu plus général, qui dit que le nombre de coefficients strictement positifs et le nombre de coefficients strictements négatifs ne dépend pas de la base φ\varphi-orthogonale, c’est le théorème de Sylvester (et la définition de la signature) que nous verrons plus bas.

3.5  Calcul effectif d’une base φ\varphi-orthogonale.

3.5.1  Lien avec la forme quadratique correspondante.

Nous allons calculer une base φ\varphi-orthogonale en exploitant la forme quadratique qq qui lui est associée. Rappelons que la forme bilinéaire symétrique φ\varphi peut être reconstruite de la forme quadratique qq via la formule de polarisation φ(x,y)=12(q(x+y)q(x)q(y)). \varphi(x,y)= \frac{1}{2} (q(x+y)-q(x)-q(y)). Nous disons alors que φ\varphi est la forme polaire de qq, que nous noterons parfois φ q\varphi_q.

Exemples

  1. La norme euclidienne de n\mathbb{R}^n définie par q(x=(x 1 x n))=x 1 2++x n 2q(x=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix}) = x_1^2+\ldots+x_n^2 est une forme quadratique, de forme polaire le produit scalaire usuel φ q((x 1 x n),(y 1 y n))=x 1y 1++x ny n.\varphi_q \left( \begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix}, \begin{pmatrix}y_1\\ \vdots \\ y_n\end{pmatrix}\right) = x_1y_1+\ldots+x_ny_n.

    En effet, l’application φ\varphi est bilinéaire symétrique et on a clairement φ(x,x)=q(x)\varphi(x,x)=q(x).
    Vérifions la formule de polarisation. On a que q(x+y)= i=1 n(x i+y i) 2= i=1 nx i 2+2x iy i+y i 2=q(x)+q(y)+2φ(x,y).q(x+y)=\sum_{i=1}^n (x_i+y_i)^2=\sum_{i=1}^n x_i^2+2x_iy_i+y_i^2=q(x)+q(y)+2 \varphi(x,y).

  2. L’application qui a une fonction continue sur [0,1][0,1] à valeurs réelles associe q(f)= 0 1f(t) 2dtq( f)=\int_0^1 f(t)^2\mbox{d}t est une forme quadratique, de forme polaire φ q(f,g)= 0 1f(t)g(t)dt.\varphi_q (f,g)= \int_0^1 f(t)g(t)\mbox{d}t. Vérifions la formule de polarisation. q(f+g) = 0 1(f(t)+g(t)) 2dt = 0 1f(t) 2+2f(t)g(t)+g(t) 2dt = q(f)+q(g)+2 0 1f(t)g(t)dt. \begin{matrix} q(f+g)&=&\int_0^1 (f(t)+g(t))^2\,\mbox{d}t \\ &=&\int_0^1f(t)^2+2f(t)g(t)+g(t)^2\,\mbox{d}t\\ &=&q(f)+q(g)+2\int_0^1 f(t)g(t)\mbox{d}t. \end{matrix}
Définition 1   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e une base de VV. La matrice MM de qq dans la base e est la matrice de la forme polaire φ q\varphi_q dans la base e{\bf e}. C’est une matrice symétrique par le Corollaire 3.

Le rang de qq, noté rg(q)\mbox{rg}(q), est le rang de sa forme polaire.

On dit que e est qq-orthogonale (resp. qq-orthonormée) si elle est φ q\varphi_q-orthogonale (resp. φ q\varphi_q-orthonormée).

L’égalité q(x)=φ q(x,x)q(x)=\varphi_q(x,x) et le Lemme 2 donnent immédiatement:

Lemme 2   Soit VV un espace vectoriel de dimension finie nn et e{\bf e} une base pour VV. Soit xVx\in V, et soit X̲\underline{X} le vecteur coordonnées de xx dans la base e.

Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit MM sa matrice dans la base e{\bf e}. Alors on a q(x)= tX̲MX̲.q(x)={}^t\underline{X} M \underline{X}. En particulier, si e est qq-orthogonale, c’est à dire si MM est diagonale, alors on a q(x)= i=1 nq(e i)x i 2.q(x)=\sum_{i=1}^n q(e_i)x_i^2.

Le lemme suivant nous permet de passer directement de la forme quadratique qq a sa matrice MM sans calculer le forme polaire φ\varphi.

Lemme 3   Soit VV un espace vectoriel de dimension finie nn. Soient x,yVx,y\in V, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Alors pour tout a ij,1ijna_{ij}\in \mathbb{R}, 1\leq i\leq j\leq n, l’application définie sur VV par q( i=1 nx ie i)= i=1 na iix i 2+2 1i<jna ijx ix jq(\sum_{i=1}^n x_ie_i) = \sum_{i=1}^n a_{ii}x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j est une forme quadratique, et sa matrice AA dans la base e{\bf e} est donnée par A=(a ij).A=(a_{ij}).

La démonstration est laissée en exercice au lecteur. Attention au facteur 2 !

Exemple :
L’application définie sur 2\mathbb{R}^2 par q((x 1 x 2))=3x 1 2+4x 1x 2+5x 2 2q(\begin{pmatrix} x_1 \\ x_2\end{pmatrix})= 3x_1^2+ 4x_1x_2+5x_2^2 est une forme quadratique, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est donnée par (3 2 2 5).\begin{pmatrix}3 & 2 \\ 2 & 5\end{pmatrix}.

Soient maintenant φ\varphi une forme bilinéaire sur un espace VV, qq sa forme polaire, e{\bf e} une base pour VV. Soit xVx\in V un élément arbitraire et X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix} son vecteur de coordonnées dans la base e{\bf e}. Alors eestφ-orthogonale {\bf e}\ \mbox{est}\ \varphi\mbox{-orthogonale} \Updownarrow la matrice deφdans la baseeest diagonale \mbox{la matrice de}\ \varphi\ \mbox{dans la base}\ {\bf e}\ \mbox{est diagonale} \Updownarrow la matrice deqdans la baseeest diagonale \mbox{la matrice de}\ q\ \mbox{dans la base}\ {\bf e}\ \mbox{est diagonale} \Updownarrow a itels queq(x)= i=1 na ix i 2. \exists a_i\in\mathbb{R} \ \mbox{tels que}\ q(x)=\sum_{i=1}^n a_i x_i^2.

3.5.2  Algorithme de Gauss, signature

Nous allons maintenant décrire un algorithme, dit algorithme de Gauss, qui permet de trouver une base qq-orthogonale.

Soit BB' une base φ\varphi-orthogonale et BB une base quelconque, PP la matrice de passage de BB' à BB. Si un vecteur vv a pour coordonnées tX=(x 1,..,x n)^tX=(x_1,..,x_n) dans la base BB et tX=(x 1,...,x n)^tX'=(x_1',...,x_n') dans la base BB', on a PX=XPX=X' donc : q(v)= i=1 na ix i 2q(v) = \sum_{i=1}^n a_i x_i'^2 q(v)= i=1 na i( j=1 nP ijx j) 2(1) q(v)=\sum_{i=1}^n a_i \left(\sum_{j=1}^n P_{ij} x_j\right)^2 \qquad (1) Pour trouver une base qq-orthogonale, nous allons effectuer le processus inverse, partir de l’expression de q(v)q(v) en fonction des x jx_j et essayer de l’écrire sous la forme (1) de somme/différences de carrés de combinaisons linéaires indépendantes des coordonnées de vv. La matrice de passage de BB à BB' s’obtient alors en inversant PP, la ii-ième colonne de cette matrice P 1P^{-1}, qui est le vecteur colonne des coordonnées du ii-ième vecteur de la base qq-orthogonale, s’obtient en résolvant le système {x 1=0= j=1 nP 1jx j ... x i=1= j=1 nP ijx j ... x n=0= j=1 nP njx j\left\{ \begin{array}{c} x_1'=0 = \sum_{j=1}^n P_{1j} x_j\\ ...\\ x_i'=1=\sum_{j=1}^n P_{ij} x_j\\ ...\\ x_n'=0=\sum_{j=1}^n P_{nj} x_j \end{array} \right.

Algorithme de Gauss

Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit e une base de VV. Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit M=(a ij) 1i,jnM=(a_{ij})_{1\leq i,j\leq n} sa matrice représentative dans la base e. Si x= i=1 nx ie ix=\sum_{i=1}^n x_i e_i, on a donc q(x)= i=1 na iix i 2+2 1i<jna ijx ix j=P(x 1,,x n).q(x)=\sum_{i=1}^n a_{ii} x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j=P(x_1,\ldots,x_n).

On procède par récurrence sur le nombre de variables. A chaque étape, il y a deux cas.

  1. S’il existe un indice kk tel que a kk0a_{kk}\neq 0, on regroupe tous les termes faisant intervenir la variable x kx_k, et on complète le carré. On écrit P(x 1,,x n)=a kkx k 2+2f kx k+P 0,P(x_1,\ldots,x_n)=a_{kk}x_k^2+2f_k x_k+P_0, f kf_k est une forme linéaire en les variables x i,ikx_i,i\neq k, et P 0P_0 est une forme quadratique en les variables x i,ikx_i,i\neq k.
    On a alors P(x 1,,x n) = a kk(x k 2+2a kkf kx k)+P 0 = a kk((x k+f ka kk) 2f k 2a kk 2)+P 0.\begin{array}{lll}P(x_1,\ldots,x_n)&=&a_{kk}(x_k^2+\frac{2}{a_{kk}}f_k x_k)+P_0\\ &=&a_{kk}((x_k+\frac{f_k}{a_{kk}})^2-\frac{f_k^2}{a_{kk}^2})+P_0\end{array}. On peut donc écrire P(x 1,,x n)=a kk(x k+f ka kk) 2+P 1,P(x_1,\ldots,x_n)=a_{kk}(x_k+\frac{f_k}{a_{kk}})^2+P_1, P 1P_1 est une forme quadratique en les variables x i,ikx_i,i\neq k.
  2. Si a kk=0a_{kk}=0 pour tout kk, mais qu’il existe kk et \ell tels que k<k&lt;\ell et a k0a_{k\ell}\neq 0. C’est le cas délicat.
    On écrit P(x 1,,x n)=2a kx kx +2f kx k+2f x +P 0,P(x_1,\ldots,x_n)=2a_{k\ell}x_k x_\ell+2f_{k}x_{k}+2f_\ell x_\ell+P_0, f kf_k et f f_\ell sont des formes linéaires en les variables x i,(ik,)x_i, (i\neq k,\ell), et P 0P_0 est une forme quadratique en les variables x i,(ik,)x_i, (i\neq k,\ell).
    On a ainsi P(x 1,,x n)=2a k(x k+1a kf )(x +1a kf k)2a kf kf +P 0.P(x_1,\ldots,x_n)=2a_{k\ell }(x_{k}+\frac{1}{a_{k\ell}}f_\ell)(x_{\ell}+\frac{1}{a_{k\ell}}f_k) -\frac{2}{a_{k\ell}}f_kf_\ell+P_0.

    On a donc P(x 1,,x n)=2a kAB+P 1,P(x_1,\ldots,x_n)=2a_{k\ell}AB+P_1, avec A=x k+1a kf ,B=x +1a kf kA=x_{k}+\frac{1}{a_{k\ell}}f_\ell, B= x_{\ell}+\frac{1}{a_{k\ell}}f_k, et P 1P_1 est une forme quadratique en les variables x i,ik,x_i,i\neq k,\ell.

    On a alors P(x 1,,x n)=a k2((A+B) 2(AB) 2)+P 1.P(x_1,\ldots,x_n)=\frac{a_{k\ell}}{2}((A+B)^2-(A-B)^2)+P_1.

Si P 1=0P_1=0, on arrête. Sinon, on recommence le procédé avec P 1P_1.

On peut montrer que l’on obtient alors une écriture de la forme q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2,q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2, où:

  1. chaque α i *\alpha_i\in \mathbb{R}^*
  2. chaque L iL_i est une forme linéaire sur VV
  3. la famille de formes (L 1,,L r)(L_1,\ldots, L_r) est indépendante.

Si qq n’est pas de rang nn (rnr \neq n), on complète par des formes linéaires L r+1,L r+2,,L nL_{r+1}, L_{r+2},\ldots, L_n (on les choisit par exemple parmi les formes coordonnées x 1,...,x nx_1,...,x_n) pour que la famille (L 1,,L n)(L_1, \ldots, L_n) soit libre et on écrit q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2+0(L r+1) 2++0(L n(x))) 2q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2+ 0 (L_{r+1})^2+ \ldots + 0(L_n(x)))^2

Calcul de la base qq-orthogonale
On cherche e=(e 1,e 2,,e n){\bf e}'=(e'_1,e'_2,\ldots, e'_n) telle que pour tout vv on ait v= iL i(v)e iv=\sum_i L_i(v)e'_i. Cela revient à

L j(e i)=0L_j(e'_i)=0 si iji\neq j et 1 si i=ji=j.

Les coordonnées de e ie'_i vérifient donc un système dont la matrice MM est obtenue en écrivant en ligne les coefficients des L jL_j, et de second membre la ii-ème colonne de la matrice identité. Il s’agit donc du ii-ième vecteur colonne de M 1M^{-1}.

Exemple 1 :
On considère la forme quadratique qq définie sur 2\mathbb{R}^2 par q(x,y)=x 2+4xyq(x,y)=x^2+4xy On élimine la variable xx en formant un carré contenant tous les termes dépendant de xx (forme canonique d’un polynôme du second degré en xx dépendant de yy vu comme paramètre) q(x,y)=(x+2y) 24y 2=x 24y 2,x=x+2y,y=yq(x,y)=(x+2y)^2-4y^2=x'^2-4y'^2, \quad x'=x+2y, y'=y Pour trouver la base qq-orthogonale, il suffit de chercher son premier vecteur de base x=1,y=0x'=1, y'=0 donc y=0y=0 puis x=1x=1, puis son deuxième vecteur de base x=0,y=1x'=0,y'=1 donc y=1y=1 puis x=2y=2x=-2y=-2. La matrice de passage de la base canonique à la base qq-orthogonale est donc P=(1 2 0 1)P=\begin{pmatrix} 1 & -2 \\ 0 & 1\end{pmatrix} on peut vérifier

Exemple 2 
On considère la forme quadratique qq définie sur 3\mathbb{R}^3 par q(x,y,z)=x 2+2xy+4xz+2yzq(x,y,z)=x^2+2xy+4xz+2yz On élimine la variable xx q(x,y,z)=(x+y+2z) 2(y+2z) 2+2yz=(x+y+2z) 2y 24z 22yzq(x,y,z)= (x+y+2z)^2-(y+2z)^2+2yz=(x+y+2z)^2-y^2-4z^2-2yz Puis on élimine yy dans ce qui reste q(x,y,z)=(x+y+2z) 2(y+z) 23z 2=x 2y 23z 2q(x,y,z)=(x+y+2z)^2-(y+z)^2-3z^2=x'^2-y'^2-3z'^2 Pour trouver la base qq-orthogonale correspondante, on résoud le système {x+y+2z = x y+z = y z = z\left\{ \begin{array}{rcl} x+y+2z&=&x'\\ y+z&=&y'\\ z&=&z' \end{array}\right. pour (x,y,z)=(1,0,0)(x',y',z')=(1,0,0) (premier vecteur de la base qq-orthogonale) puis (x,y,z)=(0,1,0)(x',y',z')=(0,1,0) (deuxième vecteur de la base qq-orthogonale) et (x,y,z)=(0,0,1)(x',y',z')=(0,0,1) (troisième vecteur de la base qq-orthogonale).

Exemple 3 :
Soit q: 4q:\mathbb{R}^4\to \mathbb{R} l’application qui a u=(x y z t){\bf u}=\begin{pmatrix} x\\ y \\ z\\ t\end{pmatrix} associe q(u)=x 2+2xy+2xz+2xt+y 2+6yz2yt+z 2+10zt+t 2.q({\bf u})=x^2+2xy+2xz+2xt+y^2+6yz-2yt+z^2+10zt+t^2. L’application qq est bien une forme quadratique car c’est un polynôme de degré 22 homogène.

Appliquons l’algorithme de Gauss à qq pour trouver une base qq-orthogonale. On a q(u) = x 2+2(y+z+t)x+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2(y+z+t) 2+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2+4yz4yt+8zt.\begin{array}{lll}q({\bf u})&=&x^2+2(y+z+t)x+y^2+6yz-2yt+z^2+10zt+t^2 \\ &=& (x+y+z+t)^2-(y+z+t)^2+y^2+6yz-2yt+z^2+10zt+t^2\\ &=& (x+y+z+t)^2+4yz-4yt+8zt .\end{array}

On a maintenant 4yz4yt+8zt = 4(yz+(t)y+(2t)z) = 4((y+2t)(zt)+2t 2) = 4(y+2t)(zt)+8t 2 = (y+z+t) 2(yz+3t) 2+8t 2.\begin{array}{lll} 4yz-4yt+8zt&=& 4(yz +(-t)y +(2t)z)\\ &=&4((y+2t)(z-t)+2t^2)\\ &=& 4(y+2t)(z-t)+8t^2\\ &=& (y+z+t)^2-(y-z+3t)^2+8t^2\end{array}. Finalement, on obtient q(u)=(x+y+z+t) 2+(y+z+t) 2(yz+3t) 2+8t 2.q({\bf u})=(x+y+z+t)^2 +(y+z+t)^2-(y-z+3t)^2+8t^2. Vérification

On a donc rg(q)=4\mbox{rg}(q)=4. On a {L 1(u) = x+y+z+t L 2(u) = y+z+t L 3(u) = yz+3t L 4(u) = t \left\{ \begin{array}{ccc} L_1(u) & = & x+y+z+t\\ L_2(u) & = & y+z+t \\ L_3(u) & =& y-z+3t \\ L_4(u) & =& t \end{array} \right. Calcul de e 1e'_1 : on a L 1(e 1)=1,L 2(e 1)=L 3(e 1)=L 4(e 1)=0L_1(e'_1)=1, L_2(e'_1)=L_3(e'_1)=L_4(e'_1)=0. Si (x,y,z,t)(x,y,z,t) sont les coordonnées de e 1e'_1 {x +y +z +t = 1 y +z +t = 0 y z +3t = 0 t = 0\left\{ \begin{array}{cccccc} x&+y&+z&+t & = & 1\\ &y&+z&+t &=& 0\\ &y&-z&+3t &=& 0\\ &&&t &=& 0 \end{array} \right. donc x=1x=1, y=z=t=0y=z=t=0. La matrice du système est donnée par M=(1 1 1 1 0 1 1 1 0 1 1 3 0 0 0 1)M=\left(\begin{array}{cccc} 1 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \\ 0 & 1 & -1 &3 \\ 0 & 0 & 0 & 1 \end{array}\right) La matrice du système est presque triangulaire supérieure, il y a donc assez peu de manipulation à faire pour résoudre le système. Avec un logiciel ou à la main, on calcule M 1M^{-1}

et on lit e 1e'_1 dans la 1ère colonne de MM, e 2e'_2 dans la deuxième colonne, etc. e 1=(1 0 0 0),e 2=(1 1/2 1/2 0),e 3=(0 1/2 1/2 0),e 4=(0 2 1 1)e_1'=\begin{pmatrix}1\\0\\0\\0\end{pmatrix},\; e_2'=\begin{pmatrix}-1\\1/2\\1/2\\0\end{pmatrix},\; e_3'= \begin{pmatrix}0\\1/2\\-1/2\\0\end{pmatrix},\; e_4'=\begin{pmatrix}0\\-2\\1\\1\end{pmatrix} Ces vecteurs (e 1,e 2,e 3,e 4)(e_1', e_2',e_3', e_4') forment donc une base qq-orthogonale. On vérifie en appliquant la formule de changement de base de la base (e 1,e 2,e 3,e 4)(e_1', e_2',e_3', e_4')qq est diagonale (de coefficients 1, 1, -1 et 8) vers la base canonique.

Il résulte du lemme 3 que la matrice de qq dans la base e{\bf e}' est la matrice M=diag(α 1,α 2,,α r,0,,0)M=\mbox{diag}(\alpha_1,\alpha_2, \ldots, \alpha_r,0,\ldots, 0)

Remarque 4   Si ϕ:V×V\phi:V\times V\to \mathbb{R} est bilinéaire symétrique, alors en appliquant l’algorithme de Gauss à la forme quadratique q b:V,xφ(x,x),q_b:V\to \mathbb{R}, x\mapsto \varphi(x,x), on trouve une base v qui est q φq_\varphi-orthogonale. Mais par définition, v est donc orthogonale pour la forme polaire de q φq_\varphi, qui est φ\varphi.

En particulier, le nombre rr de carrés qui apparaissent dans l’écriture q(x)= i=1 ra iL i(x) 2q(x)=\sum_{i=1}^r a_i L_i(x)^2 est le rang de la forme bilinéaire.

Cet algorithme permet donc de trouver une base φ\varphi-orthogonale pour n’importe quelle forme bilinéaire symétrique φ\varphi, ainsi que son rang. On peut programmer l’algorithme de Gauss sur machine, mais à condition que les coefficients de la forme quadratique soient représentables exactement sur machine, sinon le résultat obtenu peut être invalide en raison des erreurs d’arrondis (toutefois Gauss fonctionne avec des coefficients approchés si r +=nr_+=n ou si r =nr_-=n, cela correspond à la factorisation de Cholesky d’une matrice).

Le théorème qui suit affirme que r +r_+ le nombre de coefficients strictement positifs et r r_- le nombre de coefficients strictement négatifs des carrés L i(x) 2L_i(x)^2 ne dépend pas des choix faits au cours de l’algorithme de réduction de Gauss de la forme quadratique.

Théorème 5 (Théorème d’inertie de Sylvester)   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e{\bf e} une base qq-orthogonale Soit r +=card{i|q(e i)>0},r =card{i|q(e i)<0}.r_+=\mbox{card}\{ i \vert q(e_i)&gt;0\}, \quad r_-=\mbox{card}\{ i \vert q(e_i)&lt;0\}.

Alors le couple (r +,r )(r_+,r_-) ne dépend pas de la base qq-orthogonale choisie. De plus, r ++r =rg(q)r_++r_-=\mbox{rg}(q).

Ce théorème n’est valable que pour des formes réelles.

Preuve : Soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base qq-orthogonale. Posons α i=q(e i)=φ q(e i,e i)\alpha_i=q(e_i)=\varphi_q(e_i,e_i) et r=r ++r r=r_++r_-. Changer l’ordre des vecteurs de e{\bf e} ne change pas r +r_+ et r r_-, ni le fait que la base soit qq-orthogonale. On peut donc supposer sans perte de généralité que l’on a q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e_i)&gt;0, i=1,\ldots, r_+, \quad q(e_i)&lt;0, i=r_++1,\ldots, r,\quad q(e_i)=0, i=r+1,\ldots,n.

Puisque e{\bf e} est qq-orthogonale (c’est-à-dire φ q\varphi_q-orthogonale), on obtient que MM, la matrice de qq dans la base e{\bf e}, s’écrit M=(q(e 1) ... 0 0 ... q(e n)).M=\begin{pmatrix}q(e_1) & ...& 0\\ & \ddots & \\ 0 & ... & q(e_n) \end{pmatrix}. Or, seuls les réels q(e 1),,q(e r)q(e_1),\ldots,q(e_r) sont non nuls. Le rang d’une matrice diagonale étant le nombre de termes diagonaux non nuls, on a bien rg(q)=r=r ++r rg(q)=r=r_++r_-.

Soit maintenant e{\bf e'} une autre base qq-orthogonale. Soient (r +,r )(r'_+,r'_-) le couple d’entiers correspondant. Remarquons que l’on a r ++r =rg(q)=rr'_++r'_-=rg(q)=r par le point précédent. Comme précédemment, quitte à changer l’ordre des vecteurs, on peut supposer que q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e'_i)&gt;0, i=1,\ldots, r'_+, \quad q(e_i)&lt;0, i=r'_++1,\ldots, r,\quad q(e'_i)=0,i=r+1,\ldots,n. Montrons que e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont linéairement indépendants. Supposons que l’on ait une relation λ 1e 1++λ r +e r ++λ r ++1e r ++1++λ ne n=0.\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}+\lambda_{r'_++1}e'_{r'_+ +1}+\ldots+\lambda_ne'_n=0. On a donc λ 1e 1++λ r +e r +=(λ r ++1e r ++1+λ ne n).\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}=-(\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n). En appliquant qq des deux côtés, et en utilisant le fait que les bases e et e{\bf e'} sont qq-orthogonales, on obtient i=1 r +q(e i)λ i 2= i=r ++1 nq(e i)λ i 2.\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=\sum_{i=r'_++1}^{n}q(e'_i)\lambda_i^2. Par choix de e{\bf e} et de e{\bf e'}, le membre de gauche est 0\geq 0 et le membre de droite est 0\leq 0.

On en déduit que l’on a i=1 r +q(e i)λ i 2=0,\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=0, et puisque q(e i)>0q(e_i)&gt;0 pour i=1,,r +i=1,\ldots,r_+, on en déduit λ 1==λ r +=0.\lambda_1=\ldots=\lambda_{r_+}=0. Mais alors, on a λ r ++1e r ++1+λ ne n=0,\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n=0, et comme e{\bf e'} est une base, on en déduit λ r ++1==λ n=0.\lambda_{r'_++1}=\ldots=\lambda_n=0.

Ainsi, e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont r ++(nr +)r_++(n-r'_+) vecteurs linéairement indépendants dans un espace vectoriel de dimension nn. On a donc r ++(nr +)n,r_++(n-r'_+)\leq n, et donc r +r +r_+\leq r'_+. En échangeant les rôles de e{\bf e} et e{\bf e'}, on a de même r +r +r'_+\leq r_+.

On a donc r +=r +r_+=r'_+, et comme on a rg(q)=r ++r =r ++r \mbox{rg}(q)=r_++r_-=r'_++r'_-, on en déduit r =r r_-=r'_-. Ceci achève la démonstration.

Cela conduit à la définition suivante.

Définition 6   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Le couple (r +,r )(r_+,r_-) est appelé la signature de qq.
Remarque 7   Pour calculer la signature d’une forme quadratique qq, il suffit d’utiliser l’algorithme de Gauss pour écrire q(x)q(x) sous la forme α 1(u 11x 1++u 1nx n) 2++α r(u r1x 1++u rnx n) 2,\alpha_1(u_{11}x_1+\ldots+u_{1n}x_n)^2+\ldots+\alpha_r (u_{r1}x_1+\ldots+u_{rn}x_n)^2, et de compter le nombre de coefficients α i\alpha_i qui sont strictement plus grand que 00 et strictement plus petit que 00.

En effet, on a vu que si v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) est la base qq-orthogonale obtenue à la fin de l’algorithme de Gauss, et MM est la matrice de qq dans cette base, alors M=diag(α 1,,α r,0,,0).M=diag(\alpha_1,\ldots,\alpha_r,0,\ldots,0). Mais les coefficients diagonaux de MM sont exactement les réels q(v i)q(v_i), et on conclut en utilisant la définition de r +r_+ et r r_-.

Exemple
La signature de la forme quadratique qq de l’exemple précédent est (3,1)(3,1).

Chapitre 4  Produits scalaires.

4.1  Rappels dans le plan et l’espace

4.1.1  Dans le plan

Soient u 1(x 1,y 1)u_1(x_1,y_1) et u 2(x 2,y 2)u_2(x_2,y_2) deux vecteurs du plan. On définit le produit scalaire de u 1u_1 et u 2u_2 par u 1|u 2=x 1x 2+y 1y 2\langle u_1|u_2 \rangle =x_1x_2+y_1y_2 Propriétés

Si z 1z_1 est l’affixe de u 1u_1 (le complexe correspondant à u 1u_1) et z 2z_2 celui de u 2u_2, alors en notant \Re la partie réelle : u 1|u 2=x 1x 2+y 1y 2=((x 1iy 1)(x 2+iy 2))=(z 1¯z 2)\langle u_1|u_2 \rangle = x_1x_2+y_1y_2=\Re((x_1-iy_1)(x_2+iy_2))=\Re(\overline{z_1} z_2) Donc le produit scalaire est invariant par rotation1, puisque (e iθz 1¯e iθz 2)=(e iθz 1¯e iθz 2)=(z 1¯z 2)\Re(\overline{e^{i\theta}z_1} e^{i\theta}z_2)=\Re(e^{-i\theta}\overline{z_1} e^{i\theta}z_2) =\Re(\overline{z_1} z_2) On peut aussi le vérifier avec la matrice PP de la rotation d’angle θ\theta : P=(cos(θ) sin(θ) sin(θ) cos(θ))P=\left(\begin{array}{cc} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{array} \right) qui vérifie P tP=I 2P^t P=I_2.

Soit φ\varphi l’angle entre les vecteurs u 1u_1 et u 2u_2. Effectuons la rotation qui met u 1u_1 selon l’axe des xx dans le bon sens, on a alors x 1=u 1,y 1=0x_1=\|u_1\|, y_1=0 donc u 1|u 2=x 1x 2=u 1u 2cos(φ)\langle u_1|u_2 \rangle =x_1x_2=\|u_1\| \|u_2\| \cos(\varphi) En particulier, on a l’inégalité de Cauchy-Schwarz : |u 1|u 2|u 1u 2|\langle u_1|u_2 \rangle | \leq \|u_1\| \|u_2\|

Si u|v=0\langle u|v \rangle =0, on dit que les vecteurs uu et vv sont orthogonaux, on a alors le théorème de Pythagore u+v 2=u 2+v 2\|u+v\|^2=\|u\|^2+\|v\|^2 Lorsqu’une base est composée de vecteurs de norme 1 orthogonaux entre eux, on parle de base orthonormée. Si {u 1,u 2}\{u_1,u_2\} est une telle base, alors on a u=u 1|uu 1+u 2|uu 2u=\langle u_1|u \rangle u_1+\langle u_2|u \rangle u_2

Si on se donne un vecteur uu, on peut construire une base orthonormée dont le premier vecteur est u 1=uuu_1=\frac{u}{\|u\|}. On définit la projection orthogonale sur la droite vectorielle DD engendrée par uu par p(v)=u 1|vu 1p(v)=\langle u_1|v \rangle u_1 on vérifie que vp(v)v-p(v) est orthogonal à u 1u_1 : u 1|vp(v)=u 1|vu 1|p(v)=u 1|vu 1|u 1|vu 1=u 1|vu 1|vu 1|u 1=0\langle u_1|v-p(v) \rangle =\langle u_1|v \rangle -\langle u_1|p(v) \rangle =\langle u_1|v \rangle -\langle u_1| \langle u_1|v \rangle u_1 \rangle =\langle u_1|v \rangle -\langle u_1|v \rangle \langle u_1|u_1 \rangle =0 Le vecteur de DD le plus proche de vv est w=p(v)w=p(v). En effet si dd est un vecteur de DD, on applique le théorème de Pythagore dans le triangle de sommets les extrémités de dd, w=p(v)w=p(v) et vv qui est rectangle (en w=p(v)w=p(v)).

gl_ortho=true;
u:=vecteur(1,1/4); D:=droite(0,u,legend=""); 
v:=vecteur(2,2); w:=projection(D,v); d:=6*u;
triangle(v[1,1],w[1,1],d[1,1],color=red)

onload

4.1.2  Dans l’espace

Si u 1(x 1,y 1,z 1)u_1(x_1,y_1,z_1) et u 2(x 2,y 2,z 2)u_2(x_2,y_2,z_2) sont deux vecteurs de 3\mathbb{R}^3, on définit leur produit scalaire par : u 1|u 2=x 1x 2+y 1y 2+z 1z 2\langle u_1|u_2 \rangle =x_1x_2+y_1y_2+z_1z_2 On vérifie les mêmes propriétés que dans le plan : le produit scalaire se comporte comme un produit (linéarité par rapport à chaque argument), u|u\langle u|u \rangle est positif et ne s’annule que si u=0u=0. Comme c’est le produit scalaire du plan si on se restreint aux plans de coordonnées Oxy,Oxz,OyzOxy, Oxz, Oyz, il est invariant par rotation d’axe les vecteurs de base. On a donc toujours u 1|u 2=u 1u 2cos(u 1,u 2)\langle u_1|u_2 \rangle =\|u_1\| \|u_2\| \cos(u_1,u_2) (en utilisant les angles d’Euler : faire une rotation d’axe OzOz pour que le plan u 1,u 2u_1,u_2 contienne OxOx, puis une rotation selon OxOx pour que le plan u 1,u 2u_1,u_2 soit le plan de coordonnées OxyOxy). Donc l’inégalité de Cauchy-Schwarz est toujours valide. De même que le théorème de Pythagore.

On parle toujours de base orthonormée pour une base de 3 vecteurs de norme 1 orthogonaux entre eux 2 à 2. Les coordonnées d’un vecteur uu dans une base orthonormée {u 1,u 2,u 3}\{u_1,u_2,u_3\} se calculent par la formule : u=u 1|uu 1+u 2|uu 2+u 3|uu 3u=\langle u_1|u \rangle u_1+\langle u_2|u \rangle u_2+\langle u_3|u \rangle u_3

Si on se donne une droite vectorielle DD de vecteur directeur uu, on peut créer une base orthonormale de premier vecteur u 1=uuu_1=\frac{u}{\|u\|}. La projection orthogonale d’un vecteur vv sur la droite DD est toujours obtenue par p(v)=u 1|vu 1p(v)=\langle u_1|v \rangle u_1 et c’est le vecteur de DD le plus proche de vv.

Si on se donne un plan vectoriel PP engendré par deux vecteurs uu et vv on peut créer une base orthonormale de premier vecteur u 1=uuu_1=\frac{u}{\|u\|} et de deuxième vecteur dans le plan u,vu,v. Pour cela, on modifie vv en un vecteur v˜\tilde{v} orthogonal à uu en retirant à vv la projection orthogonale de vv sur uu : v˜=vu 1|vu 1\tilde{v}=v-\langle u_1|v \rangle u_1 puis on normalise ce qui donne un vecteur u 2u_2 de norme 1 orthogonal à u 1u_1 u 2=v˜v˜u_2=\frac{\tilde{v} }{\| \tilde{v}\|} À ce stade, on peut définir la projection orthogonale sur PP par p(w)=u 1|wu 1+u 2|wu 2p(w)=\langle u_1|w \rangle u_1+\langle u_2|w \rangle u_2 On peut compléter la famille orthonormée {u 1,u 2}\{ u_1,u_2\} avec le produit vectoriel des deux vecteurs u 1u_1 et u 2u_2, mais cette construction est spécifique à la dimension 3. Pour pouvoir généraliser en dimension plus grande, on peut aussi prendre un troisième vecteur ww qui n’appartient pas au plan PP, on le modifie en un vecteur orthogonal à PP en lui retirant sa projection orthogonale sur PP et on le normalise en un vecteur u 3u_3. Le vecteur de PP le plus proche de ww est p(w)p(w), toujours à cause du théorème de Pythagore.

Exemple : soit PP le plan engendré par les vecteurs u=(1,1,0)u=(1,1,0) et v=(1,0,1)v=(1,0,-1). On a u 1=u/2u_1=u/\sqrt{2}. Donc p u(v)=vu 1|vu 1=(1 0 1)12(1 0 1)|(1 1 0)12(1 1 0)=(1 0 1)12(1 1 0)=12(1 1 2)p_u(v)=v-\langle u_1|v \rangle u_1 = \begin{pmatrix}1\\ 0 \\ -1\end{pmatrix} - \langle \frac{1}{\sqrt{2}} \begin{pmatrix}1\\ 0 \\ -1\end{pmatrix}| \begin{pmatrix}1\\ 1\\ 0\end{pmatrix} \rangle \frac{1}{\sqrt{2}}\begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} = \begin{pmatrix}1\\ 0 \\ -1\end{pmatrix} - \frac{1}{2} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} = \frac{1}{2} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} puis u 2=p u(v)p u(v)=(1 1 2)(1 1 2)=16(1 1 2)u_2=\frac{p_u(v)}{\| p_u(v) \|} =\frac{\begin{pmatrix}1\\-1 \\ -2\end{pmatrix}}{ \left\| \begin{pmatrix}1\\-1 \\ -2\end{pmatrix}\right\|} = \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} Pour compléter la base avec un vecteur u 3u_3, en dimension 3 on peut utiliser le produit vectoriel de u 1u_1 et u 2u_2 u 3=12(1 1 0)16(1 1 2)=123(2 2 2)=13(1 1 1)u_3= \frac{1}{\sqrt{2}} \begin{pmatrix} 1\\1\\0\end{pmatrix} \wedge \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} = \frac{1}{2\sqrt{3}} \begin{pmatrix} -2\\ 2\\ -2\end{pmatrix} = \frac{1}{\sqrt{3}} \begin{pmatrix} -1\\ 1\\ -1\end{pmatrix} ou prendre un vecteur ww, par exemple w=(1,0,0)w=(1,0,0) et retrancher la projection orthogonale de ww sur PP u 3˜=wu 1|wu 1u 2|wu 2=(1 0 0)12(1 1 0)|(1 0 0)12(1 1 0)16(1 1 2)|(1 0 0)16(1 1 2)\tilde{u_3}=w-\langle u_1|w \rangle u_1 -\langle u_2|w \rangle u_2 = \begin{pmatrix} 1\\0\\0\end{pmatrix} - \langle \frac{1}{\sqrt{2}} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix}| \begin{pmatrix} 1\\0\\0\end{pmatrix} \rangle \frac{1}{\sqrt{2}} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} - \langle \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix}| \begin{pmatrix} 1\\0\\0\end{pmatrix} \rangle \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} donc u 3˜=(1 0 0)12(1 1 0)16(1 1 2)=16(631 03+1 2)=13(1 1 1)\tilde{u_3} = \begin{pmatrix} 1\\0\\0\end{pmatrix} - \frac{1}{2} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} - \frac{1}{6} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} = \frac{1}{6} \begin{pmatrix} 6-3-1\\ 0-3+1\\ 2\end{pmatrix} = \frac{1}{3} \begin{pmatrix} 1\\ -1\\ 1\end{pmatrix} on retrouve bien un multiple du u 3u_3 précédent.

4.2  Définitions et exemples.

Nous voulons maintenant généraliser la notion de produit scalaire - et donc de longueur, de distance et d’angle - à un espace vectoriel réel arbitraire. Soient x=(x 1 x n),y=(y 1 y n)x=\left(\begin{array}{c}x_1 \\ \vdots \\ x_n\end{array}\right), y=\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right) deux vecteurs de n\mathbb{R}^n, le produit scalaire canonique est défini par : xy= txy= i=1 nx iy ix\cdot y=^tx y=\sum_{i=1}^n x_iy_i L’application (x,y)xy(x,y) \mapsto x \cdot y est une forme bilinéaire symétrique. La longueur d’un vecteur x nx\in\mathbb{R}^n pour n=2n=2 et n=3n=3 peut être calculée par la formule x=xx\| x\|=\sqrt{x\cdot x} De même, nous souhaiterions associer une notion de longueur (on parle plutot de norme pour un vecteur) à une forme bilinéaire φ\varphi en posant x=φ(x,x)\|x\| =\sqrt{\varphi(x,x)}. Malheureusement, il n’est pas sûr que cette quantité soit définie : en effet si φ(x,x)<0\varphi(x,x)&lt;0, la racine carrée n’est pas définie. De plus, on souhaite que la norme d’un vecteur soit strictement positive pour un xx non-nul (or nous ne voulons pas une distance 00 entre deux vecteurs distincts).

Ces considérations amènent les définitions suivantes:

Définition 1   Soit VV un espace vectoriel réel. On dit qu’une forme bilinéaire symétrique φ:V×V\varphi:V\times V\to \mathbb{R} est positive si φ(x,x)0\varphi(x,x)\geq 0 pour tout xVx\in V, et définie positive si φ(x,x)>0\varphi(x,x)&gt;0 pour tout xV,x0x\in V,x\neq 0.

Remarquons que φ\varphi est définie positive si et seulement si

  • φ\varphi est positive et
  • φ(x,x)=0x=0 V.\varphi(x,x)=0\Rightarrow x=0_V.

C’est en général cette reformulation de la définition que l’on utilise en pratique pour vérifier si oui ou non une forme bilinéaire donnée est définie positive.

Définition 2   Soit VV un \mathbb{R}-espace vectoriel (non nécessairement de dimension finie). Un produit scalaire sur VV est une forme bilinéaire symétrique et définie positive sur VV : |:{V×V (x,y) x|y\langle\, | \, \rangle: \left\{ \begin{array}{ccc} V\times V & \to & \mathbb{R}\\ (x,y) & \mapsto & \langle x|y\rangle \end{array} \right. On dit que VV muni du produit scalaire |\langle\, | \, \rangle est un espace préhilbertien réel.
Remarque 3   On expliquera brièvement plus loin l’utilisation du préfixe “pré”-hilbertien, voir la remarque 12. On utilise aussi le terme d’espace euclidien si VV est un \mathbb{R}-espace vectoriel de dimension finie muni d’un produit scalaire. Le terme préhilbertien s’emploie aussi dans le cas de produits scalaires hermitiens définis sur un \mathbb{C}-espace vectoriel, cf. l’appendice D. Dans la suite de ce chapitre, on donne des résultats pour des espaces préhilbertiens dans le cas réel, la plupart des résultats se généralisent aux préhilbertiens complexes.

Exemples

  1. Le produit scalaire usuel sur n\mathbb{R}^n xy= i=1 nx iy ix \cdot y =\sum_{i=1}^n x_iy_i
  2. La forme bilinéaire qui a deux fonctions ff et gg continues de [a,b][a,b] à valeur dans \mathbb{R} associe l’intégrale entre aa et bb de leur produit : |:{C 0([a,b],)×C 0([a,b],) (f,g) f|g= a bf(t)g(t)dt\langle \, | \rangle: \left\{ \begin{array}{ccc} C^0([a,b], \mathbb{R})\times C^0([a,b] , \mathbb{R}) &\to & \mathbb{R}\\ (f,g) & \mapsto & \langle f|g\rangle=\int_a^b f(t)g(t)\mbox{d}t \end{array} \right. Montrons que c’est un produit scalaire.
    1. Montrons que |\langle \, | \rangle est symétrique. En effet, pour tout f,gC 0([a,b],)f,g\in C^0([a,b], \mathbb{R}), on a g|f= a bg(t)f(t)dt= a bf(t)g(t)dt=f|g.\langle g|f\rangle=\int_a^b g(t)f(t)\mbox{d}t=\int_a^b f(t)g(t)\mbox{d}t=\langle f|g\rangle.
    2. Montrons que |\langle \, | \rangle est bilinéaire. Pour tout f 1,f 2,f,gC 0([a,b],),λf_1,f_2,f,g\in C^0([a,b], \mathbb{R}),\lambda\in\mathbb{R}, on a f 1+f 2|g = a b(f 1+f 2)(t)g(t)dt = a b(f 1(t)+f 2(t))g(t)dt = a bf 1(t)g(t)dt+ a bf 2(t)g(t)dt = f 1|g+f 2|g\begin{array}{lll}\langle f_1+f_2|g\rangle &=&\int_a^b (f_1+f_2)(t)g(t)\mbox{d}t \\ &=& \int_a^b (f_1(t)+f_2(t))g(t)\mbox{d}t \\ &=& \int_a^b f_1(t)g(t)\mbox{d}t + \int_a^b f_2(t)g(t)\mbox{d}t \\ &=& \langle f_1|g\rangle +\langle f_2|g\rangle \end{array} et : λf|g = a b(λf)(t)g(t)dt = a bλf(t)g(t)dt = λ a bf(t)g(t)dt = λf|g.\begin{array}{lll}\langle \lambda f|g\rangle &=& \int_a^b (\lambda f)(t)g(t)\mbox{d}t \\ &=& \int_a^b \lambda f(t)g(t)\mbox{d}t\\ &=& \lambda\int_a^b f(t)g(t)\mbox{d}t\\ &=& \lambda \langle f|g\rangle\end{array}. Par symétrie, il découle que f|g 1+g 2=f|g 1+f|g 2 et f|λg=λf|g\langle f|g_1+g_2\rangle=\langle f|g_1\rangle+\langle f| g_2\rangle \mbox{ et }\langle f|\lambda g\rangle=\lambda \langle f|g\rangle pour tout f,g,g 1,g 2[X],λf,g,g_1,g_2\in \mathbb{R}[X],\lambda\in\mathbb{R}
      Ainsi, |\langle \, |\rangle est bilinéaire.
    3. Montrons enfin que |\langle | \rangle est définie positive. On va utiliser pour cela la reformulation de la définition 1.

      Pour tout fC 0([a,b],)f\in C^0([a,b], \mathbb{R}), on a f|f= a bf(t) 2dt.\langle f|f\rangle=\int_a^b f(t)^2\mbox{d}t. Or, l’intégrale d’une fonction positive est positive. Comme la fonction f 2(t)f^2(t) est positive, on en déduit que f|f0pour tout fC 0([a,b],).\langle f|f\rangle\geq 0\ \mbox{pour tout }f\in C^0([a,b], \mathbb{R}). Supposons maintenant que l’on a f|f=0,\langle f|f\rangle=0, c’est à dire que a bf(t) 2dt=0.\int_a^b f(t)^2\mbox{d}t=0. Or l’intégrale d’une fonction positive et continue f:[a,b]f:[a,b]\to\mathbb{R} est nulle si et seulement si ff est identiquement nulle. Comme la fonction [a,b],tf(t) 2[a,b]\to \mathbb{R}, t\mapsto f(t)^2 est positive et continue, on en déduit f(t) 2=0pour toutt[a,b],f(t)^2=0\ \mbox{pour tout}\ t\in [a,b], c’est-à-dire f=0f=0 : CQFD.

  3. Pour toute fonction pp continue et strictement positive sur [a,b][a,b], la forme bilinéaire : |:{C 0([a,b],)×C 0([a,b],) (f,g) f|g= a bp(t)f(t)g(t)dt\langle \, | \rangle: \left\{ \begin{array}{ccc} C^0([a,b], \mathbb{R})\times C^0([a,b], \mathbb{R}) & \to &\mathbb{R}\\ (f,g)&\mapsto&\langle f|g\rangle=\int_a^b p(t) f(t)g(t)\mbox{d}t \end{array} \right. est un produit scalaire (exercice)
  4. L’application définie sur les matrices carrées réelles M n()M_n(\mathbb{R}) par (M,N)Tr( tMN)(M,N)\mapsto \mbox{Tr}({}^tMN) est un produit scalaire.
  5. La forme blinéaire définie sur 2\mathbb{R}^2 par : ((x 1 x 2),(y 1 y 2))x 1y 1x 2y 2\left(\left(\begin{array}{c}x_1\\ x_2\end{array}\right),\left(\begin{array}{c}y_1\\ y_2\end{array}\right)\right)\mapsto x_1y_1-x_2y_2 n’est pas un produit scalaire. C’est bien une forme bilinéaire symétrique, mais elle n’est pas positive.
  6. L’application qui associe à deux polynômes le produit de leur valeur en 0 : φ:{[X]×[X] (P,Q) P(0)Q(0)\varphi: \left\{ \begin{array}{ccc} \mathbb{R}[X] \times \mathbb{R}[X] & \to & \mathbb{R}\\ (P,Q) & \mapsto & P(0)Q(0) \end{array} \right. n’est pas un produit scalaire. Elle est bien bilinéaire, symétrique, positive, mais pas définie positive. Par exemple, on a φ(X,X)=0\varphi(X,X)=0, mais XX n’est pas le polynôme nul.

4.3  Géométrie.

Les propriétés du produit scalaire permettent alors, comme dans le cas classique, de définir la “longueur”, ou norme d’un vecteur de VV.

Définition 1   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien Pour tout xVx\in V, on définit la norme de xx, notée x\| x\|, par x=x|x.\| x\|=\sqrt{\langle x|x\rangle}.

Notons que par définition d’un produit scalaire, x0\|x\|\geq 0, et x=0\|x\|=0 si et seulement si x=0x=0.

Définition 2   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V. On définit la distance entre vv et ww par d(v,w)=vw. d(v,w)= \| v-w\|.

Encore une fois, la distance entre vv et ww est positive et n’est 00 que si v=wv=w.

gl_ortho=true;
v:=vecteur(3,1); w:=vecteur(2,3);
v-w; legend(v-w,"v-w"); angle(v,w,"θ");

onload
Nous aurions envie de poser la définition suivante :

Définition 3   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V avec v,w0v,w\neq 0. On définit l’angle entre vv et ww par θ=arccos(v|wv×w). \theta= \arccos\left(\frac{\langle v|w\rangle}{\|v\|\times \|w\|}\right).
Remarque 4   Avec cette définition de θ\theta, l’angle entre vv et ww, nous avons automatiquement θ[0,π]\theta\in [0, \pi]. Par ailleurs, il s’agit d’une angle non-orienté : θ\theta ne dépend pas de l’ordre de vv et ww.

Malheureusement, ce n’est pas évident que cette définition soit bien posée. En effet, la fonction arccos n’est définie que pour des nombres réels xx satisfaisant la condition 1x1-1\leq x\leq 1 ou autrement dit |x|1|x|\leq 1. Nous devons donc vérifier la proposition suivante :

Proposition 5 (Inégalité de Cauchy-Schwarz)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien. Alors pour tout x,yVx,y\in V, on a |x|y|x×y,|\langle x | y\rangle|\leq \| x\|\times \| y\|, et on a égalité dans cette expression si et seulement si la famille x,yx,y est liée sur \mathbb{R}, c’est-à-dire s’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0.

Exemples

Preuve : Le résultat étant immédiat si xx ou yy est égal à 00, on peut supposer x,y0x,y\neq 0 : si x,y0x,y\neq 0 nous avons qu’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0 si et seulement si il existe tt\in \mathbb{R} tel que x+ty=0x+ty=0. Considérons la fonction de tt f(t)=x+ty|x+ty=t 2y 2+2tx|y+x 2.f(t)=\langle x+ ty | x+ty\rangle= t^2 \|y\|^2+2t\langle x|y\rangle + \|x\|^2. Ceci est une fonction quadratique de tt qui ne prend pas de valeurs négatives : elle a donc un discriminant Δ0\Delta\leq 0, c’est à dire Δ=4(x|y) 24x 2y 20. \Delta= 4(\langle x|y\rangle)^2 - 4\|x\|^2\|y\|^2\leq 0. On a donc que (x|y) 2x 2y 2 (\langle x|y\rangle)^2 \leq \|x\|^2\|y\|^2 et |x|y|xy. |\langle x|y\rangle| \leq \|x\|\|y\|. De plus, on a ǵalité dans cette expression si et seulement si Δ=0\Delta =0, c’est-à-dire si et seulement si il existe tt tel que f(t)=0f(t)=0. Par définition de f(t)f(t), nous avons égalité dans cette expression si et seulement si il existe tt tel que x+ty=0x+ty=0. CQFD. L’inégalité de Cauchy-Schwarz est donc valable et notre définition de θ\theta est bien posée.

Un certain nombre de formules de la géométrie dans l’espace sont toujours valables dans ce contexte :

Lemme 6 (Théorème de Pythagore)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien et soient v,wVv,w\in Vavec v,w0 Vv,w \neq 0_V. Soit θ\theta l’angle entre vv et ww. Alors on a vw 2=v 2+w 2θ=π/2. \|v-w\|^2= \|v\|^2+\|w\|^2\Leftrightarrow \theta= \pi/2.
gl_ortho=true;
v:=vecteur(3,1); w:=vecteur(-1,3);
v-w; legend(v-w,"v-w"); angle(v,w,"");

onload
Preuve : On note tout d’abord que par définition θ=π/2\theta=\pi/2 si et seulement si v|w=0\langle v|w \rangle =0. Par définition, vw 2=vw|vw\|v-w\|^2= \langle v-w| v-w\rangle =v|v+w|w2v|w = \langle v|v\rangle + \langle w|w\rangle -2\langle v|w\rangle =v 2+w 22v|w= \|v\|^2+ \|w\|^2- 2 \langle v|w\rangle et donc vw 2=v 2+w 2v|w=0θ=π/2. \|v-w\|^2= \|v\|^2+\|w\|^2\Leftrightarrow \langle v|w \rangle =0 \Leftrightarrow \theta= \pi/2.

Lemme 7 (Identité du parallélogramme)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors v+w 2+vw 2=2(v 2+w 2). \|v+w\|^2+\|v-w\|^2=2(\|v\|^2+ \|w\|^2).

Preuve : Exercice pour le lecteur.

Lemme 8 (Inégalité triangulaire)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors v+wv+w. \|v+w\|\leq \|v\|+\|w\|.
gl_ortho=true;
A:=point(0,0):; B:=point(1,-1):; C:=point(2,1):;
v:=vecteur(A,B); w:=vecteur(B,C);
v+w; legend(v+w,"v+w"); 

onload
Preuve : On a que v+w 2=v 2+w 2+2v|w. \| v+w\|^2= \|v\|^2+ \|w\|^2+2\langle v|w \rangle. Par l’inégalité de Cauchy-Schwarz on a que v+w 2v 2+w 2+2v×w=(v+w) 2. \|v+w\|^2\leq \|v\|^2+\|w\|^2+2\|v\|\times \|w\|= (\|v\|+\|w\|)^2. Puisque v+w\|v+w\| et v+w\|v\|+\|w\| sont positifs, on peut prend la racine carrée des deux membres pour déduire que v+wv+w.\| v+w\|\leq \|v\|+\|w\|. Les deux lemmes suivants sont souvent très utiles.

Lemme 9   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V une famille de vecteurs deux à deux orthogonaux. Alors on a x 1++x k 2=x 1 2++x k 2.\| x_1+\ldots+x_k\|^2=\| x_1\|^2+\ldots+\| x_k\|^2.

Preuve : Supposons x 1,,x kVx_1,\ldots,x_k\in V deux à deux orthogonaux. On a donc x i|x j=0pour toutij.\langle x_i|x_j\rangle=0\ \mbox{pour tout}\ i\neq j. Par ailleurs, on a que x 1++x k 2=x 1++x k|x 1++x k= i,j=1 kx i|x j.\| x_1+\ldots+x_k\|^2=\langle x_1+\ldots+x_k|x_1+\ldots+x_k\rangle=\sum_{i,j=1}^k\langle x_i|x_j\rangle. Mais puisque x i|x j=0\langle x_i|x_j\rangle=0 pour tout iji\neq j, on obtient x 1++x k 2= i=1 kx i|x i= i=1 kx i 2,\| x_1+\ldots+x_k\|^2=\sum_{i=1}^k \langle x_i|x_i\rangle=\sum_{i=1}^k \| x_i\|^2, ce que l’on voulait démontrer.
On peut aussi faire une récurrence.

Lemme 10   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V des vecteurs non nuls deux à deux orthogonaux. Alors (x 1,,x k)(x_1,\ldots,x_k) est une famille libre.

Preuve : Soient λ 1,,λ k\lambda_1,\ldots,\lambda_k\in \mathbb{R} tels que λ 1x 1++λ kx k=0 V.\lambda_1x_1+\ldots+\lambda_k x_k=0_V. Soit j{1,,k}j\in \{1,\ldots, k\}. On a x j|λ 1x 1++λ kx k=x j|0 V=0,\langle x_j | \lambda_1x_1+\ldots+\lambda_k x_k\rangle=\langle x_j | 0_V\rangle=0, et donc i=1 kλ ix j|x i=0.\sum_{i=1}^k\lambda_i \langle x_j | x_i\rangle=0. Puisque les x ix_i sont deux à deux orthogonaux, cela s’écrit λ jx j|x j=0.\lambda_j \langle x_j |x_j\rangle=0. Puisque par hypothèse x j0x_j\neq 0, on a x j|x j>0\langle x_j |x_j\rangle &gt;0, et donc λ j=0\lambda_j=0. Ceci achève la démonstration.

Revenons maintenant à l’existence de bases orthonormées.

Proposition 11   Soit (V,|)(V,\langle \, |\, \rangle) un espace prehilbertien de dimension finie. Alors VV possède une base (v 1,,v n)(v_1,\ldots,v_n) orthonormée pour le produit scalaire.

De plus, si (v 1,,v n)(v_1,\ldots,v_n) est une base orthonormée, alors pour tout xVx\in V, on a x=v 1|xv 1++v n|xv n.x=\langle v_1|x\rangle v_1+\ldots+\langle v_n|x\rangle v_n.

Remarque 12   En dimension infinie, on parle d’espace de Hilbert lorsque les propriétés des bases orthonormées vues ici en dimension finie se généralisent (existence, décomposition de tout vecteur comme une somme infinie, i.e. une série par rapport aux bases orthonormées...). L’étude générale des espaces de Hilbert en dimension infinie dépasse le cadre de ce cours. La série de Fourier d’une fonction périodique de période TT peut être vue comme l’écriture selon une base orthonormée infinie composée par les harmoniques des sinus et cosinus de période TT.

Preuve : Pour montrer l’existence d’une base orthonormée, on peut au choix

Soit maintenant (v 1,,v n)(v_1,\ldots,v_n) une base orthonormée, et soit xVx\in V. Comme v 1,,v nv_1,\ldots,v_n est une base, on peut écrire x=λ 1v 1++λ nv n.x=\lambda_1 v_1+\ldots+\lambda_n v_n. Pour tout jj, on a alors v j|x= i=1 nλ iv j|v i=λ j,\langle v_j|x\rangle=\sum_{i=1}^n \lambda _i \langle v_j|v_i\rangle=\lambda_j, la dernière égalité provenant du fait que v 1,,v nv_1,\ldots,v_n est une base orthonormée. On a donc bien l’égalité annoncée.

Nous avons donc maintenant une notion satisfaisante de la distance entre deux éléments d’un espace vectoriel muni d’un produit scalaire. Rappelons que la question qui a motivé ce travail est la suivante : je veux construire dans un espace vectoriel VV un “bon approximant” ww pour un élément vv sous la contrainte que ww doit être contenu dans un sous-espace WW, on veut construire la projection orthogonale ww de vv sur WW.

gl_ortho=true;
W:=droite(0,[1,2]); v:=vecteur(2,1); w:=projection(W,v); 
affichage(v-w,red);

onload
Nous savons maintenant ce qu’on veut dire exactement par un “bon approximant” : on veut que la distance d(v,w)d(v,w) entre vv et ww soit la plus petite possible. Le lemme suivant nous donne un critère numérique pour que wWw\in W soit le “meilleur approximant” pour vv.

Lemme 13   Soit VV un espace prehilbertien, WW un sous espace de VV et vv un élément de VV. Si wWw\in W a la propriété que vw|w=0\langle v-w|w'\rangle =0 pour tout wWw'\in W alors pour tout wWw'\in W on a que d(v,w)d(v,w)d(v,w)\leq d(v,w'), avec égalité si et seulement si w=ww'=w.

Autrement dit, si la droite qui relie vv à wWw\in W est perpendiculaire à WW alors ww est le point de WW le plus proche de vv. Ce résultat vous est familier lorsque v 2v\in \mathbb{R}^2 et WW est une droite dans 2\mathbb{R}^2, ou lorsque v 3v\in \mathbb{R}^3 et WW est un plan dans 3\mathbb{R}^3.

Preuve : On a que d(v,w)=vw=(vw)+(ww). d(v,w')= \| v-w'\| =\| (v- w) + (w-w')\|. Maintenant, wwWw-w'\in W donc par hypothèse (vw)(ww)(v-w) \perp (w-w') et par le théorème de Pythagore d(v,w) 2=(vw) 2+(ww) 2d(v,w) 2 d(v,w')^2= \|(v-w)\|^2+ \|(w-w')\|^2 \geq d(v,w)^2 avec égalité si et seulement si ww=0\|w-w'\|=0, c’est-à-dire w=ww=w'.

Notre critère est que (vw)(v-w) doit être orthogonal à tous les éléments de WW. Etudions donc l’ensemble constitué de tels éléments.

Définition 14   Soit (V,|)(V,\langle \, | \,\rangle) un espace prehilbertien et soit SS un sous-ensemble de VV. L’orthogonal de SS, noté S S^\perp, est le sous-ensemble de VV défini par S ={xVs|x=0pour toutsS}.S^\perp=\{ x\in V \mid \langle s|x\rangle=0 \ \mbox{pour tout}\ s\in S \}.

Exercice. Démontrer que S S^\perp est toujours un sous-espace vectoriel de WW.

Théorème 15   Soit (V,|)(V,\langle \, | \,\rangle) un espace prehilbertien et soit WW un sous-espace vectoriel de VV. Alors:
  1. Pour tout wWw\in W et tout wW w'\in W^\perp, on a www\perp w'. De plus, WW ={0 V}W\cap W^\perp=\{0_V\}.
  2. Si WW est de dimension finie, on a V=WW V=W{\oplus} W^\perp. Autrement dit, tout xVx\in V s’écrit de manière unique sous la forme x=w+w,wW,wW .x=w+w', w\in W,w'\in W^\perp. De plus, si (v 1,,v k)(v_1,\ldots, v_k) est une base orthonormée pour WW alors on a w= i=1 kv i|xv iw= \sum_{i=1}^k \langle v_i|x\rangle v_i.

Preuve :

  1. Si wWw\in W et wW w'\in W^\perp, alors on a w|w=0\langle w|w'\rangle=0 par définition de W W^\perp. On a donc www\perp w'. Soit maintenant wWW w\in W\cap W^\perp. Puisque wW w\in W^\perp et wWw\in W on a que w|w=0\langle w|w\rangle=0 et donc w=0w=0 d’après les propriétés du produit scalaire.
    Ainsi, on a WW ={0}W\cap W^\perp=\{ 0 \}, ce qu’il fallait vérifier.
  2. D’après (1)(1), il reste à démontrer que V=W+W V=W+W^\perp, c’est-à-dire que tout vecteur vVv\in V peut s’écrire v=w+wv=w+w' avec wWw\in W et wW w'\in W^\perp.
    Si W={0}W=\{0\}, on a W =VW^\perp=V, et il n’y a rien à faire. On peut donc supposer que WW n’est pas l’espace trivial {0 V}\{ 0_V \}. La restriction à WW du produit scalaire sur VV est encore un produit scalaire. Puisque WW est de dimension finie, WW possède une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) d’après la proposition précédente.
    Soit vVv\in V. On pose w= i=1 kv i|vv i.w=\sum_{i=1}^k \langle v_i| v\rangle v_i. Alors wWw\in W. D’autre part, on a v j|vw = v j|vv j|w = v j|vv j| i=1 nv i,vv i = v j|v i=1 kv i|vv j|v i.\begin{array}{lll}\langle v_j|v-w\rangle &=& \langle v_j|v\rangle-\langle v_j|w\rangle\\ &=& \langle v_j|v\rangle- \langle v_j|\displaystyle\sum_{i=1}^n \langle v_i,v\rangle v_i\rangle \\ &=& \langle v_j|v\rangle-\displaystyle\sum_{i=1}^k \langle v_i|v\rangle \langle v_j|v_i\rangle.\end{array} Puisque v 1,,v kv_1,\ldots,v_k est orthonormée, on en déduit: v j|vw=v j|vv j|v=0,\langle v_j|v-w\rangle=\langle v_j|v\rangle-\langle v_j|v\rangle=0, et ceci pour tout j=1,,kj=1,\ldots,k.
    Soit sWs\in W. Alors on peut écrire s=s 1v 1++s kv ks=s_1v_1+\ldots+s_k v_k, et donc s|vw= i=j ks jv j|vw=0.\langle s| v-w\rangle=\sum_{i=j}^k {s}_j\langle v_j|v-w\rangle=0. Ainsi, vwW v-w\in W^\perp, et donc on a la décomposition voulue en posant w=vww'=v-w. Si maintenant on a deux décompositions v=w 1+w 1=w 2+w 2,w iW,w iW ,v=w_1+w'_1=w_2+w'_2,w_i\in W,w'_i\in W^\perp, on a w 1w 2=w 2w 1WW ,w_1-w_2=w'_2-w'_1\in W\cap W^\perp, car WW et W W^\perp sont des sous-espaces vectoriels de VV. Par le premier point, on en déduit w 1w 2=w 2w 1=0 Vw_1-w_2=w'_2-w'_1=0_V, et donc w 1=w 2,w 1=w 2w_1=w_2, w'_1=w'_2, CQFD.
Remarque 16   Le point (2)(2) est faux sans hypothèse de finitude de la dimension de WW.

D’après le deuxième point du théorème, lorsque WW est de dimension finie, tout xVx\in V se décompose de manière unique sous la forme x=w+w,wW,wW .x=w+w',w\in W,w'\in W^\perp. Cela conduit à la définition suivante:

Définition 17   Soit (V,|)(V,\langle \, | \,\rangle) un espace prehilbertien, et soit WW un sous-espace de VV de dimension finie. Pour tout x=w+wVx=w+w'\in V avec wWw\in W et wW w' \in W^\perp on pose p W(x)=w.p_W(x)=w. Le vecteur p W(x)Wp_W(x)\in W est appelé la projection orthogonale de xx sur WW. Si (v 1,v k)(v_1,\ldots v_k) est une base orthonormée de WW alors on a p W(x)= iv i|xv i, p_W(x)=\sum_i \langle v_i|x\rangle v_i, Le lecteur pourra vérifier à titre d’exercice les propriétés suivantes:
  1. L’application p W:VVp_W:V\to V est linéaire.
  2. Pour tout xVx\in V, on a et p W(x)W,p_W(x)\in W, (xp W(x))W (x-p_W(x))\in W^\perp.

La projection orthogonale a la propriété essentielle suivante :

p W(x)p_W(x) est le point de WW le plus proche de xx

Si on dispose d’une base orthonormée (v 1v n)(v_1\ldots v_n) pour WW, on a une formule explicite pour calculer une projection orthogonale : p W(x)= i=1 kv i|xv i(2) p_W(x)= \sum_{i=1}^k \langle v_i|x\rangle v_i \qquad (2) Exemple : on reprend pour WW l’exemple du plan PP engendré par les vecteurs u=(1,1,0)u=(1,1,0) et v=(1,0,1)v=(1,0,-1). On a vu qu’une base orthonormée de WW est donnée par u 1=12(1 1 0),u 2=16(1 1 2)u_1=\frac{1}{\sqrt{2}} \begin{pmatrix}1\\1 \\ 0\end{pmatrix}, u_2= \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} La projection orthogonale du vecteur vv de composantes (x,y,z)(x,y,z) est donc p W((x y z)) = u 1|vu 1+u 2|vu 2 = 12(1 1 0)|(x y z)(1 1 0)+16(1 1 2)|(x y z)(1 1 2) = x+y2(1 1 0)+xy2z6(1 1 2) = 13(2x+yz x+2y+z x+y+2z) \begin{matrix} p_W(\begin{pmatrix}x\\y \\ z\end{pmatrix}) &=&\langle u_1|v \rangle u_1+\langle u_2|v \rangle u_2 \\ &=& \frac{1}{2} \langle \begin{pmatrix}1\\1 \\ 0\end{pmatrix}|\begin{pmatrix}x\\y \\ z\end{pmatrix} \rangle \begin{pmatrix}1\\1 \\ 0\end{pmatrix} +\frac{1}{6} \langle \begin{pmatrix}1\\-1 \\ -2\end{pmatrix}|\begin{pmatrix}x\\y \\ z\end{pmatrix} \rangle \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} \\ &=& \frac{x+y}{2} \begin{pmatrix}1\\1 \\ 0\end{pmatrix} +\frac{x-y-2z}{6} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} \\ & = & \frac{1}{3} \begin{pmatrix}2x+y-z\\x+2y+z \\ -x+y+2z\end{pmatrix} \end{matrix}

Reste à construire des bases orthonormées adaptées dans le cas général, c’est l’objet du prochain paragraphe.

4.4  Procédé d’orthonormalisation de Gram-Schmidt.

Soit (V,|)(V,\langle| \rangle) un espace prehilbertien de dimension finie. On suppose donnée une base pour VV, e=(e 1,,e n){\bf e}= (e_1,\ldots, e_n). On présente un algorithme de construction d’une famille orthonormée (v 1,v k)(v_1,\ldots v_k) à partir de e{\bf e} pour k=1k=1, puis k=2k=2, ... puis k=nk=n. Cette famille engendrera le même sous-espace vectoriel que la famille (e 1,e k)(e_1,\ldots e_k).

  1. Initialisation :pour k=1k=1, on pose v 1=e 1e 1v_1= \frac{e_1}{\|e_1\|}. v 1v_1 est alors de norme 1 par construction et l’espace engendré par (v 1)(v_1) est égal à l’espace engendré par (e 1)(e_1).
  2. Début du corps de la boucle
    Pour k>1k&gt;1, on suppose (v 1,,v k1)(v_1,\ldots, v_{k-1}) déjà construits. On va construire v kv_{k}, il doit être orthogonal à l’espace WW engendré par (v 1,...,v k1)(v_1,...,v_{k-1}).
  3. Étape d’orthogonalisation
    On a vu que pour tout vecteur zz, en lui soustrayant p W(z)p_W(z) son projeté orthogonal sur un sous-espace vectoriel WW, on obtient un vecteur zp W(z)z-p_W(z) qui est orthogonal à WW.
    On définit donc un vecteur auxiliaire f kf_{k} en soustrayant de e ke_{k} son projeté orthogonal sur WW, donc en appliquant (2) : f k=e k j=1 k1v j|e kv j. f_{k}= e_{k} -\sum_{j=1}^{k-1} \langle v_j| e_{k}\rangle v_j. Par construction f kf_{k} est orthogonal aux vecteurs v 1,,v k1v_1,\ldots, v_{k-1}. Par contre, il n’est pas forcément de longueur 11.
  4. Étape de normalisation
    On observe que e ke_k n’est pas combinaison linéaire des v jv_j pour jk1j \leq k-1 (en effet la famille (v 1,...,v k1)(v_1,...,v_{k-1}) engendre le même sous-espace que la famille (e 1,...,e k1)(e_1,...,e_{k-1}), or la famille (e 1,...,e k)(e_1,...,e_k) est libre). On a donc f k0f_k \neq 0, on pose : v k=f kf k. v_{k}=\frac{f_{k}}{\| f_{k}\|}.
  5. Nous avons maintenant construit (v 1,,v k)(v_1,\ldots, v_{k}). On voit que la famille (v 1,...,v k)(v_1,...,v_k) engendre bien le même sous-espace vectoriel que (e 1,...,e k)(e_1,...,e_k) Si k<nk&lt;n, on revient au début de la boucle (étape 2) en incrémentant kk de 1.
gl_ortho=true;
W:=droite(y=2x); legende(W,"W=Vect(e1,...,ek-1)",quadrant2);
ek:=vecteur(2,1,color=magenta); projection(W,ek);
affichage(ek-projection(W,ek),red); legende(ek-projection(W,ek),"fk=ek-p(ek)",red)

onload
On a donc :

Proposition 1   Les vecteurs de la famille v{\bf v} construite par le procédé de Gram-Schmidt ci-dessus forment une base orthonormée pour VV et le sous-espace vectoriel engendré par (v 1,,v k)(v_1,\ldots, v_k) est le même que celui engendré par (e 1,,e k)(e_1,\ldots, e_k)

Exemple 1
On considère la base de 3\mathbb{R}^3 e 1=(1 1 0),e 2=(1 0 1),e 3=(0 1 1).e_1=\begin{pmatrix}1\\ 1\\ 0\end{pmatrix},e_2=\begin{pmatrix}1\\ 0\\ 1\end{pmatrix},e_3=\begin{pmatrix}0\\ 1\\ 1\end{pmatrix}. Appliquons le procédé de Gram-Schmidt à cette base afin d’obtenir une base orthonormée pour le produit scalaire.
On pose v 1=e 1e 1=(1/2 1/2 0)v_1=\frac{e_1}{\| e_1\|}= \begin{pmatrix}1/\sqrt{2}\\ 1/\sqrt{2}\\ 0\end{pmatrix} On a f 2=e 2v 1|e 2v 1=(12 12 1).f_2=e_2-\langle v_1|e_{2}\rangle v_1=\begin{pmatrix} \frac{1}{2}\\ -\frac{1}{2}\\ 1 \end{pmatrix}. On pose v 2=f 2f 2=(16 16 26).v_2= \frac{f_2}{\| f_2\|}= \begin{pmatrix}\frac{1} {\sqrt{6}}\\ -\frac{1} {\sqrt{6}}\\ \frac{2} {\sqrt{6}} \end{pmatrix}. Enfin f 3=e 3v 1|e 3v 1v 2|e 3v 2=(2/3 2/3 2/3),f_3=e_3-\langle v_1|e_3\rangle v_1-\langle v_2|e_{3}\rangle v_2= \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}, et donc v 3=f 3f 3=32(2/3 2/3 2/3). v_3= \frac{f_3}{\|f_3\|}= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}. On a donc v 1=12(1 1 0),v 2=23(1/2 1/2 1),v 3=32(2/3 2/3 2/3).v_1=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ 1\\ 0 \end{pmatrix},v_2=\sqrt{\frac{2}{3}}\begin{pmatrix}1/2\\ 1/2\\ 1\end{pmatrix},v_3= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}. Vérification avec Xcas : on utilise la commande gramschmidt avec en argument des vecteurs lignes, le résultat renvoyé est une liste de vecteurs lignes :


ou on appelle la commande qr avec la matrice des vecteurs en colonnes et l’argument optionnel -3, la matrice du milieu (q) est la matrice de passage de la base canonique à la base orthonormale:


Exemple 2
Construisons une base orthonormée pour le plan d’équation x+y+z=0x+y+z=0 dans 3\mathbb{R}^3. Il a une base non orthonormée (e 1,e 2)(e_1, e_2) donnée par e 1=(1 1 0),e 2=(1 0 1).e_1=\begin{pmatrix}1\\-1\\0\end{pmatrix} , e_2= \begin{pmatrix}1\\0\\-1\end{pmatrix}. On pose v 1=e 1e 1=(1/2 1/2 0)v_1= \displaystyle{\frac{e_1}{\| e_1\|}}= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}. On introduit alors f 2=e 2v 1|e 2v 1=e 212v 1=(1/2 1/2 1)f_2= e_2-\langle v_1| e_2\rangle v_1= e_2-\frac{1}{\sqrt2} v_1= \begin{pmatrix}1/2\\ 1/2 \\ -1\end{pmatrix} et on pose v 2=f 2f 2=(1/6 1/6 2/6).v_2= \frac{f_2}{ \| f_2\|}= \begin{pmatrix}1/\sqrt{6}\\ 1/\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}. Ceci nous donne la base (v 1,v 2)(v_1, v_2) avec v 1=(1/2 1/2 0),v 2=(1/6 1/6 2/6). v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1/\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}.

Exemple 3
Sur les polynômes de degré au plus 2, on définit le produit scalaire ϕ(P,Q)=P(1)Q(1)+P(0)Q(0)+P(1)Q(1)\phi(P,Q)=P(-1)Q(-1)+P(0)Q(0)+P(1)Q(1) C’est bien un produit scalaire, car ϕ(P,P)=0\phi(P,P)=0 entraine P(1)=P(0)=P(1)=0P(-1)=P(0)=P(1)=0 donc P=0P=0 (3 racines pour degré au plus 2). On peut orthonormaliser la base canonique {1,X,X 2}\{1,X,X^2\}. On normalise le premier vecteur de la base en v 1=1/3v_1=1/\sqrt{3} car ϕ(1,1)=3\phi(1,1)=3. Le 2ième vecteur de la base est orthogonal au premier car ϕ(1,X)=1+0+1=0\phi(1,X)=-1+0+1=0 il suffit de le normaliser en v 2=X/2v_2=X/\sqrt{2} (ϕ(X,X)=(1) 2+0 2+1 2=2\phi(X,X)=(-1)^2+0^2+1^2=2). On projette X 2X^2 sur le plan {v 1,v 2}\{v_1,v_2\} p(X 2)=ϕ(v 1,X 2)v 1+ϕ(v 2,X 2)v 2=13ϕ(1,X 2)+12ϕ(X,X 2)X=23p(X^2)=\phi(v_1,X^2) v_1+\phi(v_2,X^2)v_2 =\frac{1}{3} \phi(1,X^2) + \frac{1}{2} \phi(X,X^2) X = \frac{2}{3} Donc v 3v_3 est X 22/3X^2-2/3 normalisé, soit v 3=(X 22/3)/2/3v_3=(X^2-2/3)/\sqrt{2/3} car ϕ(X 22/3,X 22/3)=(1/3) 2+(2/3) 2+(1/3) 2=2/3\phi(X^2-2/3,X^2-2/3)=(1/3)^2+(-2/3)^2+(1/3)^2 = 2/3 Finalement, la base orthonormée obtenue est {13,X2,X 22323}\{ \frac{1}{\sqrt{3}}, \frac{X}{\sqrt{2}}, \frac{X^2-\frac{2}{3}}{\sqrt{\frac{2}{3}}}\} Vérification

Remarque 2   En calcul exact ou à la main, il peut être plus simple de ne pas normaliser les vecteurs f kf_{k} à chaque étape, donc de construire une base orthogonale : f k=e k j=1 k1f j|e kf j 2f j f_{k}= e_{k} -\sum_{j=1}^{k-1} \frac{\langle f_j| e_{k}\rangle}{\|f_j\|^2} f_j et de normaliser la base seulement à la fin.
\spadesuit En calcul approché, cette méthode de calcul n’est pas adaptée en raison des erreurs d’arrondis. On utilise plutot la factorisation QRQR d’une matrice, qui est la version matricielle de l’orthonomalisation. L’orthonormalisation se fait en utilisant des matrices de symétries (réflexions de Householder) ou de rotations (méthode de Givens).
Remarque 3   Le procédé de Gram-Schmidt permet de calculer la projection orthogonale de tout vecteur xVx\in V sur un sous-espace WW de dimension finie, en calculant une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) de WW à partir d’une base quelconque e 1,,e ke_1,\ldots,e_k de WW (pour le produit scalaire sur WW obtenu par restriction du produit scalaire sur WW). On aura alors p W(x)= j=1 kv j|xv j.p_W(x)=\sum_{j=1}^k \langle v_j|x\rangle v_j. Rappelons que p W(x)p_W(x) est le meilleur approximant de xx dans WW.

4.5  Exemples de problèmes de minimisation.

4.5.1  Projection sur un plan de l’espace.

Utilisons cette méthode pour construire pour tout v 3v\in \mathbb{R}^3 le point le plus proche de vv dans WW, le plan d’équation x+y+z=0x+y+z=0.
Nous avons vu qu’une base orthonormée pour ce plan est donnée par v 1=(1/2 1/2 0),v 2=(1/6 16 2/6)v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}.
Soit v=(x y z)v=\begin{pmatrix}x\\y\\z\end{pmatrix} : on a donc p W(v)=v|v 1v 1+v|v 2 p_W(v) =\langle v|v_1\rangle v_1+ \langle v| v_2\rangle =(xy)2v 1+(x+y2z)6v 2 = \frac{(x-y)}{\sqrt{2}}v_1+ \frac{(x+y-2z)}{\sqrt{6}}v_2 =((xy)/2 (x+y)/2 0)+((x+y2z)/6 (x+y2z)/6 2x2y+4z/6)= \begin{pmatrix}(x-y)/2\\ (-x+y)/2\\ 0\end{pmatrix} + \begin{pmatrix} (x+y-2z)/6\\ (x+y-2z)/6\\ -2x-2y+4z/6\end{pmatrix} =((2xyz)/3 (x+2yz)/3 (xy+2z)/3).= \begin{pmatrix} (2x-y-z)/3\\ (-x+2y-z)/3\\ (-x-y+2z)/3\end{pmatrix}. Autre méthode : le vecteur n(1,1,1)n(1,1,1) est un vecteur normal au plan WW, on retire de vv sa projection sur l’orthogonal de WW donc p W(v)=vn,vn 2n=(x y z)x+y+z3(1 1 1)=(2xyz3 x+2yz3 xy+2z3)p_W(v)=v-\frac{\langle n,v \rangle }{\|n\|^2}n = \begin{pmatrix} x\\y\\z\end{pmatrix} - \frac{x+y+z}{3} \begin{pmatrix} 1 \\ 1\\ 1\end{pmatrix} = \begin{pmatrix} \frac{2x-y-z}{3}\\ \frac{-x+2y-z}{3}\\ \frac{-x-y+2z}{3}\end{pmatrix}

4.5.2  Régression linéaire

Considérons le problème suivant. On veut mesurer une donnée yy (pH d’une solution, température) en fonction d’un paramètre xx (concentration d’un ion, temps). Considérons les nn points (avec n2n\geq 2) P 1:=(x 1,y 1),,P n:=(x n,y n)P_1:=(x_1,y_1),\ldots,P_n:=(x_n,y_n) de 2\mathbb{R}^2 représentant par exemple le résultat de nn expérimentations. On suppose que les x ix_is sont deux à deux distincts. Supposons que la théorie nous dise que yy varie de façon affine en fonction de xx. A cause des erreurs de manipulation, de mesure, les nn points P 1,,P nP_1,\ldots,P_n ne sont pas alignés.

Comment trouver la droite de meilleure approximation, c’est-à-dire la droite d’équation y=ax+by=ax+b telle que les points théoriques Q 1:=(x 1,ax 1+b),,Q n:=(x n,ax n+b)Q_1:=(x_1,ax_1+b),\ldots,Q_n:=(x_n,ax_n+b) soient le plus proche possible des points expérimentaux P 1,,P nP_1,\ldots,P_n ?

Plus précisément, comment choisir la droite y=ax+by=ax+b telle que l’erreur quadratique e:=P 1Q 1 2++P nQ n 2e:=P_1Q_1^2+\ldots+P_nQ_n^2 soit minimale?

On veut donc trouver (a,b) 2(a,b)\in\mathbb{R}^2 tels que e:=(y 1(ax 1+b)) 2++(y n(ax n+b)) 2e:=(y_1-(ax_1+b))^2+\ldots+(y_n-(ax_n+b))^2 soit minimale. Posons X̲=(x 1 x n),Y̲=(y 1 y n) et 1̲=(1 1).\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix},\underline{Y}=\begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix}\mbox{ et } \underline{1}=\begin{pmatrix}1\\\vdots\\ 1\end{pmatrix}. On a facilement que Y̲(aX̲+b1̲)=(y 1(ax 1+b) y n(ax n+b)),\underline{Y}-(a\underline{X}+b\underline{1})= \begin{pmatrix}y_1-(ax_1+b)\\\vdots\\ y_n-(ax_n+b)\end{pmatrix}, et donc d=Y̲(aX̲+b1̲) 2,d=\| \underline{Y}-(a\underline{X}+b\underline{1})\|^2, où nous utilisons la norme associée au produit scalaire canonique sur n\mathbb{R}^n. Soit WW le sous-espace vectoriel dans n\mathbb{R}^n formé de tous les vecteurs de la forme aX̲+b1̲a\underline{X}+ b\underline{1} lorsque (a,b)(a,b) décrit 2\mathbb{R}^2. On veut donc minimiser Y̲w\| \underline{Y}-w\|, lorsque ww décrit WW. D’après les propriétés de la projection orthogonale, le minimum est obtenu pour w=p W(Y̲)w=p_W(\underline{Y}).

On doit donc calculer p W(Y̲)p_W(\underline{Y}). Les coefficients aa et bb seront alors donnés par la relation p W(Y̲)=aX̲+b1̲p_W(\underline{Y})=a\underline{X}+b \underline{1} car (X̲,1̲)(\underline{X},\underline{1}) est une base de WW. Posons x¯=x 1++x nn,y¯=y 1++y nn.\overline{x}=\frac{x_1+\ldots+x_n}{n}, \overline{y}=\frac{y_1+\ldots+y_n}{n}.

Appliquons l’algorithme de Gram-Schmidt à la base e 1=1̲,e 2=X̲e_1=\underline{1}, e_2=\underline{X} de WW. On a v 1=1̲/1̲=1n1̲v_1=\underline{1}/\|\underline{1}\|= \frac{1}{\sqrt{n}}\underline{1}. On a aussi f 2=e 2v 1|e 2v 1=X̲x¯1̲f_2=e_2-\langle v_1|e_2\rangle v_1= \underline{X}-\overline{x}\underline{1} et v 2=f 2/f 2v_2= f_2/ \| f_2\|. On a alors p W(Y̲) = v 1|Y̲v 1+v 2|Y̲v 2 = v 1|Y̲v 1+v 2|Y̲y¯1̲v 2car v 2|1̲=0 = y¯1̲+ i=1 n(x ix¯)(y iy¯ i) i=1 n(x ix¯) 2(X̲x¯1̲) = aX̲+(y¯ax¯)1̲\begin{array}{lll} p_W(\underline{Y})&=&\langle v_1|\underline{Y} \rangle v_1+\langle v_2|\underline{Y}\rangle v_2\\ &=& \langle v_1|\underline{Y} \rangle v_1+\langle v_2|\underline{Y}-\overline{y} \underline{1}\rangle v_2 \quad \mbox{car } \langle v_2 | \underline{1}\rangle =0 \\ &=& \overline{y}\underline{1}+ \frac{\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}_i)} {\sum_{i=1}^n (x_i-\overline{x})^2}(\underline{X}-\overline{x}\underline{1}) \\ &=& a \underline{X} + (\overline{y}-a\overline{x})\underline{1} \end{array} a= i=1 n(x ix¯)(y iy¯ i) i=1 n(x ix¯) 2a=\frac{\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}_i)} {\sum_{i=1}^n (x_i-\overline{x})^2} La droite a donc pour coefficient directeur le rapport entre la covariance des (x i,y i)(x_i,y_i) et la variance des x ix_i et passe par le point de coordonnées moyenne des xx, moyenne des yy.

4.5.3  Résolution au sens des moindres carrés. \spadesuit

On généralise l’exemple précédent, il s’agit de “résoudre” des systèmes linéaires n×mn \times m qui ont plus d’équations (nn) que d’inconnues (mm). Matriciellement, on considère l’équation d’inconnue vv : Av=b,v m,b n,n>mAv=b, \quad v \in \mathbb{R}^m, b \in \mathbb{R}^n, n&gt;m AA est une matrice “mince”, avec moins de colonnes que de lignes.

Par exemple pour la régression linéaire, vv a deux composantes : le coefficient directeur α\alpha de la droite cherchée et son ordonnée à l’origine β\beta. On a donc m=2m=2, on essaie de faire passer une droite par nn points (x 1,y 1),...,(x n,y n)(x_1,y_1),...,(x_n,y_n), Le système s’écrit (x 1 1 x n 1)(α β)=(y 1 y n)\begin{pmatrix} x_1 & 1\\ \vdots & \vdots \\ x_n & 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} y_1\\ \vdots \\ y_n \end{pmatrix} et n’a en général pas de solutions.

On peut alors chercher vv qui minimise Avb 2\|Av-b\|^2. Soit Im(A)(A), le sous-espace vectoriel parcouru par AvAv pour v nv \in \mathbb{R}^n Le problème revient à chercher la projection orthogonale de bb sur Im(A)(A). Pour cela, on pourrait chercher une base orthonormale de Im(A)(A) comme précédamment. On peut aussi utiliser la propriété du projeté orthogonal AvAv de bb sur Im(A)(A), w,Avb|Aw=0\forall w, \quad \langle Av-b|Aw \rangle =0

gl_ortho=1;
d:=droite(y=2x,affichage=hidden_name); legende(1+2*i,"Im(A)");
b:=vecteur(2,1);
Av:=projection(d,b,affichage=hidden_name); 
legende(3/4+3/2*i,"Av",quadrant2);
couleur(Av-b,red); legende(Av-b,"Av-b",red);
vecteur(1/2,1,legende="Aw",color=magenta);

onload
Notons *{ }^* la transposée d’une matrice (ou sa transconjuguée dans le cas complexe), on a : Avb|Aw=A *(Avb)|w\langle Av-b|Aw \rangle = \langle A^*(Av-b)|w \rangle donc, w,A *(Avb)|w=0\forall w, \quad \langle A^*(Av-b)|w \rangle =0 donc vv est solution de A *(Avb)=0(A *A)v=A *bA^* (A v-b)= 0 \Leftrightarrow (A^*A) v= A^* b qui est un système de mm équations à mm inconnues. Par exemple pour la régression linéaire, on a un système 2,2. (x 1 ... x n 1 ... 1)(x 1 1 x n 1)(α β)=(x 1 ... x n 1 ... 1)(y 1 ... y n)\begin{pmatrix} x_1 & ... & x_n \\ 1 & ... & 1 \end{pmatrix} \begin{pmatrix} x_1 & 1\\ \vdots & \vdots \\ x_n & 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} x_1 & ... & x_n \\ 1 & ... & 1 \end{pmatrix} \begin{pmatrix} y_1\\ ...\\ y_n \end{pmatrix} Sur machine, on saisit la matrice AA à partir des données (par exemple issues d’un tableur) en ajoutant une colonne de 1, puis on fait le produit matriciel A *AA^* A, on inverse et on applique à A *bA^*b2

Exemple température moyenne de la Terre de 1981 à 2022 (d’après
https://data.giss.nasa.gov/gistemp/tabledata_v4/GLB.Ts+dSST.txt)

X:=range(81,123);
Y:=14.0 .+[32,14,31,16,12,18,32,39,27,45,40,22,23,31,45,33,46,61,38,39,54,63,62,53,67,63,66,54,65,72,61,65,67,74,90,101,92,84,98,102,85,89]/100;
gl_x=80..125; gl_y=13.9..15.1; 
scatterplot(X,Y);
linear_regression_plot(X[:30],Y[:30]);
linear_regression_plot(X[12:],Y[12:],color=red);

onload




Le coefficient directeur de la droite est donc de environ 0.019 degré par an pour la période complète (0.017 degré par an pour la période 1981-2010 et 0.022 pour 1993-2022).

On peut aussi faire le calcul du produit de matrice formellement : ( i=1 nx i 2 i=1 nx i i=1 nx i i=1 n1)(α β)=( i=1 nx iy i i=1 ny i)\begin{pmatrix} \sum_{i=1}^n x_i^2 & \sum_{i=1}^n x_i \\ \sum_{i=1}^n x_i & \sum_{i=1}^n 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} \sum_{i=1}^n x_iy_i \\ \sum_{i=1}^n y_i \end{pmatrix} et vérifier qu’on retrouve la solution de la section précédente. En effet, la 2ème équation nous dit que la droite de régression passe par le point de coordonnées les moyennes (x¯=1n ix i,y¯=1n iy i)(\overline{x}=\frac{1}{n} \sum_i x_i,\overline{y}=\frac{1}{n}\sum_i y_i), et l’opération 1nL 1x¯nL 2\frac{1}{n}L_1 - \frac{\overline{x}}{n} L_2 élimine β\beta et permet de trouver le coefficient directeur : (1n ix i 2x¯ 2)α=1n ix iy ix¯y¯(\frac{1}{n}\sum_i x_i^2 - \overline{x}^2) \alpha = \frac{1}{n} \sum_i x_i y_i - \overline{x}\overline{y}

Exercice
Faire de mêne pour une régression avec 3 séries statistiques (donc une série dépendant des deux autres) z n=αx n+βy n+γz_n=\alpha x_n + \beta y_n+ \gamma. Indication de solution : la matrice AA s’obtient en mettant dans la 1ère colonne les x ix_i, dans la 2ième colonne les y iy_i et dans la 3ième colonne des 1.

4.5.4  Approcher une fonction continue par une fonction affine

On peut aussi vouloir approximer une fonction continue f:[a,b]f:[a,b]\to \mathbb{R} par une fonction affine y=αx+βy=\alpha x+\beta. Dans ce cas, la méthode précédente ne marche plus, puisque l’on doit considérer une infinité de points.

L’idée est de considérer un grand nombre de points sur le graphe de ff, dont les abcisses sont régulièrement espacés, P 1=(x 1,f(x 1)),,P n=(x n,f(x n))P_1=(x_1,f(x_1)),\ldots,P_n=(x_n,f(x_n)), avec x i=a+(ba)inx_i= a+\frac{(b-a)i}{n}, et de considérer la droite de meilleure approximation pour ces points. Bien sûr, plus nn est grand, meilleure est l’approximation. L’entier nn étant fixé, on doit donc minimiser d:=(f(x 1)(αx 1+β)) 2++(f(x n)(αx n+β)) 2.d:=(f(x_1)-(\alpha x_1+\beta))^2+\ldots+(f(x_n)-(\alpha x_n+\beta))^2. Ceci revient aussi à minimiser S n:=1n i=1 n(f(x i)(αx i+β)) 2, avec x i=a+(ba)in.S_n:=\frac{1}{n}\sum_{i=1}^n (f(x_i)-(\alpha x_i+\beta))^2, \mbox{ avec }x_i=a+\frac{(b-a)i}{n}. On voit graphiquement (et on peut démontrer rigoureusement) que S nS_n converge vers a b(f(t)(αt+β)) 2dt\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t. En particulier, S nS_n est très proche de cette intégrale lorsque nn est suffisamment grand.

Il est alors naturel de définir la droite de meilleure approximation y=αx+βy=\alpha x+\beta comme celle qui minimise l’intégrale a b(f(t)(αt+β)) 2dt\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t

Ce genre d’intégrale s’interprète souvent comme l’énergie d’un système. Ainsi, le problème de minimisation précédent revient à demander de minimiser cette énergie.

Exemple
Considérons le problème de minimisation suivant: trouver a,ba,b\in\mathbb{R} qui minimise 0 π2(cos(x)abx) 2dx\int_0^{\frac{\pi}{2}}(\cos(x)-a-bx)^2\mbox{d}x

Soit VV l’espace des fonctions continues sur [0,π2][0,\frac{\pi}{2}] avec son produit scalaire f|g= 0 π2f(x)g(x)dx.\langle f|g \rangle = \int_0^{\frac{\pi}{2}}f(x)g(x)\mbox{d}x. On vérifie que |\langle | \, \rangle est un produit scalaire sur VV. Considérons maintenant le sous-espace WW de VV défini par W=Vect(1,x)={f|f:xa+bx,a,b}.W=\mbox{Vect}(1,x)=\{f| f:x\mapsto a+bx, a,b\in\mathbb{R} \}. Le problème de minimisation se reformule alors ainsi:

Trouver gWg\in W tel que cos(x)g(x)|cos(x)g(x)\langle \cos(x)-g(x)|\cos(x)-g(x)\rangle 3 soit minimal.

Autrement dit, on cherche gWg\in W tel que cos(x)g(x)\|\cos(x)-g(x)\| soit minimal. On connait la solution, c’est g=p W(cos(x))g=p_W(\cos(x)). On cherche donc à calculer la projection orthogonale de cos(x)\cos(x) sur W=Vect(1,x)W=\mbox{Vect}(1,x).

Appliquons le procédé de Gram-Schmidt à la base e 1=1,e 2=xe_1=1,e_2=x de WW. v 1=e 1e 1=2πv_1=\frac{e_1}{\| e_1\|}=\sqrt{\frac{2}{\pi}} f 2=e 2v 1|e 2v 1=(xπ4)f_2=e_2-\langle v_1|e_2\rangle v_1=(x-\frac{\pi}{4}) v 2=xπ4xπ4v_2= \frac{x-\frac{\pi}{4}}{\| x-\frac{\pi}{4}\|}

On a alors g=p W(cos(x))=1|cos(x)1|11+xπ4|cos(x)xπ4|xπ4(xπ4)=ax+bg=p_W(\cos(x))=\frac{\langle 1|\cos(x)\rangle}{\langle 1|1\rangle}1+\frac{\langle x-\frac{\pi}{4}|\cos(x)\rangle}{\langle x-\frac{\pi}{4}|x-\frac{\pi}{4}\rangle}(x-\frac{\pi}{4})= ax+b le calcul donne a=(24π 296π 3)a= (\frac{24}{\pi^2}-\frac{96}{\pi^3}) et b=(4π+24π 2)b= (\frac{-4}{\pi}+\frac{24}{\pi^2}) :

4.5.5  Projection sur les polynômes trigonométriques

On peut aussi vouloir approximer une fonction f:[a,b]f:[a,b]\to\mathbb{R} par une fonction autre qu’une droite. Par exemple, on peut vouloir approximer ff par une fonction gg appartenant à un sous-espace vectoriel WW des fonctions continues sur [a,b][a,b], de façon à ce que l’intégrale a b(f(t)g(t)) 2dt\int_a^b(f(t)-g(t))^2\mbox{d}t soit minimale, lorsque gg décrit WW.

Considérons le problème posé dans l’introduction, celui d’approcher une fonction par des sommes trigonométriques. Soit f:[L,L]f:[-L,L]\rightarrow \mathbb{R} une fonction que l’on supposera continue : on veut approximer ff par une somme finie de fonctions trigonométriques S n(f):=a 0+ k=1 na kcos(2kπxL)+b ksin(2kπxL).S_n(f):=a_0+\sum_{k=1}^n a_k\cos(\frac{2 k\pi x}{L})+ b_k\sin(\frac{2 k\pi x}{L}). On veut trouver les coefficients a ka_k et b kb_k tels que l’intégrale L L(f(t)S n(f)(t)) 2dt\int_{-L}^L(f(t)-S_n(f)(t))^2\mbox{d}t soit minimale.

Soit VV l’espace vectoriel des fonctions continues sur [L,L][-L,L] à valeurs rélles C 0([L,L],)C^0([-L,L], \mathbb{R}) et WW le sous-espace vectoriel de VV engendré par 1,cos(2kπxL),sin(2kπxL),k=1,,n.1, \ \cos(\frac{2 k\pi x}{L}),\sin(\frac{2 k\pi x}{L}),k=1,\ldots,n. Autrement dit, WW est l’ensemble de fonctions de la forme g(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g(x)=a_0+\sum_{k=1}^n a_k\cos(\frac{k\pi x}{L})+ b_k\sin(\frac{k\pi x}{L}). Considérons le produit scalaire sur VV f|g= L Lf(t)g(t)dt.\langle f|g\rangle=\int_{-L}^Lf(t)g(t)\mbox{d}t. Le raisonnement précédent montre que la meilleure approximation S n(f)S_n(f) est donnée par p W(f)p_W(f). Or, on peut vérifier que 12L,1Lcos(2kπxL),1Lsin(2kπxT),k=1,,n\frac{1}{\sqrt{2L}}, \sqrt{\frac{1}{L}}\cos\left(\frac{2 k\pi x}{L}\right),\sqrt{\frac{1}{L}}\sin\left(\frac{2 k\pi x}{T}\right),k=1,\ldots,n fournit une base orthonormée de WW – nous reviendrons en détail sur ce calcul dans le dernier chapitre.

La formule pour la projection orthogonale p W(f)p_W(f) nous donne alors p W(f)=1|f12L+ k=1 n1Lcos(kπxL)|fcos(kπxL)+1Lsin(kπxL)|fsin(kπxL)p_W(f)=\langle 1|f\rangle\frac{1}{2L}+\sum_{k=1}^n \frac{1}{L}\langle \cos(\frac{k\pi x}{L})|f\rangle \cos(\frac{k\pi x}{L})+ \frac{1}{L}\langle \sin(\frac{ k\pi x}{L})|f\rangle \sin(\frac{ k\pi x}{L})

=12L L Lf(t)dt+1L L Lf(t)cos(kπtL)dtcos(kπxL)+1L L Lf(t)sin(kπtL)dtsin(kπxL).= \frac{1}{2L}\int_{-L}^L f(t)dt+ \frac{1}{L}\int_{-L}^L f(t)\cos(\frac{k\pi t}{L})\mbox{d}t \cos(\frac{k\pi x}{L})+ \frac{1}{L}\int_{-L}^L f(t)\sin(\frac{ k\pi t}{L})\mbox{d}t \sin(\frac{ k\pi x}{L}). Les choix de coefficients a 0,a k,b ka_0, a_k, b_k qui minimisent cette intégrale sont donc donnés par a 0=12L L Lf(t)dta_0= \frac{1}{2L}\int_{-L}^L f(t)dt a k=1L L Lf(t)cos(kπtL)dt,a_k=\frac{1}{L}\int_{-L}^L f(t)\cos(\frac{ k\pi t}{L})\mbox{d}t, b k=1L L Lf(t)sin(kπtL)dt.b_k=\frac{1}{L}\int_{-L}^L f(t)\sin(\frac{ k\pi t}{L})\mbox{d}t.

4.6  Diagonalisation orthogonale des matrices symétriques.

Nous présentons ici un théorème sur la diagonalisation des matrices symétriques. On commence par un lemme.

Lemme 1   Soit