Algorithmes de calcul formel et numérique

B. Parisse
Institut Fourier
UMR 5582 du CNRS
Université de Grenoble

Giac/Xcas est un logiciel libre de calcul formel dont une caractéristique est de nécessiter peu de ressources sans sacrifier les performances (en particulier sur les calculs polynomiaux). Ce document décrit une partie des algorithmes de calcul formel et numérique qui y sont impleémentés, l’objectif à long terme est de couvrir l’essentiel des algorithmes implémentés. Ce n’est pas le manuel d’utilisation de Xcas, ni un manuel de programmation ou d’exercices illustrés avec Xcas (voir le menu Aide, Manuels : Référence calcul formel, Programmation, Exercices, Amusements...). Ce texte regroupe donc des résultats mathématiques qui ont été ou sont utilisés dans Giac (ou sont susceptibles de l’être), ils sont en général accompagnés de preuves et souvent d’illustrations avec Xcas.
Pour plus d’informations sur Giac/Xcas, cf. :
www-fourier.ujf-grenoble.fr/~parisse/giac_fr.html

N.B.: La version HTML de ce document comporte des champs de saisie interactifs, ceux-ci apparaissent comme des commandes “mortes” dans la version PDF (elles sont exécutées une fois pour toutes par la version non interactive de giac). La version HTML est optimisée pour le navigateur Firefox. Elle est générée avec hevea.inria.fr de Luc Maranget, ou le fork de Yannick Chevallier pour le support mathjax, ainsi qu’une version modifiée de itex2MML de Jacques Distler pour la conversion en MathML. Si vous avez une machine très puissante, vous pouvez exécuter toutes les commandes interactives en cliquant sur le bouton Exécuter. En-dessous de ce bouton se trouve la console de l’interpréteur du logiciel de calcul formel.

Table des matières

Chapitre 1  Plan et index

L’index commence page suivante dans la version PDF.

Quelques conseils de lecture :

Index

Chapitre 2  Trousse de survie Xcas

Cette section peut être vue comme un tutoriel très abrégé pour rapidement prendre en main Xcas par des exemples au niveau fin de licence master de mathématique et préparation aux concours de recrutement d’enseignants. Le lecteur pourra consulter le tutoriel calcul formel (menu Xcas, Aide, Débuter en calcul formel, tutoriel) pour plus de détails ou/et à un niveau mathématique moins élevé.

2.1  Utilisation comme super-calculatrice

2.2  Calcul exact

2.2.1  Arithmétique

2.2.2  Algèbre linéaire exacte

2.3  Calcul scientifique

2.3.1  Analyse numérique

2.3.2  Algèbre linéaire numérique

Chapitre 3  Calculer sur ordinateur

3.1  Représentation des entiers

Proposition 1   Division euclidienne de deux entiers : si aa et bb sont deux entiers, a0,b>0a \geq 0, b>0, il existe un unique couple (q,r)(q,r) tel que a=bq+r,r[0,b[ a = bq +r , \quad r \in [0, b[

Preuve : On prend pour qq le plus grand entier tel que abq0a-bq \geq 0.
Exemple :

La division euclidienne permet d’écrire un nombre entier, en utilisant une base bb et des caractères pour représenter les entiers entre 0 et b1b-1. Nous écrivons les nombres entiers en base b=10b=10 avec comme caractères les chiffres de 0 à 9. Les ordinateurs utilisent des circuits binaires pour stocker les informations, il est donc naturel d’y travailler en base 2 en utilisant comme caractères 0 et 1 ou en base 16 en utilisant comme caractères les chiffres de 0 à 9 et les lettres de A à F. En général, pour trouver l’écriture d’un nombre en base bb (par exemple b=2b=2), on effectue des divisions euclidienne successives par bb du nombre puis de ses quotients successifs jusqu’à ce que le quotient soit 0 et on accolle les restes obtenus (premier reste à droite, dernier reste à gauche). Inversement, pour retrouver un entier dd à partir de son écriture d n...d 0d_n...d_0, on traduit les divisions euclidiennes successives en d = (...((d nb+d n1)b+d n2)...+d 1)b+d 0 = d nb n+d n1b n1+...+d 0 \begin{matrix} d &=&( ... ((d_n b +d_{n-1})b + d_{n-2})...+d_1)b+d_0\\ &=& d_n b^n + d_{n-1} b^{n-1} + ... + d_0 \end{matrix} Par exemple, vingt-cinq s’écrit en base 16 0x19 car 25 divisé par 16 donne quotient 1, reste 9


En base 2, on trouverait 0b11001 car 25=2 4+2 3+125=2^4+2^3+1.


On peut effectuer les opérations arithmétiques de base (+,-,*, division) directement en base 2 (ou 16). Par exemple la table de l’addition est 0+0=0, 0+1=1+0=1 et 1+1=0 je retiens 1, donc :

  01001111
+ 01101011
----------
  10111010

Exercice : comment passe-t-on simplement de la représentation d’un nombre en base 2 à un nombre en base 16 et réciproquement ?

Les microprocesseurs peuvent effectuer directement les opérations arithmétiques de base sur les entiers “machine” (déclinés en plusieurs variantes selon la taille et la possibilité d’avoir un signe). Noter que la division de deux entiers aa et bb n’a pas la même signification que la division de deux réels, comme elle ne tomberait pas forcément juste, on calcule le quotient et le reste de la division euclidienne.

Ces entiers machines permettent de représenter de manière exacte des petits entiers relatifs par exemple un entier machine signé sur 4 octets est compris entre [2 31,2 311][-2^{31},2^{31}-1].

Ces entiers machines permettent de faire très rapidement du calcul exact sur les entiers, mais à condition qu’il n’y ait pas de dépassement de capacité, par exemple pour des entiers 32 bits, 2 30+2 30+2 30+2 302^{30}+2^{30}+2^{30}+2^{30} renverra 0. Ils sont utilisables avec tous les langages de programmation traditionnels.

Les logiciels de calcul formel et certains logiciels de programmation permettent de travailler avec des entiers de taille beaucoup plus grande, ainsi qu’avec des rationnels, permettant de faire du calcul exact, mais on paie cette exactitude par un temps de calcul plus long, de plus pas mal de méthodes numériques ne gagnent rien à faire des calculs intermédiaires exacts. Néanmoins, l’utilisation d’un logiciel de calcul formel permettra dans certains cas d’illustrer certains phénomènes dus au calcul approché.

3.2  Les réels

On se ramène d’abord au cas des réels positifs, en machine on garde traditionnellement un bit pour stocker le signe du réel à représenter.

3.2.1  Virgule fixe et flottante.

La première idée qui vient naturellement serait d’utiliser un entier et de déplacer la virgule d’un nombre fixe de position, ce qui revient à mulitplier par une puissance (négative) de la base. Par exemple en base 10 avec un décalage de 4, 1234.5678 serait représenté par 12345678 et 1.2345678 par 12345 (on passe de l’entier au réel par multiplication par 10 410^{-4}. L’inconvénient d’une telle représentation est qu’on ne peut pas représenter des réels grands ou petits, comme par exemple le nombre d’Avogadro, la constante de Planck, etc.

D’où l’idée de ne pas fixer la position de la virgule, on parle alors de représentation à virgule flottante ou de nombre flottant : on représente un nombre par deux entier, l’un appelé mantisse reprend les chiffres significatifs du réel sans virgule, l’autre l’exposant, donne la position de la virgule. Attention, le séparateur est un point et non une virgule dans la grande majorité des logiciels scientifiques. On sépare traditionnellement la mantisse de l’exposant par la lettre e. Par exemple 1234.5678 peut être représenté par 12345678e-8 (mantisse 12345678, exposant -8) mais aussi par 1234567800e-10.

Naturellement, sur un ordinateur, il y a des limites pour les entiers représentant la mantisse mm et l’exposant ee. Si on écrit les nombres en base bb, la mantisse mm s’écrira avec un nombre nn fixé de chiffres (ou de bits en base 2), donc m[0,b n[m \in [0,b^n[. Soit un réel xx représenté par x=mb e,m[0,b n[ x=mb^e, \quad m \in [0,b^n[ Si m[0,b n1[m\in [0,b^{n-1}[, alors on peut aussi écrire x=mb e1x=m' b^{e-1} avec m=mb[0,b n[m'=mb \in [0,b^n[, quelle écriture faut-il choisir? Intuitivement, on sent qu’il vaut mieux prendre mm' le plus grand possible, car cela augmente le nombre de chiffres significatifs (alors que des 0 au début de mm ne sont pas significatifs). Ceci est confirmé par le calcul de l’erreur d’arrondi pour représenter un réel. En effet, si xx est un réel non nul, il ne s’écrit pas forcément sous la forme mb emb^e, on doit l’arrondir, par exemple au plus proche réel de la forme mb emb^e. La distance de xx à ce réel est inférieure ou égale à la moitié de la distance entre deux flottants consécutifs, mb emb^e et (m+1)b e(m+1)b^e, donc l’erreur d’arrondi est inférieure ou égale à b e/2b^e/2. Si on divise par xmb ex \geq mb^e, on obtient une erreur relative d’arrondi majorée par 1/(2m)1/(2m). On a donc intérêt à prendre mm le plus grand possible pour minimiser cette erreur. Quitte à mulitplier par bb, on peut toujours se ramener (sauf exceptions, cf. ci-dessous), à m[b n1,b n[m \in [b^{n-1},b^n[, on a alors une erreur d’arrondi relative majorée par 12b n1 \frac{1}{2b^{n-1}}

On appelle flottant normalisé un flottant tel que m[b n1,b n[m \in [b^{n-1},b^n[. Pour écrire un réel sous forme de flottant normalisé, on écrit le réel en base bb, et on déplace la virgule pour avoir exactement nn chiffres non nuls avant la virgule et on arrondit (par exemple au plus proche). L’exposant est égal au décalage effectué. Notez qu’en base 2, un flottant normalisé commence forcément par 1, ce qui permet d’économiser un bit dans le stockage.

Ainsi, l’erreur d’arrondi commise lorsqu’on représente un réel (connu exactement) par un double normalisé est une erreur relative inférieure à de 2 532^{-53} (b=2b=2 et n=52+1n=52+1 pour les doubles).

Exemples :

Il existe une exception à la possibilité de normaliser les flottants, lorsqu’on atteint la limite inférieure de l’exposant ee. Soit en effet e me_m le plus petit exposant des flottants normalisés et considérons les flottants x=b e m(1+1/b)x=b^{e_m}(1+1/b) et y=b e my=b^{e_m}. Ces flottants sont distincts, mais leur différence n’est plus représentable par un flottant normalisé. Comme on ne souhaite pas représenter xyx-y par 0, (puisque le test x==yx==y renvoie faux), on introduit les flottants dénormalisés , il s’agit de flottants dont l’exposant est l’exposant minimal représentable sur machine et dont la mantisse appartient à [0,b n1[[0,b^{n-1}[. Par exemple 0 est représenté par un flottant dénormalisé de mantisse 0 (en fait 0 a deux reprśentation, une de signe positif et une de signe négatif).

Enfin, on utilise traditionnellement une valeur de l’exposant pour représenter les nombres plus grands que le plus grand réel reprśentable sur machine (traditionnellement appelé plus ou moins infini) et les erreurs (par exemple 0./0. ou racine carrée d’un nombre réel négatif, traditionnellement appelé NaN, Not a Number).

Exercice : quels sont les nombres réels représentables exactement en base 10 mais pas en base 2 ? Si on écrit 1/101/10 en base 2 avec 53 bits de précision, puis que l’on arrondit avec 64 bits de précision, ou si on écrit 1/101/10 en base 2 avec 64 bits de précision, obtient-on la même chose ?

Les ordinateurs reprśentent généralement les flottants en base 2 (cf. la section suivante pour plus de précisions), mais cette représentation n’est pas utilisée habituellement par les humains, qui préfèrent compter en base 10. Les ordinateurs effectuent donc la conversion dans les routines d’entrée-sortie. Le format standard utilisé pour saisir ou afficher un nombre flottant dans un logiciel scientifique est composé d’un nombre à virgule flottante utilisant le point comme séparateur décimal (et non la virgule) suivi si nécessaire de la lettre e puis de l’exposant, par exemple 1.23e-5 ou 0.0000123. Dans les logiciels de calcul formel, pour distinguer un entiers représentés par un entier d’un entier représenté par un flottant on écrit l’entier suivi de .0 par exemple 23.0.

Remarque :
Les microprocesseurs ayant un mode BCD peuvent avoir un format de représentation des flottants en base 10, les nombres décimaux comme par exemple 0.3 peuvent être représentés exactement. Certains logiciels, notamment maple, utilisent par défaut des flottants logiciels en base 10 sur des microprocesseurs sans mode BCD, ce qui entraine une baisse de rapidité importante pour les calculs numériques (on peut partiellement améliorer les performances en utilisant evalhf en maple).

3.2.2  Les flottants au format double

Cette section développe les notions de la section précédente pour les flottants machine selon la norme IEEE-754, utilisables dans les langage de programmation usuels, elle peut être omise en première lecture. La représentation d’un double en mémoire se compose de 3 parties : le bit de signe s=±1s=\pm 1 sur 1 bit, la mantisse M[0,2 52[M \in [0,2^{52}[ sur 52 bits, et l’exposant e[0,2 11[e \in [0, 2^{11}[ sur 11 bits. Pour les nombres “normaux”, l’exposant est en fait compris entre 1 et 2 1122^{11}-2, le nombre représenté est le rationnel (1+M2 52)2 e+12 10 (1+\frac{M}{2^{52}}) 2^{e+1-2^{10}} Pour écrire un nombre sous cette forme, il faut d’abord chercher par quel multiple de 2 il faut le diviser pour obtenir un réel rr dans [1,2[[1,2[, ce qui permet de déterminer l’exposant ee. Ensuite on écrit la représentation en base 2 de r1[0,1[r-1 \in [0,1[. Exemples :

On observe que la représentation en base 2 de 6.4 a du être arrondie (car elle est infinie en base 2) bien qu’elle soit exacte (finie) en base 10. Seuls les entiers et les rationnels dont le dénominateur est une puissance de 2 peuvent être représentés exactement. Ceci entraine des résultats qui peuvent surprendre comme par exemple le fait que 0.5 - 5*0.1 n’est pas nul.

Des représentations spéciales (avec e=0e=0 ou e=2 111e=2^{11}-1) ont été introduites pour représenter ±\pm \infty (pour les flottants plus grands en valeur absolue que le plus grand flottant représentable), et pour représenter les nombres non nuls plus petits que le plus petit flottant représentable de la manière exposée ci-dessus (on parle de flottants dénormalisés), ainsi que le nombre NaN (Not a Number) lorsqu’une opération a un résultat indéfini (par exemple 0/0).

Remarque : Sur les processeurs compatibles avec les i386, le coprocesseur arithmétique i387 gère en interne des flottants avec 80 bits dont 64 bits de mantisse. Sur les architectures 64 bits (x86 ou AMD), le jeu d’instruction SSE permet de travailler avec des flottants de 128 bits. Le compilateur gcc permet d’utiliser ces flottants longs avec le type long double ou les types __float80 et __float128 en utilisant un drapeau de compilation du type -msse

3.2.3  Opérations sur les flottants

Les opérations arithmétiques de base sur les flottants se font de la manière suivante :

3.2.4  Erreurs

La représentation des nombres réels par des doubles présente des avantages, les opérations arithmétiques sont faites au plus vite par le microprocesseur. Les coprocesseurs arithmétiques (intégrés sur les microprocesseurs de PC) proposent même le calcul des fonctions usuelles (trigonométriques, racine carrée, log et exp) sur le type double et utilisent des formats de représentation interne ayant plus de 64 bits pour les doubles, ce qui permet de limiter les erreurs d’arrondi. Par contre, des erreurs vont être introduites, on parle de calcul approché par opposition au calcul exact sur les rationnels. En effet, la représentation doit d’abord arrondir tout réel qui n’est pas un rationnel dont le dénominateur est une puissance de 2. Ensuite chaque opération va entrainer une propagation de ces erreurs et va y ajouter une erreur d’arrondi sur le résultat. Enfin, l’utilisation du type double peut provoquer un dépassement de capacité (par exemple 100!*100!).

Pour diminuer ces erreurs et les risques de dépassement de capacité, il existe des types flottants multiple précision, qui permettent de travailler avec un nombre fixé à l’avance de décimales et une plage d’exposants plus grande. Les calculs sont plus longs mais les erreurs plus faibles. Attention, il s’agit toujours de calcul approché! De plus, pour des quantités dont la valeur est déterminée de manière expérimentale, la source principale de propagation d’erreurs est la précision des quantités initiales, il ne sert souvent à rien d’utiliser des types flottants multiprécision car les erreurs dus à la représentation (double) sont négligeables devant les erreurs de mesure. Dans ce cas, il est pertinent lorsqu’on évalue f(x)f(x) avec xx mal connu de calculer aussi f(x)f'(x), en effet : f(x(1+h))=f(x)+xhf(x)+O(h 2)f(x(1+h))= f(x)+xh f'(x) + O(h^2) l’erreur relative sur f(x)f(x) est donc au premier ordre multipliée par |xf(x)f(x)||\frac{xf'(x)}{f(x)}| Par exemple, l’erreur relative sur e xe^x est au premier ordre l’erreur relative sur xx multipliée par |x||x|.


3.2.5  Erreur absolue, relative, arrondi propagation des erreurs.

On a vu précédemment que pour représenter un réel, on devait l’arrondir, ce qui introduit une erreur même si le réel est connu exactement (par exemple 1/10). Voyons comment se propagent les erreurs dans les opérations arithmétiques de base : on distingue l’addition, la multiplication et l’inversion. La soustraction se ramène à l’addition car le calcul de l’opposé n’introduit aucune erreur nouvelle. Pour l’addition, si |xx 0|ε 0|x -x_0| \leq \varepsilon_0 et si |yy 0|ε 1|y-y_0| \leq \varepsilon_1 alors par l’inégalité triangulaire (|a+b||a|+|b||a+b|\leq |a|+|b|), on a : |(x+y)(x 0+y 0)||xx 0|+|yy 0|ε 0+ε 1 |(x+y)-(x_0+y_0)| \leq |x-x_0| + | y-y_0 | \leq \varepsilon_0 + \varepsilon_1 on dit que les erreurs absolues s’additionnent.

Définition 2   L’erreur absolue est définie comme un majorant de la valeur absolue de la différence entre le nombre réel et son représentant double : |xx 0|ε |x-x_0| \leq \varepsilon

Mais comme il faut représenter x 0+y 0x_0+y_0 en machine, on doit ajouter une erreur d’arrondi, qui est proportionnelle à la valeur absolue de x 0+y 0x_0+y_0 d’où la notion d’erreur relative :

Définition 3   L’erreur relative est égale à l’erreur absolue divisée par la valeur absolue du nombre |xx 0|ε|x 0| |x-x_0| \leq \varepsilon |x_0|

Remarquons au passage que les erreurs de mesure expérimentales sont pratiquement toujours des erreurs relatives.

Donc lorsqu’on effectue une addition (ou une soustraction) de deux réels sur machine, on doit additionner les deux erreurs absolues sur les opérandes et ajouter une erreur d’arrondi (relative de 2 532^{-53}, à titre d’exercice, on pourra vérifier que cette erreur d’arrondi est majorée par l’erreur absolue de la somme x+yx+y dès l’instant où xx et yy ont eux-même une erreur d’arrondi).

Lorsqu’on effectue une multiplication de deux nombres x,yx,y dont les représentants x 0,y 0x_0,y_0 sont non nuls, on a |xyx 0y 0x 0y 0|=|xx 0yy 01|=|(xx 01)(yy 01)+(xx 01)+(yy 01)| \left| \frac{xy-x_0 y_0}{x_0 y_0} \right| = \left| \frac{x}{x_0} \frac{y}{y_0} -1 \right| = \left| (\frac{x}{x_0}-1)(\frac{y}{y_0} -1)+(\frac{x}{x_0}-1)+(\frac{y}{y_0} -1) \right| l’erreur relative est donc la somme des erreurs relatives et du produit des erreurs relatives (on peut souvent négliger le produit devant la somme). Il faut aussi y ajouter une erreur relative d’arrondi de 2 532^{-53} sur x 0y 0x_0 y_0.

On observe que la multiplication est une opération posant moins de problèmes que l’addition, car on manipule toujours des erreurs relatives, par exemple si l’erreur relative sur deux doubles xx et yy non nuls est de 2 532^{-53}, alors l’erreur relative sur xyxy sera de 2 53+2 53+2 106+2 533×2 53 2^{-53} + 2^{-53} + 2^{-106} + 2^{-53} \approx 3 \times 2^{-53} Lorsque l’erreur relative sur les données est grande devant 2 532^{-53}, l’erreur relative d’arrondi final est négligeable, on peut alors dire que les erreurs relatives s’additionnent pour un produit (c’est aussi vrai pour un quotient: exercice!). Par contre, si on additionne deux nombres dont le représentant de la somme est proche de 0, la somme des erreurs absolues peut devenir non négligeable par rapport à la somme des représentants, entrainant une erreur relative très grande. Par exemple si xx est représenté par x 0=1+2 52x_0=1+2^{-52} avec une erreur d’arrondi de 2 532^{-53} et yy par y 0=1y_0=-1 avec la même erreur d’arrondi, l’addition de xx et yy renvoie 2 522^{-52} avec une erreur absolue de 2*2 532 * 2^{-53} (ici il n’y a pas d’arrondi lorsqu’on fait la somme). C’est une erreur relative de 11 (qui domine largement l’erreur d’arrondi) ce qui signifie que dans la mantisse, seul le premier bit sur les 52 a un sens, la perte de précision est très grande.

Une autre conséquence importante est que l’addition de réels sur machine n’est pas une opération associative, par exemple (2.0 53+2.0 53)+1.01+2 52 (2.0^{-53}+2.0^{-53})+1.0 \rightarrow 1+2^{-52} alors que 2.0 53+(2.0 53+1.0)1 2.0^{-53}+(2.0^{-53}+1.0) \rightarrow 1 Dans Xcas, il n’y a que 48 bits de mantisse :

Si on a plusieurs termes à additionner, il faut commencer par additionner entre eux les termes les plus petits, pour que les petits termes ne soient pas absorbés un à un dans les erreurs d’arrondi (les petits ruisseaux font les grands fleuves).

Exercice : pour calculer la valeur numérique d’une dérivée de fonction, il vaut mieux calculer (f(x+h)f(xh))/(2h)(f(x+h)-f(x-h))/(2h) que (f(x+h)f(x))/h(f(x+h)-f(x))/h car le terme d’erreur est en O(h 2)O(h^2) et non en O(h)O(h). Attention toutefois à ne pas prendre hh trop petit, sinon x+h=xx+h=x en flottants et même si x+hxx+h \neq x, l’erreur absolue sur f(x+h)f(xh)f(x+h)-f(x-h) est (au moins) d’ordre ε|f(x)|\varepsilon |f(x)|, donc l’erreur relative est d’ordre ε/h|f(x)|\varepsilon/h |f(x)|. Par exemple pour h=1e-8 le reste est en O(h 2)O(h^2) donc de l’ordre des erreurs d’arrondi mais l’erreur relative sur f(x+h)f(xh)f(x+h)-f(x-h) est d’ordre ε/h\epsilon/h largement supérieure (en flottants double-précision). On choisira plutôt hh tel que ε/h\epsilon/h soit proche de h 2h^2, donc de l’ordre de 1e-5, qui fournira une valeur approchée avec une erreur relative de l’ordre de 1e-10. Exemple : calcul de la dérivée numérique de exp(sin(x))\exp(\sin(x)) en x=1x=1

Remarquons néanmoins que les erreurs calculées ici sont des majorations des erreurs réelles (ou si on préfère l’erreur obtenue dans le pire des cas), statistiquement les erreurs sur les résultats sont moindres, par exemple si on effectue nn calculs susceptibles de provoquer des erreurs indépendantes suivant une même loi d’espérance nulle, la moyenne des erreurs divisée par l’écart-type de la loi tend vers une loi normale centrée réduite. De manière plus déterministe, on a l’inégalité de Bienaymé-Tchebyshev P(|X|>α)nσ 2α 2 P(|X|>\alpha) \leq \frac{n\sigma^2}{\alpha^2} XX est la variable aléatoire somme des nn erreurs, α\alpha l’erreur et nσ 2n\sigma^2 la variance de la somme nn erreurs supposées indépendantes, cette probabilité tend vers 0 pour nn grand si α\alpha est d’ordre nn, et ne tend pas vers 0 si α\alpha est de l’ordre de n\sqrt{n}. Exemple : somme de n=400n=400 nombres répartis sur [1,1][-1,1] selon la loi uniforme (représentant des erreurs), on divise par n=\sqrt{n}=20, on effectue plusieurs tirages (par exemple 500) on trace l’histogramme et on compare avec la loi normale de moyenne nulle (l’espérance de la somme) et d’écart-type celui de la loi uniforme.

Attention, si on effectue la somme de nn réels jx j\sum_j x_j, les erreurs d’arrondis ne satisfont pas à ces hypothèses. En effet, l’erreur d’arrondi à chaque opération est une erreur relative, l’erreur absolue correspondante est ε|x 1+x 2|\epsilon |x_1+x_2| puis ε|x 1+x 2+x 3|\epsilon |x_1+x_2+x_3| puis ... ε|x 1+x 2+...+x n|\epsilon |x_1+x_2+...+x_n|, que l’on peut majorer par ε((n1)|x 1|+(n2)|x 2|+...+|x n||)\epsilon ((n-1)|x_1|+(n-2)|x_2|+...+|x_n||) La majoration de l’erreur d’arrondi dépend donc de l’ordre des termes, on a intérêt à sommer en commençant par les termes les plus petits en valeur absolue. Mais on peut faire mieux, il est possible de corriger les erreurs d’arrondi dans une somme avec le programme suivant pour une liste (on peut bien sur adapter à la somme d’une expression dépendant d’une variable entière sans stocker de liste) :

Somme(l):={
  local x,s,c;
  s:=0.0;
  c:=0.0;
  pour x in l faire
    c += (x-((s+x)-s));
    s += x;
  fpour;
  print(c);
  return s+c;
}:;

onload
En effet, cc devrait valoir 0 sans erreurs d’arrondis, avec les erreurs d’arrondis, on a le premier calcul s+xs+x qui donnera une erreur opposée à celui du calcul de ss à la ligne suivante, le 2ième calcul effectué (s+x)s(s+x)-s donne une erreur absolue en ε|x|\epsilon |x| au pire (car c’est une erreur relative par rapport à (s+x)s(s+x)-s), et la 3ième erreur d’arrondi est négligeable (puisque la somme vaut 0). On a donc une erreur absolue sur s+cs+c qui est au premier ordre au pire en O(ε|x i|)O(\epsilon \sum|x_i|), bien meilleure que la majoration ε((n1)|x 1|+(n2)|x 2|+...+|x n||)\epsilon ((n-1)|x_1|+(n-2)|x_2|+...+|x_n||) calculée précédemment.

Par exemple
à comparer avec
(le calcul de SS est fait en exact, celui de sum(1. /j,j,1,n) est approché sans correction).

En conclusion, il est souvent très difficile de calculer une majoration rigoureuse de l’erreur pour des calculs (sauf les plus simples), et cette majoration est en général bien trop pessimiste. Lorsqu’on doute de la précision d’un calcul, un test peu couteux consiste à refaire ce calcul en utilisant des flottants en précision plus grande et tester si le résultat varie en fonction du nombre de chiffres significatifs utilisés, ou faire varier légèrement les données et observer la sensibilité du résultat. Si on veut travailler en toute rigueur sans pour autant calculer les erreurs à priori, il faut utiliser un logiciel utilisant des intervalles pour représenter les réels (section suivante)

3.3  L’arithmétique d’intervalle.

Certains systèmes de calcul formel peuvent manipuler directement des intervalles réels, par exemple par l’intermédiaire de la bibliothèque C MPFI. Les opérations arithmétiques sur des intervalles renvoient alors le meilleur intervalle possible contenant toutes les valeurs possibles lorsque les opérandes parcourent leurs intervalles respectifs. Exemple en Xcas (version 1.1.1 et ultérieures) : [-1..2]*[-1..2] renvoie [-2..4]. Attention ici on parcourt toutes les valeurs possibles de xy,x[1,2],y[1,2]xy, \ x \in [-1,2], y \in [-1,2]. Ce qui est différent du carré d’un intervalle ou plus généralement de l’évaluation d’un polynôme en un intervalle, horner(x^2,[-1..2]) renvoie ainsi [0..4].

Les fonctions disponibles sont souvent moins riches qu’en arithmétique flottante, le calcul d’une fonction non monotone sur un intervalle peut s’avérer délicat, alors que si la fonction est monotone, il suffit de calculer l’image des deux bornes de l’intervalle. Pour les polynômes, Xcas décompose les coefficients en deux parties P=P +P P=P_+-P_- en fonction du signe, puis utilise la monotonie de P +P_+ et P P_- sur +\mathbb{R}^+ et \mathbb{R}^- respectivement.

L’arithmétique d’intervalle dans \mathbb{C} est beaucoup plus difficile à mettre en oeuvre puisqu’il n’y a plus d’ordre ni de monotonie, on doit alors s’en remettre à des estimations sur les parties réelles et imaginaires qui ne tiendront pas compte du phénomène ci-dessus sur la différence entre xy,x[1,2],y[1,2]xy, \ x \in [-1,2], y \in [-1,2] et x 2,x[1,2]x^2, \ x \in [-1,2].

3.4  Calcul exact et approché, types, évaluation.

Dans les langages de programmation traditionnel (C, Pascal,...), il existe déjà des types permettant une représentation exacte des données (type entier) ou une représentation approchée (type flottant). Mais ces types de donnée de base occupent une taille fixe en mémoire, le type entier est donc limité à un intervalle d’entiers (par exemple [0,2 321][0,2^{32}-1] pour un entier non signé sur une machine utilisant un processeur 32 bits) alors que le type flottant peut représenter des nombres réels, mais est limité à une précision en nombre de digits de la mantisse et de l’exposant (par exemple 12 chiffres significatifs et un exposant compris entre -499 et 499).

En calcul formel, on souhaite pouvoir calculer rigoureusement d’une part, et avec des paramètres dont la valeur n’est pas connue d’autre part ; il faut donc s’affranchir de ces limites :

Enfin, il faut pouvoir évaluer un objet (en particulier symbolique) : par exemple évaluer sin(x)\sin(x) lorsqu’on assigne une valeur à xx. Dans cet exemple, on voit qu’il faut d’abord remplacer xx par sa valeur avant de lui appliquer la fonction sinus. C’est le mécanisme général de l’évaluation, mais il y a quelques exceptions où on souhaite empêcher l’évaluation d’un ou plusieurs arguments d’une fonction avant l’évaluation de la fonction. Par exemple si on veut calculer la valeur numérique d’une intégrale par des méthodes de quadrature, on ne souhaitera pas rechercher une primitive de la fonction à intégrer. Dans le jargon, on parle alors de “quoter” un argument (l’origine du terme vient probablement de la notation ' du langage Lisp). Certaines fonctions doivent toujours quoter leurs arguments (par exemple la fonction qui permet de purger le contenu d’un paramètre), on parle parfois d’autoquotation.

3.5  Forme normale et reconnaissance du 0.

Une fois défini ces types de base représentant les nombres d’un système de calcul formel, il faut pouvoir comparer ces nombres, en particulier décider si deux représentations distinctes correspondent au même nombre ou, ce qui revient au même, par soustraction décider quand un nombre est nul. Par exemple 4/24/2 et 2 représentent le même nombre. Lorsqu’on dispose d’un algorithme permettant de représenter un nombre d’une manière unique, on parle de forme normale. C’est par exemple le cas pour les nombres rationnels, la forme normale usuelle est la fraction irréductible de dénominateur positif. C’est aussi le cas pour les fractions rationnelles de polynômes à coefficients entiers représentées par une fraction irréductible, avec au dénominateur un coefficient de plus haut degré positif. Malheureusement, il n’est pas toujours possible de trouver une forme normale pour diverses raisons théoriques ou pratiques :

En résumé, au mieux on a une forme normale, au pire on risque de ne pas reconnaître un zéro, entre les deux on peut ne pas avoir de forme normale mais être capable de reconnaître à coup sûr une expression nulle (par contre, si le système de calcul formel détermine qu’une expression est nulle, alors elle l’est).

Il n’existe pas d’algorithme solution pour le problème de la reconnaissance du zéro pour une classe d’expressions "assez générale". Heureusement, dans la plupart des cas pratiques on sait résoudre ce problème, en se ramenant le plus souvent au cas des polynômes et fractions rationnelles. Par exemple, pour simplifier une expression trigonométrique, on remplace les fonctions trigonométriques sin(x),cos(x),tan(x)\sin(x), \cos(x), \tan(x) par leur expression en fonction de t=tan(x/2)t=\tan(x/2), on est ainsi ramené à une fraction rationnelle en tt que l’on écrit sous forme normale.

Les polynômes ont un rôle central dans tout système de calcul formel puisque sauf dans les cas les plus simples (fractions d’entiers par exemple), la simplification d’expressions fait appel à un moment ou à un autre à des calculs de PGCD de polynômes. Le PGCD de polynômes est un algorithme très sollicité auquel nous consacrerons une section. En effet, l’application brutale de l’algorithme d’Euclide pose des problèmes d’efficacité ce qui a obligé à inventer des méthodes plus efficaces. Anticipons rapidement sur un exemple qui montre l’un des problèmes majeurs des algorithmes de calcul formel, l’explosion en taille (ici des coefficients des restes successifs). Voici donc les restes successifs lorsqu’on applique l’algorithme d’Euclide pour calculer le PGCD de P(x)=(x+1) 7(x1) 6P(x)=(x+1)^{7}-(x-1)^{6} avec sa dérivée (les deux polynômes sont premiers entre eux) : 7×(x+1) 66×(x1) 5 16249×x 5+39049×x 4+106049×x 3+78049×x 2+47449×x+7849 157780729×x 4+5076402187×x 3+290864729×x 2+101528729×x+28028729 149×(14003282645×x 3+7328882645×x 2+11333523703×x+73288818515) 12187×(21618163768324669921×x 2+5554368469444669921×x+3019170248644669921) 1907235×(469345063045455129411872×x+47641670106615129411872) 5497465490623352995840209648836272383412129 \begin{matrix} 7\* (x+1)^{6}-6\* (x-1)^{5} & &\\ \frac{162}{49} \* x^{5}+\frac{-390}{49} \* x^{4}+\frac{1060}{49} \* x^{3}+\frac{-780}{49} \* x^{2}+\frac{474}{49} \* x+\frac{-78}{49}& &\\ \frac{157780}{729} \* x^{4}+\frac{-507640}{2187} \* x^{3}+\frac{290864}{729} \* x^{2}+\frac{-101528}{729} \* x+\frac{28028}{729}& &\\ \frac{1}{49} \* (\frac{1400328}{2645} \* x^{3}+\frac{-732888}{2645} \* x^{2}+\frac{1133352}{3703} \* x+\frac{-732888}{18515})& &\\ \frac{1}{2187} \* (\frac{2161816376832}{4669921} \* x^{2}+\frac{-555436846944}{4669921} \* x+\frac{301917024864}{4669921})& &\\ \frac{1}{907235} \* (\frac{469345063045455}{129411872} \* x+\frac{-47641670106615}{129411872})& &\\ \frac{5497465490623352995840}{209648836272383412129} \end{matrix} Le lecteur voulant tester d’autres exemples pourra utiliser le programme Xcas suivant :

pgcdderiv(a):={
  local b,r,res;
  b:=diff(a,x);
  res:=NULL;
  for (;b!=0;){
    res:=res,b;
    r:=rem(a,b);
    a:=b;
    b:=r;
  }
  return(res);
}



3.6  Valeur générique des variables et hypothèses

Lorsqu’on utilise un symbole sans lui affecter de valeurs en mathématiques on s’attend à une discussion en fonction du paramètre représenté par ce symbole. Ce qui nécessiterait de créer un arborescence de calculs (on retrouve ici les problèmes d’explosion évoqués dans la section précédente). La plupart des systèmes de calcul formel contournent la difficulté en supposant que le paramètre possède une valeur générique (par exemple la solution de (t 21)x=t1(t^2-1)x=t-1 sera x=1/(t+1)x=1/(t+1)) ou choisissent une branche pour les fonctions possédant un point de branchement (par exemple pour résoudre x 2=tx^2=t en fonction de tt). Certains systèmes demandent de manière interactive à l’utilisateur si la variable est par exemple positive ou différente de 1 mais cela s’oppose à un traitement automatique. On peut aussi anticiper ce type de décision en faisant des hypothèses sur une paramètre, la plupart des systèmes de calcul formel actuel proposent cette possibilité.

3.7  Structures de données

On a vu plus haut qu’on souhaitait manipuler des entiers de taille non fixe, des réels de précision fixe ou non, des fractions, des nombres complexes, des extensions algébriques, des paramètres, des expressions symboliques. La plupart des systèmes proposent un type générique qui recouvre ces divers types de scalaire. On peut par exemple utiliser un type structuré comportant un champ type et la donnée ou un pointeur sur la donnée (avec dans ce cas un pointeur sur un compteur de références de la donnée pour pouvoir la détruire dès qu’elle n’est plus référencée1). En programmation orientée objet, on utiliserait plutôt un type abstrait dont dérivent ces différents scalaires et le polymorphisme.

Il faut aussi un type pour les vecteurs, les matrices et les listes. Il faut prendre garde à la méthode utilisée par le système lorsqu’on modifie un élément d’un vecteur, matrice ou liste : soit on effectue une copie de tout l’objet en modifiant l’élément, soit on modifie l’élément de l’objet original. La première méthode (par valeur) est plus aisée à comprendre pour un débutant mais la seconde méthode (par référence) est bien plus efficace.

On peut se poser la question de savoir s’il faut inclure ces types dans le type générique ; en général la réponse est affirmative, une des raisons étant que les interpréteurs qui permettront de lire des données dans un fichier texte sont en général basé sur le couple de logiciels lex(flex)/yacc(bison) qui ne peut compiler qu’à destination d’un seul type. Ceci permet également d’unifier en un seul type symbolique les fonctions ayant un ou plusieurs arguments en voyant plusieurs arguments comme un vecteur d’arguments. Les fonctions sont le plus souvent elle-même incluses dans le type générique permettant ainsi à l’utilisateur de saisir des commandes ou programmes fonctionnels (on peut utiliser une fonction comme argument d’une commande).

Pour des raisons d’efficacité, les systèmes de calcul formel utilisent souvent des représentations particulières pour les polynômes dont on a dit qu’ils jouaient un rôle central. Pour les polynômes à une variable, on peut utiliser la liste des coefficients du polynôme, on parle alors de représentation dense. On peut aussi décider de ne stocker que les coefficients non nuls, on parle alors de représentation creuse (on stocke alors un couple formé par le coefficient et le degré du monôme correspondant). Pour les polynômes à plusieurs variables, on peut les considérer comme des polynômes à une variable à coefficients polynomiaux, on parle alors de représentation récursive. On peut aussi décider de ne pas briser la symétrie entre les variables (pas de variable principale), on parle alors de représentation distribuée, le plus souvent les représentation distribuées sont creuses car les représentations denses nécessitent très vite beaucoup de coefficients. Les méthodes de représentation creuses sont parfois aussi utilisées pour les matrices ayant beaucoup de coefficients nuls.

Voyons maintenant plus précisément sur quelques exemples de logiciels de calcul formel répandus quelles structures de données sont utilisées. Plusieurs éléments entrent en compte dans les choix faits :

Voyons quelques exemples, d’abord Giac, puis des systèmes pour ordinateur où les ressources (par exemple mémoire) sont moins limitées ce qui permet d’utiliser des langages de programmation de plus haut niveau. On termine par les calculatrices formelles HP et TI des années 20002. Ce sont des systèmes plutôt destinés à l’enseignement, soumis à de fortes contraintes en termes de taille mémoire, et destinés à traiter des petits problèmes.

3.7.1  Maple, Mathematica, ...

Ces systèmes ont un noyau fermé, au sens où l’utilisateur n’a pas accès du tout, ou en tout cas pas facilement, aux structures de données de base. Je ne dispose donc pas d’information sur les structures de données utilisées par le noyau.

L’interaction système-utilisateur se fait quasiment toujours en utilisant le langage de programmation propre au système, langage interprété par le noyau du système (ce qui ralentit l’exécution). Ces langages utilisateurs sont essentiellement non typés : on travaille avec des variables du type générique sans pouvoir accéder aux types sous-jacents. On ne bénéficie en général pas des vérifications faites lors de la compilation avec un langage typé, de plus ces systèmes ne sont pas toujours fourni avec de bon outils de mise au point. Enfin ces langages ne sont pas standardisés d’un système à l’autre et il est en général impossible d’utiliser ces systèmes comme des librairies depuis un langage de programmation traditionnel. Leur intérêt principal réside donc dans une utilisation interactive en profitant de la librairie de fonctions accessibles.

3.7.2  Giac/Xcas

Il s’agit du système de calcul formel que j’implémente actuellement sous forme d’une bibliothèque C++ (ce qui permettra aux programmes tiers d’utiliser beaucoup plus facilement du calcul formel qu’avec les systèmes précédents). L’objectif est d’avoir un système facile à programmer directement en C++, proche du langage utilisateur, lui-même compatible avec Maple ou MuPAD, tout cela sans trop perdre en performances comparativement aux librairies spécialisées écrites en C/C++. Ce qui explique un choix de type générique (gen) non orienté objet, avec un champ type et soit une donnée immédiate (pour les nombres flottants par exemple), soit un pointeur vers un objet du type correspondant au champ type pour les données de taille non fixe (on pourrait donc se contenter du langage C, mais le langage C++ permet de redéfinir les opérateurs sur des types utilisateurs ce qui améliore considérablement la lisibilité du code source). Les données dynamiques ne sont pas dupliquées, Giac utilise un pointeur sur un compteur de référence pour détruire ces données lorsqu’elles ne sont plus référencées.

Les entiers en précision arbitraire sont hérités de la bibliothque GMP (écrite en C) du projet GNU. Les flottants en précision arbitraire utiliseront aussi GMP (plus précisément MPFR). Il y a un type fraction, structure C composé d’un champ numérateur et d’un champ dénominateur, et un type nombre complexe.

Les listes, vecteurs, matrices utilisent le type paramétré vector<> de la librairie standard C++ (Standard Template Library). Les objets symboliques sont des structures composés d’un champ sommet qui est une fonction prenant un argument de type gen et renvoyant un résultat de type gen, et d’un champ feuille qui est de type gen. Lorsqu’une fonction possède plusieurs arguments, ils sont rassemblés en une liste formant le champ feuille de l’objet symbolique. Les programmes sont aussi des objets symboliques, dont le champ sommet est la fonction évaluation d’un programme. Les listes sont aussi utilisées pour représenter vecteurs, matrices et polynômes en une variable en représentation dense, on peut y accéder par valeur (:=) ou par référence (=<). Ces polynômes servent eux-mêmes á représenter des éléments d’une extension algébrique de \mathbb{Q} (vus comme un couple de polynômes P,QP,Q, où QQ est un polynome minimal irréductible à coefficients entiers, autrement dit P,QP,Q vaut P(α)P(\alpha)Q(α)=0Q(\alpha)=0), ou des éléments d’un corps fini (comme ci-dessus, mais ici QQ est à coefficients dans /p\mathbb{Z}/p\mathbb{Z} avec pp premier, cf. la commande GF). Giac posséde aussi un type pour les polynômes en représentation creuse distribuée en plusieurs indéterminées (cf. les commandes symb2poly et poly2symb).

L’évaluation d’un objet symbolique se fait en regardant d’abord si la fonction au sommet doit évaluer ou non ses arguments (autoquote), on évalue les arguments si nécessaire puis on applique la fonction.

Une hypthèse sur un paramètre est une valeur spéciale affectée au paramètre, valeur ignorée par la routine d’évaluation.

3.7.3  Calculatrices formelles HP48/49

Les langages utilisés pour programmer ces calculateurs sont l’assembleur et le RPL (Reverse Polish Lisp) adapté à l’écriture de code en mémoire morte très compact.

Le type générique est implémenté avec un champ type appelé prologue (qui est en fait un pointeur sur la fonction chargée d’évaluer ce type d’objet) suivi de la donnée elle-même (et non d’un pointeur sur la donnée, on économise ainsi la place mémoire du compteur de référence).

Le type entier en précision arbitraire est codé par le nombre de digits (sur 5 quartets3) suivi du signe sur un quartet et de la représentation BCD (en base 10) de la valeur absolue de l’entier. Le choix de la représentation BCD a été fait pour optimiser les temps de conversion en chaîne de caractères pour l’affichage. La mémoire vive disponible est de 256K, c’est elle qui limite la taille des entiers et non le champ longueur de l’entier. Il n’y a pas de type spécifique pour les rationnels (on utilise un objet symbolique normal).

Les fonctions internes des HP49/50/40 utilisent le type programme pour représenter les entiers de Gauß (complexes dont la partie réelle et imaginaire est entière). Les nombres algébriques ne sont pas implémentés, sauf les racines carrées (représentée de manière interne par le type programme). Il y a un type spécifique prévu pour les flottants en précision arbitraire, mais l’implémentation des opérations sur ces types n’a pas été intégrée en ROM à ce jour.

Les types listes, programmes et objet symbolique sont composés du prologue (champ type) suivi par la succession d’objets situés en mémoire vive ou de pointeurs sur des objets situés en mémoire en lecture seule (ROM) et se terminent par un pointeur sur une adresse fixe (appelée SEMI). Ces types sont eux-mêmes des objets et peuvent donc être utilisés de manière récursive. La longueur des types listes, programmes, symboliques n’est stockée nulle part, c’est le délimiteur final qui permet de la connaître, ce qui est parfois source d’inefficacité. On utilise de manière interne les listes pour représenter les polynômes denses (avec représentation récursive pour les polynômes à plusieurs variables).

Les calculatrices HP4xG utilisent une pile4, c’est-à-dire une liste de taille non fixée d’objets. On place les objets sur la pile, l’exécution d’une fonction prend ces arguments sur la pile et renvoie un ou plusieurs résultats sur la pile (ce qui est une souplesse du RPN comparé aux langages où on ne peut renvoyer qu’une valeur de retour). Il faut donc donner les arguments avant d’appeler la fonction correspondante. Par exemple pour calculer a+ba+b on tapera a b +. C’est la syntaxe dite polonaise inversée (RPN). Un avantage de cette syntaxe est que le codage d’un objet symbolique par cette syntaxe est évidente, il suffit de stocker la liste précédente {a b +}. Les objets symboliques sont donc représenté par une suite d’objets écrit en syntaxe polonaise inversée. L’évaluation d’un objet symbolique se fait dans l’ordre polonaise inversé : les arguments sont évalués puis les fonctions leur sont appliqués. Pour des raisons d’efficacité, on représente souvent les objets composites (listes, symboliques) par leurs composants placés sur la pile (appelé meta-objets).

Une rigidité de la syntaxe polonaise est que les fonctions ont toujours un nombre fixe d’arguments5, par exemple l’addition a toujours 2 arguments, ainsi a+b+ca+b+c est obtenu par (a+b)+c(a+b)+c ou par a+(b+c)a+(b+c) c’est-à-dire respectivement a b + c + ou a b c + + ce qui brise parfois artificiellement la symétrie de certaines opérations. En polonaise inversée, le système doit de plus jongler avec l’autoquote puisque les arguments sont évalués avant l’opérateur qui éventuellement demanderait à ne pas évaluer ses arguments. À noter l’existence d’une commande QUOTE permettant à l’utilisateur de quoter une sous-expression.

Les hypothèses sur des variables réelles sont regroupées dans une liste stockée dans la variable globale REALASSUME, on peut supposer qu’une variable est dans un intervalle. Il n’y a pas à ce jour de possibilité de supposer qu’une variable est entière (ni à fortiori qu’une variable à une valeur modulo un entier fixé), bien qu’il ait été décidé de réserver la variable globale INTEGERASSUME à cet effet. Il n’y a pas de possibilité de faire des hypothèses ayant une portée locale.

3.7.4  Calculatrices formelles TI92/89/Voyage 200

Le langage utilisé pour programmer ces calculatrices est le langage C (on peut aussi écrire du code en assembleur pour ces calculatrices). On retrouve ici les différents types de données regroupé en un type générique qui est un tableau d’octets (aussi appelé quantum). Le champ type est appelé tag dans la documentation TI. Contrairement à ce qui précède, ce champ type est placé en mémoire à la fin de l’objet, ce qui est possible car la longueur d’un objet est toujours indiquée au début de l’objet. Ceci est fait afin de faciliter l’évaluation (cf. infra).

Les entiers en précision arbitraire sont codés par un tag parmi deux (pour différencier le signe), un octet pour la longueur, puis la valeur absolue de l’entier (en base 256). Ils sont donc limités par le champ longueur à 255 octets, le plus grand entier représentable est 6 (256 2551)(256^{255}-1). Il existe un tag spécifique pour les rationnels, pour les constantes réelles et entières qui apparaissent par exemple en résolvant une équation. Il existe des tags utilisés de manière interne, par exemple pour les nombres complexes. Il n’y a pas de tag prévu pour les flottants en précision arbitraire. ni pour les nombres algébriques (racines carrées par exemple).

Les listes sont codées par la succession de leurs éléments. En principe elles ne peuvent pas contenir des listes (sauf pour représenter une matrice). Quelques fonctions utilisent les listes pour représenter des polynômes denses à une variable, mais probablement pas pour représenter de manière récursive des polynômes à plusieurs variables (puisque le type liste n’est en principe pas récursif).

Comme les HP, les TI utilisent une pile (non visible par l’utilisateur) appelée expression stack afin de traduire un expression mathématique sous forme d’un texte en un objet symbolique codé exactement comme ci-dessus en syntaxe polonaise. Toutefois, la présence du champ longueur permet d’évaluer un objet symbolique sans perdre en efficacité en partant de l’opérateur final et en redescendant ensuite sur ces arguments, c’est la stratégie adoptée. C’est pour cela que le tag d’identification se trouve à la fin de l’objet. L’utilisation de cette méthode facilite grandement l’autoquotation (on peut toutefois regretter que le système n’ait pas prévu d’instruction permettant à l’utilisateur d’empêcher l’évaluation d’une sous-expression).

On ne peut pas faire d’hypothèse globale sur un paramètre par contre on peut faire des hypothèses de type appartenance à un intervalle ayant une portée locale.

3.8  Algorithmes et complexité.

On va présenter dans la suite quelques algorithmes que l’on peut considérer comme classiques dans le domaine du calcul formel. Avant d’implémenter ce type d’algorithmes, on a besoin des algorithmes de base en arithmétique.

La plupart des problèmes posés en calcul formel nécessitent des calculs dont la taille croit de manière exponentielle voire doublement exponentielle en fonction de la taille des données et ce même si le résultat est lui aussi de taille petite. Un exemple est la réduction des systèmes de plusieurs équations polynomiales (bases de Groebner).

3.8.1  Algorithmes modulaires ou p-adiques

Dans certains cas, l’application de théories mathématiques parfois sophistiquées permet de réduire la complexité (par exemple, M. Van Hoeij a découvert récemment qu’un algorithme très utilisé en théorie des nombres, l’algorithme LLL, permettait d’améliorer la complexité d’une des étapes de la factorisation des polynomes à coefficients entiers sur les entiers). Heureusement, dans de nombreux cas, on peut réduire la complexité (donc le temps de calcul) par des adaptations au problème d’une même idée à condition de faire des hypothèses sur les données (autrement dit en abandonnant la volonté d’implémenter un algorithme très générique, ou tout au moins en spécialisant des algorithmes génériques). Par exemple lorsqu’on travaille avec des entiers (ou des polynômes à coefficients entiers, ou des matrices à coefficients entiers...) on utilise souvent des algorithmes modulaires et pp-adiques. Comme le calcul exact nécessite presque toujours de calculer avec des entiers, ces méthodes ont un rôle central en calcul formel, nous les présentons donc maintenant brièvement. Dans les prochaines sections, nous utiliserons ce type de méthode, par exemple pour le calcul de PGCD ou la factorisation de polynômes à coefficients entiers.

Les méthodes modulaires consistent à réduire un problème dans \mathbb{Z} à son équivalent dans /n\mathbb{Z}/n\mathbb{Z} pour une ou plusieurs valeurs de nn, nombre premier. Le calcul dans /n\mathbb{Z}/n\mathbb{Z} a l’avantage de se faire avec des entiers dont la taille est bornée. Ensuite à l’aide d’estimations à priori sur la taille des solutions éventuelles du problème initial, on reconstruit la solution au problème initial avec le théorème des restes chinois.

Par exemple, on peut calculer un déterminant d’une matrice à coefficients entiers en cherchant ce déterminant dans /n\mathbb{Z}/n\mathbb{Z} pour plusieurs nombres premiers nn, dont le produit est deux fois plus grand qu’une estimation à priori de la taille du déterminant (donnée par exemple par l’inégalité d’Hadamard, cf. Cohen, p. 50).

Les méthodes pp-adiques commencent de manière identique par un calcul dans /n\mathbb{Z}/n\mathbb{Z}, on augmente ensuite la précision de la solution en la «liftant»de /n k\mathbb{Z}/n^k \mathbb{Z} vers /n k+1\mathbb{Z}/n^{k+1}\mathbb{Z} ou vers /n 2k\mathbb{Z}/n^{2k}\mathbb{Z} (lift linéaire ou lift quadratique), on s’arrête lorsque kk est assez grand (à l’aide d’estimations à priori) et on reconstruit alors la solution initiale. L’étape de «lift»est en général un lemme de Hensel dont on verra quelques exemples dans les prochains articles. L’algorithme commun au lemme de Hensel et au théorème des restes chinois est l’identité de Bézout, que l’on retrouve d’ailleurs un peu partout (par exemple pour le calcul de primitives).

Illustrons cette méthode sur un exemple simple, la recherche de racines rationnelles d’un polynôme P(X)=a dX d++a 0P(X)=a_d X^d + \cdots + a_0 à coefficients entiers ou polynomiaux, avec a da_d et a 0a_0 non nuls. L’algorithme générique (assez connu) consiste à chercher les diviseurs de a 0a_0 et de a da_d et à tester toutes les fractions de ces diviseurs, on montre en effet aisément que si X=p/qX=p/q fraction irréductible est racine de PP alors qq divise a da_d et pp divise a 0a_0. Cet algorithme est très inefficace si a da_d ou a 0a_0 est un grand entier (car on ne sait pas forcément le factoriser) ou s’il a beaucoup de facteurs premiers (la liste des diviseurs à tester est alors très grande).

Lorsque les coefficients de PP sont entiers, la recherche précédente revient à trouver un facteur à coefficients entiers qXpqX-p de PP, on peut donc réduire le problème modulo un entier premier nn qui ne divise pas a da_d : si un tel facteur existe dans \mathbb{Z} alors ce facteur (réduit modulo nn) est un facteur de PP dans /n\mathbb{Z}/n\mathbb{Z} donc PP admet une racine dans /n\mathbb{Z}/n\mathbb{Z} (puisque qq est inversible modulo nn car on a choisi nn premier ne divisant pas a da_d). On évalue maintenant PP en les nn éléments de /n\mathbb{Z}/n\mathbb{Z}. S’il n’y a pas de 0, alors PP n’a pas de racine rationnelle. S’il y a des racines, on va les lifter de /n k\mathbb{Z}/n^k\mathbb{Z} dans /n 2k\mathbb{Z}/n^{2k}\mathbb{Z}.

On suppose donc que pour k1k\geq 1, il existe un entier p kp_k tel que P(p k)=0(modn k) P(p_k)=0 \pmod{n^k} Il s’agit de trouver un entier xx tel que p k+1=p k+n k×xp_{k+1}=p_k+n^k \* x vérifie P(p k+1)=0(modn 2k) P(p_{k+1})=0 \pmod{n^{2k}} On applique la formule de Taylor à l’ordre 1 pour PP en p kp_k, le reste est nul modulo n 2kn^{2k}, donc : P(p k)+n k×xP(p k)=0(modn 2k) P(p_k)+ n^k \* x P'(p_k)=0 \pmod{n^{2k}} soit finalement : x=P(p k)n k×(P(p k)(modn k)) 1 x=-\frac{P(p_k)}{n^k} \* ( P'(p_k) \pmod{n^k}) ^{-1} On reconnaît au passage la méthode de Newton, pour qu’elle fonctionne il suffit que P(p k)0(modn)P'(p_k) \neq 0 \pmod n ce qui permet de l’inverser modulo n kn^k (et c’est ici qu’intervient l’identité de Bézout). En pratique quand on factorise un polynôme, on commence par retirer les multiplicités, on peut donc supposer que PP est sans facteur multiple dans \mathbb{Z}. Ceci n’entraîne pas forcément qu’il le reste dans /n\mathbb{Z}/n\mathbb{Z} ce qui crée une contrainte supplémentaire sur le choix de nn, à savoir que PP et PP' restent premier entre eux dans /n\mathbb{Z}/n\mathbb{Z} (il existe forcément de tels nn, par exemple nn premier plus grand que le plus grand entier intervenant dans le calcul du PGCD de PP et PP' dans \mathbb{Z}).

Reste donc à revenir dans \mathbb{Z} à partir d’une racine p kp_k dans /(n k)\mathbb{Z}/(n^k \mathbb{Z}) (où on peut choisir kk). On va maintenant utiliser la représentation modulaire symétrique : on prend comme représentant modulaire d’un entier zz dans /n k\mathbb{Z}/n^k\mathbb{Z} l’unique entier congru à zz modulo nn qui est strictement compris entre n k/2-n^k/2 et n k/2n^k/2 (si nn est pair, la deuxième inégalité est choisie large).

Si qXpqX-p est un facteur de PP, alors a dXa dqpa_dX-\frac{a_d}{q}p est encore un facteur de PP (le quotient de PP par a dXa dqpa_dX-\frac{a_d}{q}p est à coefficients rationnels mais le facteur est à coefficients entiers). Si on a choisi kk tel que n k>2|a da 0|n^k&gt;2|a_d a_0|, l’écriture en représentation modulaire symétrique de a dXa dqpa_dX-\frac{a_d}{q}p est inchangée, en effet on a des estimations à priori sur les entiers pp et qq : |q||a d||q|\leq |a_d| et |p||a 0||p| \leq |a_0| puisque qq divise a da_d et pp divise a 0a_0. Comme a dXa dqpa_dX-\frac{a_d}{q}p est égal à a d(Xp k)a_d(X-p_k) dans /(n k)\mathbb{Z}/(n^k \mathbb{Z}), il nous suffit d’écrire en représentation modulaire symétrique a d(Xp k)=a dXpa_d(X-p_k)=a_d X-p'. Pour conclure, on sait que a dXpa_d X-p' est un multiple entier de qXpqX-p. On divise donc le facteur a dXpa_d X-p' par le pgcd de a da_d et pp' et on teste la divisibilité de PP par ce facteur réduit.

Exemple
Considérons le polynôme 2X 3X 2X32 X^3-X^2-X-3 qui est sans facteur carré. On ne peut pas choisir n=2n=2 car on réduirait le degré, pour n=3n=3, on a P=X1P'=X-1 qui est facteur de PP, pour n=5n=5, P=6X 22X1P'=6X^2-2X-1, on vérifie que PP et PP' sont premiers entre eux (par exemple avec GCDMOD sur une HP49 où on aura fixé la variable MODULO à 5).

On teste ensuite les entiers de -2 à 2 sur PP. Seul -1 est racine modulo 5 (P(1)=5P(-1)=-5), on va maintenant lifter p 1=1p_1=-1.

L’estimation à priori est 2|a d||a 0|=122|a_d||a_0|=12 donc k=2k=2 (5 2=25>125^2=25&gt;12), une itération suffira. On a P(1)=7P'(-1)=7, l’inverse de P(1)(mod5)P'(-1) \pmod 5 est -2 donc: x=P(1)5(2)=(1)×(2)=2 x= -\frac{P(-1)}{5} (-2) = -(-1) \* (-2)=-2 et p 2=1+5×(2)=11p_2=-1+5\times(-2)=-11 est racine de PP dans /25\mathbb{Z}/25\mathbb{Z}. On calcule ensuite a d(Xp k)=2(X+11)=2X+22=2X3a_d(X-p_k)=2(X+11)=2X+22=2X-3 en représentation symétrique, le PGCD de 2 et -3 est 1 donc on teste le facteur 2X32X-3, ici il divise PP donc PP admet un unique facteur entier de degré 1 qui est 2X32X-3.

3.8.2  Algorithmes déterministes. Algorithmes probabilistes: Las Vegas et Monte-Carlo

L’algorithme p-adique présenté ci-dessus est un algorithme déterministe, il renvoie toujours un résultat certifié et le temps de calcul nécessaire à son exécution ne dépend pas du hasard (sauf si on choisit le nombre premier pp au hasard...). Ce type d’algorithmes est parfois trop long par rapport à d’autres type d’algorithmes utilisant le hasard :

Dans Xcas, certains algorithmes sont de type Monte-Carlo par défaut, notamment le calcul de déterminant de grandes matrices à coefficients entiers ou de bases de Gröbner, et un warning s’affiche alors. La variable proba_epsilon permet de régler le niveau de probabilité d’erreur acceptée, on peut la mettre à 0 pour forcer l’utilisation d’algorithmes déterministes ou de type Las Vegas avec certification du résultat. Si l’on fait des calculs à but expérimental pour établir une conjecture, il n’est pas nécessaire de certifier un calcul et il ne sert à rien de mettre proba_epsilon à 0. Par contre, pour établir une preuve (au sens mathématique du terme) qui nécessite un calcul fait sur machine, on prendra soin de mettre proba_epsilon à 0. On remarquera au passage que ce type de preuve ne peut se faire qu’avec un logiciel open-source, puisqu’il faut aussi pouvoir montrer que l’algorithme utilisé est correctement implémenté.

3.9  Entiers et polynômes.

L’ensemble des entiers relatifs \mathbb{Z} est muni des opérations + et * qui en font un anneau commutatif intègre.

Si aa et bb sont deux entiers naturels, b0b \neq 0, on définit le quotient euclidien de aa par bb comme le plus grand entier naturel qq tel que abq0a-bq \geq 0 (l’ensemble des entiers naturels tels que abq0a-bq \geq 0 est borné par aa donc admet un élément maximal), On définit rr le reste euclidien de aa par bb est alors abqa-bq. On vérifie que r[0,b1]r \in [0,b-1] (sinon ab(q+1)a-b(q+1) serait positif ou nul).

3.9.1  Petits et grands entiers

Les microprocesseurs sont capables d’effectuer des opérations arithmétiques de base (toujours +,-, pratiquement toujours * et la division euclidienne) sur des petits entiers compris dans l’intervalle [2 t1,2 t11][-2^{t-1},2^{t-1}-1] (entier signé) ou [0,2 t1][0,2^{t}-1] (entier non signé), pour t=8t=8, t=16t=16, t=32t=32 et t=64t=64 (parfois aussi pour t=128t=128). En cas de dépassement, les calculs sont faits modulo 2 t2^t. Les logiciels de calcul doivent pouvoir travailler avec des entiers de taille plus grande, il faut les stocker en mémoire et implémenter les opérations arithmétiques de base en se ramenant à des petits entiers. Pour faire cela, on va écrire des entiers dans des bases adéquates.

Ecriture en base bb

On se fixe une fois pour toutes un entier b>1b&gt;1. Soit NN \in \mathbb{N}, on peut alors écrire NN de manière unique sous la forme N= i=0 nN ib i,b i[0,b1],b n0(1) N=\sum_{i=0}^n N_i b^i , \quad b_i \in [0,b-1], b_n \neq 0 \qquad (1) Les N iN_i sont appelés bits si b=2b=2 ou digits si b=10b=10 (parfois aussi pour b>2b&gt;2, par exemple b=16b=16). Pour montrer l’unicité de l’écriture, on suppose qu’il y a deux écritures distinctes de ce type, et on regarde le coefficient d’indice maximal qui est différent (appelons le jj), on a alors (N jN˜ j)b j= i=0 j1(N iN˜ i)b i(N_j-\tilde{N}_j)b^j = \sum_{i=0}^{j-1} (N_i-\tilde{N}_i)b^i quitte à changer de signe, on peut supposer que le membre de gauche est strictement positif, on a alors (N jN˜ j)b jb j(N_j-\tilde{N}_j)b^j \geq b^j Mais le membre de droite se majore par i=0 j1(b1)b j=b j1\sum_{i=0}^{j-1} (b-1) b^j=b^j-1 absurde.

L’existence se prouve par l’algorithme suivant qui utilise la division euclidienne.

#
def ecriture_base(N,b):
    L=[]
    while N>0:
        L.append(N % b)
        N=N//b
    return L

onload

i.e. tant que N>0N&gt;0, on calcule le reste de NN par bb, qui donne le coefficient de poids le plus faible de l’écriture de NN en base bb, on ajoute lécriture en base bb du quotient de NN par bb. L’algorithme s’arrête au bout de partie entière de log b(N)+1\log_b(N)+1 itérations. Réciproquement, on vérifie que l’écriture obtenue convient en développant b 0+b(b 1+b(...+b(b n1+b(b n))...))(2) b_0+b(b_{1}+b(...+b(b_{n-1}+b(b_n))...)) \qquad (2) On observe au passage que l’écriture de NN sous la forme ci-dessus nécessite nn additions et nn multiplications, et est donc plus efficace que le calcul sous la forme développée 1. C’est la méthode dite de Hörner.

Exemple : en base b=2b=2. Pour écrire N=12N=12 en base 2, on calcule le reste de 12 par 2 donc N 0=0N_0=0, le quotient de 12 par 2 vaut 6, on divise par 2, reste 0 donc N 1=0N_1=0, quotient 3, on divise par 2, reste N 2=1N_2=1, quotient 1, on divise par 2, reste N 3=1N_3=1 quotient 0 on s’arrête, donc 12=0b1100. Réciproquement on a bien 0+2×(0+2×(1+2×(1)))=120 +2\times(0+2\times(1+2\times(1)))=12

Exercice : la commande b:=convert(N,base,b) de Xcas effectue la conversion d’un entier NN en la liste des coefficients de son écriture en base bb, la réciproque étant convert(L,base,b) ou horner(L,b). Implémenter des fonctions équivalentes dans votre langage de programmation préféré.

Exercice : comment passe-t-on simplement de la représentation d’un nombre en base 2 à un nombre en base 16 et réciproquement ?

Lien avec les polynômes de A[X]A[X] avec A=A=\mathbb{Z}.

A tout entier naturel NN, on peut associer un polynôme à coefficients entiers qui est son écriture en base bb, les coefficients du polynôme sont dans l’intervalle [0,b1][0,b-1]. Réciproquement, si les coefficients d’un polynôme sont des entiers compris entre [0,b1][0,b-1] alors ils correspondent à l’écriture d’un entier en base bb.

On va voir que les opérations arithmétiques de base sur les grands entiers reviennent à effectuer des opérations de base sur les polynômes, avec une petite difficulté supplémentaire, il faut tenir compte de retenues. Les algorithmes naifs pour additionner et multiplier deux polynômes correspondent précisément aux algorithmes enseignés à l’école primaire pour effectuer l’addition ou la multiplication de deux entiers.

3.9.2  Opérations arithmétiques de base

Addition, soustraction

Si N= i=0 nN ib iN=\sum_{i=0}^n N_i b^i et M= i=0 mM ib iM=\sum_{i=0}^m M_i b^i, alors N+M= i=0 max(n,m)(N i+M i)b i,N+M=\sum_{i=0}^{\mbox{max}(n,m)} (N_i+M_i) b^i, il faut donc additionner les digits de l’écriture en base bb comme pour additionner deux polynômes. On a N i+M i[0,2b1]N_i+M_i \in [0,2b-1] , si N i+M i<bN_i+M_i&lt;b, il n’y a rien à faire, sinon on remplace par N i+M ibN_i+M_i-b et on ajoute 1 (retenue) à N i+1+M i+1N_{i+1}+M_{i+1} qui appartient à [0,2b2+1][0,2b-2+1], etc. Le nombre d’opérations à effectuer est de l’ordre du maximum du nombre de bits/chiffres/digits de NN et MM.

Multiplication

Si N= i=0 nN ib iN=\sum_{i=0}^n N_i b^i et M= j=0 mM jb iM=\sum_{j=0}^m M_j b^i, alors on se ramène à la multiplication de deux polynômes : N+M= i=0 n j=0 mN iM jb i+jN+M=\sum_{i=0}^n \sum_{j=0}^m N_i M_j b^{i+j} Si b>2b&gt;2, par exemple b=10b=10 ou b=16b=16, N iM jN_i M_j sera très souvent supérieur à bb, il y aura souvent des retenues! On peut regrouper les termes b i+jb^{i+j} ayant le même exposant, en utilisant des décalages pour tenir compte de b ib^i (c’est l’algorithme de multiplication posée en base 10) ou additionner au fur et à mesure N iM jN_i M_j au coefficient actuel de b i+jb^{i+j} (exercice de la feuille de TD). En base 2, si on pose la multiplication comme en base 10, il est conseillé d’effectuer les additions une par une, sinon la prise en compte des retenues est délicate.

Le nombre de multiplications et d’additions est de l’ordre de nmnm (on peut montrer que c’est aussi le cas en tenant compte des retenues, car si une retenue se propage de rr positions dans la boucle intérieure en jj, elle ne pourra pas se propager de plus de 2 positions pour les r2r-2 itérations suivantes de la boucle intérieure).

Comme le résultat a pour taille n+m+1n+m+1 ou n+m+2n+m+2 bits/chiffres/digits, on peut espérer l’existence d’algorithmes plus efficaces. Nous allons en présenter un dans le cadre plus simple de la multiplication des polynômes (où on n’a pas à gérer les retenues).

Diviser pour régner: multiplication de Karatsuba.

Soient P,QP, Q deux polynômes de degrés strictement inférieur à 2n2n. On suppose que le cout d’une opération arithmétique dans l’ensemble des coefficients vaut 1 et on néglige les autres opérations (on suppose par exemple que l’ensemble des coefficients est fini). On écrit P=A+x nB,Q=C+x nD P=A+x^n B, \quad Q=C+x^n D avec A,B,C,DA,B,C,D de degrés strictement inférieur à nn, on a alors : PQ=AC+x n(AD+BC)+x 2nBDP Q = AC + x^n(AD+BC)+x^{2n} BD Il y a 4 produits de polynômes de degrés <n&lt;n, mais au prix d’additions intermédiaires, on peut se ramener à 3 produits, en effet (A+B)(C+D)ACBD=AD+BC(A+B)(C+D)-AC-BD = AD+BC donc pour calculer le facteur de x nx^n il suffit de soustraire à (A+B)(C+D)(A+B)(C+D) les produits ACAC et BDBD que l’on doit calculer par ailleurs. Au premier ordre, le temps nécessaire pour multiplier les 2 polynômes de degré <2n&lt;2n est multiplié par 3, au lieu de 4.

Plus précisément, soit M(n)M(n) le temps nécessaire pour calculer le produit de 2 polynômes par cette méthode, on a alors M(2n)=3M(n)+8nM(2n) = 3M(n)+ 8n 8n8n représente le nombre d’additions ou de soustractions pour former A+BA+B, C+DC+D, soustraire ACAC et BDBD, et tenir compte du fait que les termes de degré n\geq n de ACAC se combinent avec ceux de degré <2n&lt;2n de AD+BCAD+BC et les termes de degré <3n&lt; 3n de x 2nBDx^{2n}BD avec ceux de degré 2n\geq 2n de AD+BCAD+BC. On en déduit u n=M(2 n),u n+1=3u n+8×2 nu_n=M(2^n), \quad u_{n+1}=3u_n+8 \times 2^n cette récurrence se résoud facilement par la commande

ce qui donne M(2 n)=u n=82 n+93 nM(2^n)=u_n=-8\cdot 2^{n}+9\cdot 3^{n}.

Asymptotiquement, M(2 n)93 nM(2^n) \approx 9\cdot 3^{n} ce qui est bien meilleur que la multiplication naive en 24 n2 \cdot 4^n, mais pour de petites valeurs de nn, la multiplication naive est plus rapide comme l’illustre le graphe ci-dessous (en rouge la multiplication naive, en bleu Karatsuba complet) :

plot([log(2*4^n),log(-8*2^n+9*3^n)],
n=1..10,display=[red,blue])

onload
On utilise Karatsuba (récursivement) uniquement pour des valeurs de nn suffisamment grandes (théoriquement lorsque 8n8n, le surcout dû aux additions est plus petit que la multiplication économisée, soit 8n<2n 28n&lt;2n^2 soit n>4n&gt;4, en pratique plutôt pour nn de l’ordre de quelques dizaines selon les implémentations, car nous n’avons tenu compte que des opérations arithmétiques).

Exercice : vérifier que la multiplication des entiers longs en langage Python se comporte pour nn grand comme la multiplication de Karatsuba.

Les logiciels de calcul intensif utilisent la plupart du temps des algorithmes plus efficaces lorsque nn est encore plus grand, qui se rapprochent de nln(n)n \ln(n). C’est en particulier le cas de tous les logiciels de calcul formel qui utilisent la libraire GMP écrite en langage C (Xcas, Sagemath, Maple, Mathematica, ...). Ces algorithmes utilisent la transformation de Fourier rapide (FFT).

3.9.3  Opérations de base sur les petits entiers.

Les petits entiers sont représentés en base b=2b=2, les opérations de base sont directement faites par le microprocesseur en se ramenant aux calculs en base 2:

3.9.4  Opérations de base sur les grands entiers

Les grands entiers naturels sont représentés dans une base qui est une puissance de 2, b=2 tb=2^{t'}, les coefficients de l’écriture étant de petits entiers, ils sont stockés en mémoire à des adresses consécutives. On utilise le plus souvent t=tt'=t la taille des régistres du microprocesseur, parfois une valeur légèrement inférieure pour simplifier la gestion des retenues.

Les implémentations de la multiplication font intervenir des algorithmes plus efficaces (comme Karatsuba), ainsi que des découpages par blocs visant à minimiser les opérations de lecture/écriture en mémoire au profit de l’utilisation de régistres et des caches de bas niveaux. En effet, avec les processeurs modernes, le cout du calcul d’un produit de 2 grands entiers par la méthode naive est dominé par les accès mémoire et non par les opérations arithmétiques elles-même.

3.10  Euclide

Dans cette section, on se concentre sur tout ce qui tourne autour de la division euclidienne.

3.10.1  Division euclidienne.

On a vu la définition de la division euclidienne pour les entiers naturels a=bq+r,r[0,b1]a=bq+r, r\in[0,b-1]. Pour les entiers relatifs, plusieurs conventions de signe sont possible pour qq et rr, par exemple on peut conserver la convention de signe de reste positif. On peut aussi adopter la convention du reste symétrique, c’est-á-dire que r]|b|2,|b|2]r \in ]-\frac{|b|}{2},\frac{|b|}{2}]. En général, on peut supposer que b>0b&gt;0, ce qui donne le programme suivant :

def rsym(a,b):
    r = a % b
    if r<0:
        r += b
    if r<=b//2: 
        return r
    return r-b

onload

Optimisation : sur les microprocesseurs modernes, on évite si possible l’utilisation de tests pour optimiser le temps de calcul. En C, si m>0m&gt;0, et rr de signe quelconque sont des entiers 31 bits, unsigned(r)>>31 vaut 0 (si r0r\geq 0) ou -1 (sinon) et on peut écrire :

int rsym(int r,int m){
  r = r % m;
  r += (unsigned(r)>>31)*m; // make positive
  return r-(unsigned((m>>1)-r)>>31)*m;
}

Pour les polynômes en une variable, si AA et BB sont deux polynômes à coefficients dans un corps KK, il existe un unique polynôme QQ et un unique polynôme RR tels que : A=BQ+R,deg(R)<deg(B)A=BQ+R, \quad \mbox{deg}(R)&lt;\ \mbox{deg}(B) L’unicité vient du fait que RR=B(QQ)R-R'=B(Q-Q') est incompatible avec les degrés si QQQ \neq Q'. L’existence se prouve par récurrence sur la différence de degré entre AA et BB, si elle est négative Q=0,R=AQ=0, R=A, si elle est nulle QQ est le quotient des coefficients dominants A aA_a de AA de degré aa et B bB_b de BB de degré bb, sinon, on pose Q=x abA a/B b+...Q=x^{a-b} A_a/B_b+..., ce qui annule le coefficient dominant de AA et on est ramené à une différence de degré diminuée de 1 (au moins).

Remarque 1 : si AA et BB sont à coefficients entiers et si BB est unitaire, alors QQ et RR sont à coefficients entiers. Sinon, on peut définir la pseudo-division de AA par BB en multipliant AA par le coefficient dominant de BB à la puissance la différence des degrés + 1.

Remarque 2 : pour les polynômes à plusieurs variables, il n’existe malheureusement pas de division euclidienne.

On dit que bb divise aa si le reste de la division de aa par bb est nul. Si aa et bb sont des entiers naturels non nuls et si a=bqa=bq alors aba \geq b. Si AA et BB sont des polynômes alors le degré de BB est inférieur ou égal au degré de AA.

3.10.2  Anneau euclidien

L’ensemble des entiers relatifs est un anneau commutatif, mais il a des propriétés supplémentaires :

Cette propriété est également vraie pour les polynômes à coefficients dans un corps.

Observation : les seuls entiers ayant un inverse pour la multiplication sont 1 et -1. Pour les polynômes à coefficients dans un corps KK, il s’agit des polynômes constants non nuls (ceci est une conséquence du degré d’un produit qui est égal à la somme des degrés des facteurs). Ces éléments, appelés inversibles de l’anneau, jouent un role important, en effet si bb divise aa, i.e. a=bqa=bq alors pour tout élément inversible ii, bibi divise aa puisque a=(bi)i 1qa=(bi) i^{-1}q. Dans le cas des entiers, cela signifie qu’on peut négliger le signe pour étudier la divisibilité, autrement dit on peut se limiter aux entiers naturels. Dans le cas des polynômes, on peut multiplier par n’importe quel coefficient non nul, autrement dit on peut se limiter aux polynômes unitaires dont le coefficient dominant est 1.

3.10.3  Le PGCD

Soient aa et bb deux entiers. On se restreint au cas des entiers naturels en enlevant les signes.

Définition 4   On définit le PGCD (plus grand commun diviseur) de deux entiers naturels aa et bb non simultanément nuls comme le plus grand entier naturel dd qui divise simultanément aa et bb.

Si l’un des deux éléments est nul, disons bb, alors la réponse est aa. Sinon, comme 1 divise aa et de bb, l’ensemble des diviseurs communs à aa et bb est non vide, et son plus grand élément est inférieur ou égal au minimum de aa et de bb, le PGCD existe donc bien.

Pour le calculer, on observe que le PGCD de aa et de bb est le même que celui de bb et de rr, le reste de la division euclidienne de aa par bb. En effet si dd est un diviseur commun à aa et bb, alors a=daa=da' et b=dbb=db' donc r=abq=d(aqb)r=a-bq=d(a'-qb'). Réciproquement si dd est un diviseur commun à bb et rr, alors b=dbb=db' et r=drr=dr' donc a=bq+r=d(bq+r)a=bq+r=d(b'q+r'). Cet algorithme se traduit en un programme récursif :

def pgcdr(a,b):
     if b=0: return a
     return pgcdr(b,a % b)

onload

A chaque appel récursif, la valeur du reste diminue au moins de 1 puisque r<br&lt;b. Au bout d’un nombre fini d’appels, b=0b=0 et on a le PGCD. Si on utilise le reste symétrique au lieu du reste euclidien positif, le reste perd un bit dans son écriture en base 2 à chaque itération, le nombre d’itérations est donc au plus égal au minimum du nombre de bits de aa et bb.

Exercice : traduire l’algorithme en un programme non récursif.

Le même algorithme fonctionne pour les polynômes, cette fois on cherche un polynôme de degré le plus grand possible qui divise AA et BB. L’algorithme ci-dessus s’adapte en remplaçant la division euclidienne des entiers par celle des polynômes, et le nombre d’appels récursifs est fini car le degré du reste qui diminue de 1 au moins à chaque itération. On obtient alors un PGCD, les autres PGCD sont des multiples non nuls de ce PGCD.

Il existe une version adaptée à l’écriture en base 2 des entiers sur machine, appelée PGCD binaire, qui évite de devoir faire des divisions euclidiennes (les divisions par 2 sont des décalages)

Chaque itération nécessite au plus le nombre nn de bits de l’écriture en base 2 de aa et bb, et il y a au plus 2n2n itérations (car on diminue de 1 le nombre de bits d’au moins un des 2 opérandes). Cet algorithme a donc un coût d’au plus O(n 2)O(n^2).

3.10.4  L’identité de Bézout

On va construire deux entiers relatifs uu et vv tels que au+bv=d=pgcd(a,b)au+bv=d = \mbox{pgcd}(a,b) On considère la matrice (L 1 1 0 a L 2 0 1 b)\left(\begin{array}{rccc} L_1 & 1 & 0 & a \\ L_2 & 0 & 1 & b \end{array}\right) qu’il faut interpréter ligne par ligne comme a×a\times1er coefficient+b×+b\times 2ème coefficient=3ième coefficient. L’algorithme de construction de uu et vv est une version arithmétique de l’algorithme du pivot de Gauss, où on souhaite créer un zéro dans la dernière colonne de la matrice. Mais seules les manipulations de lignes du type L n+2=L nqL n+1L_{n+2}=L_n-qL_{n+1} avec qq entier sont admises. Le mieux que l’on puisse faire est donc de créer L 3=L 1qL 2L_3=L_1-qL_2 avec qq quotient euclidien de aa par bb. Il faudra donc plusieurs manipulations de lignes avant d’avoir un 0, et la dernière colonne sera la liste des restes successsifs de l’algorithme d’Euclide pour calculer le PGCD de aa et bb. La ligne précédent la ligne avec un 0 en dernière colonne se termine par le PGCD (dernier reste non nul) et les deux premières colonnes donnent les coefficients de Bézout. Exemple avec a=125a=125 et b=45b=45 (L 1 1 0 125 L 2 0 1 45 L 3=L 12L 2 1 2 35 L 4=L 2L 3 1 3 10 L 5=L 34L 4 4 11 5 L 6=L 42L 5 9 25 0 )\left(\begin{array}{rccc} L_1 & 1 & 0 & 125 \\ L_2 & 0 & 1 & 45 \\ L_3=L_1-2L_2 & 1 & -2 & 35\\ L_4=L_2-L_3 & -1 & 3 & 10 \\ L_5=L_3-4L_4 & 4 & -11 & 5 \\ L_6=L_4-2L_5 & -9 & 25 & 0 \\ \end{array}\right)

Algorithme :

Exemple : exécutez la commande ci-dessous qui calcule l’identité de Bézout pour 125 et 45 en affichant les étapes de l’algorithme dans la partie basse de la page HTML

Explication : A chaque itération, l’élément l[2] d’indice 2 de la liste l 1l_1 (ou l 2l_2) prend comme valeur l’un des restes successifs de l’algorithme d’Euclide, et on a un invariant de boucle a*l[0]+b*l[1]=l[2] qui donne l’identité de Bézout lorsque l[2] est le dernier reste non nul. Cet invariant se prouve facilement par récurrence.

Regardons maintenant la taille de uu et de vv. On peut supposer que aba \geq b quitte à échanger aa et bb et on ignore les cas triviaux où aa et/ou bb valent 1.

Proposition 5   Si ab2a \geq b \geq 2, alors |u|b|u| \leq b et |v|a|v| \leq a.

Preuve (abrégée) : On considére les trois suites u nu_n (coefficients de la colonne d’indice 0), v nv_n (colonne d’indice 1) et r nr_n (colonne d’indice 2), ces suites vérifient la même relation de récurrence : u n+2=u nq nu n+1,v n+2=v nq nv n+1,r n+2=r nq nr n+1u_{n+2}=u_n-q_nu_{n+1}, \quad v_{n+2}=v_n-q_nv_{n+1}, \quad r_{n+2}=r_n-q_nr_{n+1} q nq_n est le quotient de la division de r nr_n par r n+1r_{n+1}. On montre par récurrence v nr n+1v n+1r n=(1) n+1a,(1) n+1v ncroissante (stricte pourn2)v_n r_{n+1}-v_{n+1} r_n=(-1)^{n+1} a, \quad (-1)^{n+1}v_n \ \mbox{croissante (stricte pour}\ n\geq 2 ) au cran après Bézout, on a |v N+1|pgcd(a,b)=a|v_{N+1}| \mbox{pgcd}(a,b)=a donc la suite |v n||v_n| est majorée par aa et |v|a|v| \leq a On en déduit |u|b|u| \leq b puisque u=(1bv)/au=(1-bv)/a.

Cet algorithme fonctionne à l’identique avec les polynômes à coefficients dans un corps, en utilisant la division euclidienne des polynômes.

L’identité de Bézout a de nombreuses conséquences en arithmétique.

3.10.5  Nombres premiers entre eux

Deux entiers sont dits premiers entre eux si leur PGCD vaut 1. Par exemple 22 et 15 sont premiers entre eux.

Théorème 6   (Lemme de Gauss) :
Si
aa et bb sont premiers entre eux et si aa divise bcbc alors aa divise cc.

Preuve : par hypothèse, il existe un entier qq tel que bc=qabc=qa et par Bézout, deux entiers u,vu,v tels que au+bv=1au+bv=1, on élimine bb entre ces deux équations ce qui donne qav=bcv=bvc=(1au)cqav=bcv=bvc=(1-au)c er c=a(qv+uc)c=a(qv+uc) est bien multiple de aa.

Proposition 7   Si aa et bb sont premiers entre eux et divisent tous deux cc alors abab divise cc.

En effet, il existe des entiers q,q,u,vq,q',u,v tels que c=qa,c=qb,au+bv=1c=qa, \quad c=q'b, \quad au+bv=1 Donc c=c(au+bv)=acu+bvc=aqbu+bvqa=ab(qu+qv)c=c(au+bv)=acu+bvc=aq'bu+bvqa=ab(q'u+qv)

Ces résultats restent vrais avec des polynômes à coefficients dans un corps (où premiers entre eux signifie que le PGCD est constant).

Application : décomposition d’une fraction nab\frac{n}{ab} avec aa et bb premiers entre eux (entiers ou polynômes).
Il existe alors uu et vv tels que au+bv=1au+bv=1, donc UU et VV tels que n=aU+bVn=aU+bV et nab=aU+bVab=aUab+bVab=Ub+Va\frac{n}{ab} = \frac{aU+bV}{ab}=\frac{aU}{ab}+\frac{bV}{ab}=\frac{U}{b}+\frac{V}{a} Exemple 1 : 23×5\frac{2}{3\times 5}, on a 1=2×31×51=2\times 3-1 \times 5 donc 2=4×32×52=4\times 3-2 \times 5 et 215=4×32×53×5=4523\frac{2}{15} = \frac{4\times 3-2 \times 5}{3 \times 5}=\frac{4}{5}-\frac{2}{3}

Exemple 2 : 2x 21=2(x1)(x+1)\frac{2}{x^2-1}=\frac{2}{(x-1)(x+1)} Les polynômes x1x-1 et x+1x+1 sont premiers entre eux, on a l’identité de Bézout x1(x+1)=2x-1 - (x+1) = -2 donc 2(x1)(x+1)=(x+1)(x1)(x1)(x+1)=1x11x+1\frac{2}{(x-1)(x+1)} = \frac{(x+1)-(x-1)}{(x-1)(x+1)} = \frac{1}{x-1} - \frac{1}{x+1} Ce qui permet de calculer une primitive de 2x 21\frac{2}{x^2-1}. 2x 21=ln(|x1|)ln(|x+1|)\int \frac{2}{x^2-1}= \ln(|x-1|)-\ln(|x+1|)

3.10.6  Les restes chinois

L’identité de Bézout a une application très importante en calcul formel, elle permet de reconstruire un entier dont on connait le reste de la division par des entiers premiers entre eux :

Théorème 8   (restes chinois)
Soit
mm et nn deux entiers naturels premiers entre eux, alors pour tout aa et bb entiers relatifs, il existe un entier cc tel que cac-a est divisible par mm et cbc-b est divisible par nn. L’entier cc n’est pas unique, deux solutions cc et cc' distinctes diffèrent par un multiple de nmnm.

Remarque : lorsqu’on reconstruit un entier naturel plus petit que nmnm, on choisit l’unique valeur de cc telle que c[0,nm[c \in [0,nm[ (c’est le reste de la division par nmnm de n’importe quelle solution), lorsqu’on reconstruit un entier relatif de valeur absolue plus petite que nm/2nm/2, on choisit cc tel que |c|nm/2|c|\leq nm/2 (on prend le reste symétrique).

Preuve : Si on a deux solutions cc et cc' alors ccc-c' est divisible par nn et mm qui sont premiers entre eux, donc ccc-c' est divisible par nmnm. Cherchons une solution, cela revient à chercher UU et VV tels que ca=mU,cb=nVc-a=mU, \quad c-b= nV On a donc a+mU=b+nVmU+nV=baa+mU=b+nV \quad \Leftrightarrow \quad -mU+nV=b-a Or mm et nn sont premiers entre eux, donc par Bézout, il existe uu et vv tels que mu+nv=1mu+nv=1 il suffit de multiplier par bab-a pour trouver un couple de valeurs U,VU,V qui convient.

On sait que le couple U,VU,V n’est pas unique, si U,VU',V' est une autre solution, alors ba=mU+nV=mU+nVb-a=-mU+nV=-mU'+nV' donc n(VV)=m(UU)n(V-V')=m(U-U') donc nn divise UUU-U' et mm divise VVV-V' avec le même quotient. Pour déterminer efficacement une valeur de cc qui convient, on calculera vv tel que |v|m|v|\leq m par l’algorithme de Bézout, on multipliera par bab-a et on prendra pour VV le reste de V(ba)V(b-a) par mm.

Exemple : trouver cc tel que le reste de cc par 13 est 11 et le reste de cc par 7 est 3. On veut c=11+13U=3+7Vc=11+13U=3+7V donc 13U7V=813U-7V=-8 On a l’identité de Bézout : (1)×13+7×2=1(-1)\times 13 + 7\times2 = 1 on multiplie par -8 donc on peut prendre V=16V=16 (U=8U=8), on préfère prendre le reste par 13 donc V=3V=3, c=24c=24 (et U=1U=1).

Remarque : en calcul formel, on prendra m=p 1...p k1m=p_1...p_{k-1} un produit de nombres premiers distincts, et n=p kn=p_{k} un nombre premier distinct des précédents, on calcule la valeur de cc modulo chaque nombre premier p jp_j et dès qu’on a assez de nombres premiers p kp_k (i.e. si |c|<p 1...p k/2|c|&lt;p_1...p_k/2) on en déduit cc. On parle d’algorithme modulaire. Par exemple, on peut calculer le déterminant d’une matrice à coefficients entiers de cette manière.

Cette méthode s’applique aussi aux polynômes, mais elle est moins utile, car l’interpolation polynomiale de Lagrange est plus efficace lorsque les nombres premiers p ip_i sont remplacés par des xα ix-\alpha_i

3.10.7  Nombres premiers, factorisation

Définition 9   Un entier naturel est premier s’il est divisible seulement par deux entiers distincts: 1 et lui-même.

Exemple : 17 est premier, mais pas 18. 1 n’est pas premier.

Un nombre non premier admet un diviseur différent de 1 et lui-même donc une factorisation n=pqn=pq avec p1p \neq 1 et q1q \neq 1. On peut supposer que pqp \leq q, pour savoir si un nombre est premier on peut donc tester que tous les entiers plus petits ou égaux à n\sqrt{n} ne divisent pas nn.

Proposition 10   Si pp et qq sont deux nombres premiers distincts, alors ils sont premiers entre eux.

En effet un diviseur commun d1d \neq 1 de pp et qq est égal à pp et à qq par définition de pp et qq premiers, absurde.

On en déduit par récurrence :

Proposition 11   Si q 1,..,q kq_1,..,q_k sont des nombres premiers tous distincts de pp premier, alors pp et q 1...q kq_1...q_k sont premiers entre eux.

On a vu que c’était le cas pour k=1k=1, pour k>1k&gt;1, soit d1d \neq 1 un diviseur commun de pp et q 1...q kq_1...q_k, dd est donc égal à pp, donc pp divise q 1...q kq_1...q_k. Comme q kpq_k \neq p, pp divise q 1..q k1q_1..q_{k-1} ce qui contredit l’hypothèse de récurrence.

Théorème 12   Un entier naturel n>1n&gt;1 s’écrit de manière unique (à permutation près) comme produit de nombres premiers.

Preuve de l’existence par récurrence. Pour n=2n=2, on a 2=22=2. Pour n>2n&gt;2, si nn est premier, alors n=nn=n, sinon il admet un plus petit diviseur strictement supérieur à 1, on a n=pqn=pq avec p<np&lt;n premier et q<nq&lt;n à qui on applique l’hypothèse de récurrence.

Exercice : traduire cette preuve en un algorithme.

Unicité: supposons p 1...p k=p 1...p lp_1...p_k=p'_1...p'_l. Donc p jp_j divise p 1...p lp'_1...p'_l. Comme p jp_j est premier, il doit être égal à un des p lp'_l. On divise par ce facteur commun et on recommence.

Des résultats analogues s’appliquent pour les polynômes à coefficients dans un corps: on parle de facteur irréductible (analogue de nombre premier), divisible seulement par des polynomes constants et des polynomes multiples non nuls d’eux-mêmes. Par exemple tous les polynômes de degré 1 sont irréductibles. Un polynôme s’écrit de manière unique à permutation près et à inversibles près comme produit de facteurs irréductibles.

3.10.8  Remarque : la divisibilité est une relation d’ordre partiel

On observe que :

Une relation réflexive, antisymétrique et transitive est appelée relation d’ordre. Ici l’ordre est partiel, on peut avoir des éléments qui ne sont pas comparables, par exemple 2 ne divise pas 3 et 3 ne divise pas 2. Lorsque deux éléments sont comparables, on parle de relation d’ordre total (par exemple \leq sur les entiers ou les réels ou l’ordre lexicographique sur les chaines de caractères ou les listes).

On verra plus loin un autre type de relation, les relations d’équivalence, où on remplace l’antisymétrie par la symétrie (aRba\ R\ b entraine bRab\ R\ a)

3.10.9  Prolongement : idéaux

Un idéal est un sous-ensemble d’un anneau qui est stable pour l’addition (la somme de deux éléments de l’idéal est encore dans l’idéal), et stable par multiplication par tout élément de l’anneau. Par exemple si on veut résoudre un système de plusieurs équations en une inconnue, l’ensemble des polynômes en une variable qui s’annulent en un point est un idéal.

Dans les anneaux euclidiens, tous les idéaux sont principaux, i.e. engendrés par un élément, on prend un plus petit entier en valeur absolue pour les entiers ou un plus petit polynôme en degré pour les polynômes, la division euclidienne par cet élément doit renvoyer 0 comme reste sinon on aurait un élément dans l’idéal plus petit. Dans l’exemple ci-dessus, on peut se ramener à une équation polynomiale en une variable (c’est un PGCD des polynômes des équations).

Dans les anneaux non euclidiens, comme par exemple les polynômes à plusieurs variables, les idéaux ne sont pas forcément engendrés par un seul élément, ce qui rend la résolution de systèmes polynomiaux à plusieurs inconnues beaucoup plus délicate qu’en une inconnue. Il est en général difficile de vérifier qu’un élément de l’anneau appartient ou non à l’idéal (alors que c’est juste une division dans le cas à une variable). Heureusement, il existe des familles particulières qui engendrent l’idéal pour lesquelles la vérification se fait par une généralisation de la division euclidienne. La recherche efficace de telles familles, appelées bases de Groebner, est un domaine de recherche actif!

3.11  Quelques algorithmes d’arithmétique de base.

3.11.1  Calcul de la racine carrée entière

Étant donné un entier NN, il s’agit de déterminer le plus grand entier nn tel que n 2Nn^2\leq N, nn est la racine carrée de NN. On choisit une base bb par exemple b=10b=10 pour un humain ou une puissance de 2 pour une machine, et on écrit NN en base bb, en découpant les chiffres par blocs de 2 en commençant par la droite, par exemple 2 00 00 00. On initialise la racine carrée nn à 0 et son carré cc à 0, on va calculer la racine carrée entière bloc par bloc en commençant par la gauche. Pour calculer le bloc suivant, on multiplie nn par bb et cc par b 2b^2 (c’est un simple décalage de l’écriture en ajoutant un ou deux zéros). Puis on ajoute les nombres impairs successifs 2n+12n+1, (2n+1)+2(2n+1)+2, ... à cc tant que l’on est inférieur à NN tronqué au bloc. Le nombre d’impairs successifs ajouté est ajouté à nn. En pratique, il suffit de conserver NcN-c tronqué et de lui retrancher les impairs successifs.

Ainsi, pour 2 00 00 00, au 1er bloc 2, on initialise n=c=0n=c=0, on ajoute 2n+1=12n+1=1 à cc qui vaut alors 1 et on s’arrête car 1+3 est supérieur à 2. On passe au 2ième bloc, NcN-c tronqué vaut 100, nn vaut 10, 2n+12n+1 vaut 21, on retranche donc à 100 successivement 21, 23, 25, 27 et on s’arrête car le reste est 4. Donc nn devient 14, et Nc=4N-c=4. On passe au troisième bloc, Nc=400N-c=400 et n=140n=140 donc 2n+1=2812n+1=281, on retranche de 400 les impairs successifs à partir de 281, ce qui n’est possible qu’une seule fois, cela donne Nc=119N-c=119 et n=141n=141. On passe au dernier bloc, Nc=11900N-c=11900 et n=1410n=1410 donc 2n+1=28212n+1=2821, on soustrait 2821, 2823, 2825, 2827 de 11900, il reste 604 et n=1414n=1414.

Exercice : calculer la quatrième décimale de 2\sqrt{2} de cette manière.

La complexité de cet algorithme est en O(log b(N) 2)O(\log_b(N)^2). En effet, pour calculer un chiffre il faut faire un nombre de soustraction au plus égal à bb, ces soustractions ayant au plus le nombre de chiffres de NN en base bb. (On peut accélérer le calcul à la manière de Karatsuba en choisissant une base bb puissance de 2 (ou 10) de l’ordre de N\sqrt{N} et en divisant pour régner).

isqrt(x):={
  local l,j,k,s,n,N,res;
  l:=revlist(convert(x,base,100));
  res:=seq(0,size(l));
  s:=0;
  N:=0;
  pour k de 0 jusque size(l)-1 faire
    N := (N-s)*100+l[k];
    n:=2*horner(res[0..k],10)+1;
    s:=n; // ajout de la somme des impairs consecutifs
    pour j de 0 jusque 10 faire
      si s>N alors break; fsi;
      n+=2;
      s+=n;
    fpour;
    s -= n;
    res[k]:=j;
  fpour;
  retourne horner(res,10);
}:;



3.11.2  Bezout sur les entiers et les fractions continues

Il existe une variante de l’identité de Bézout présentée ci-dessus pour les entiers. Soient ab>0a\geq b&gt;0 deux entiers, on pose (L n)au nbv n=(1) nr n(L_n) \quad a u_n - b v_n = (-1)^n r_n r 0=a,r 1=br_0=a, r_1=b et r n+2r_{n+2} est le reste de la division euclidienne de r nr_n par r n+1r_{n+1} (q n+2q_{n+2} le quotient), u 0=1,u 1=0,v 0=0,v 1=1u_0=1, u_1=0, v_0=0,v_1=1. Comme précedemment, chaque ligne s’obtient par combinaison linéaire des deux précédentes, mais cette fois avec une addition L n+2=L n+q n+2L n+1L_{n+2}=L_n+q_{n+2} L_{n+1} ce qui se traduit par : u n+2=u n+q n+2u n+1,v n+2=v n+q n+2v n+1u_{n+2}=u_n+q_{n+2} u_{n+1}, \quad v_{n+2}=v_n+q_{n+2} v_{n+1} Les suites u nu_n et v nv_n sont alors strictement croissantes (à partir du rang 1 pour u nu_n). Au rang kk du dernier reste non nul on a : au kbv k=(1) kr k,r k=d=gcd(a,b)a u_k - b v_k = (-1)^k r_k, \quad r_k=d=\mbox{gcd}(a,b) et au rang suivant : au k+1bv k+1=0au_{k+1} -b v_{k+1}=0 On montre par récurrence que v nr n+1+v n+1r n=av_n r_{n+1} + v_{n+1} r_n=a et une relation analogue pour u nu_n, on en déduit alors que v k+1=a/dv_{k+1}=a/d et u k+1=b/du_{k+1}=b/d (ce sont les cofacteurs du PPCM de aa et bb), en particulier les coefficients de Bézout vérifient u k<bu_k&lt;b et v k<av_k&lt;a.

On va aussi voir que u n+2/v n+2u_{n+2}/v_{n+2} est la nn-ième réduite du développement en fractions continues de a/ba/b (donc les coefficients de Bézout se lisent sur l’avant-dernière réduite). On introduit la notation [a 0,a 1,..,a n]=a 0+1a 1+1a 2+...a k[a_0,a_1,..,a_n] =a_0+\frac{1}{a_1+\frac{1}{a_2+\frac{...}{a_k}}} pour a 00,a 1>0,...,a n>0a_0 \geq 0, a_1&gt;0, ..., a_n&gt;0. On a alors : ab=[q 2,q 3,..,q k]\frac{a}{b}=[q_2,q_3,..,q_k] En effet : ab=r 0r 1=q 2+r 2r 1=q 2+1r 1r 2=...\frac{a}{b}= \frac{r_0}{r_1}=q_2 +\frac{r_2}{r_1} = q_2 + \frac{1}{\frac{r_1}{r_2}} = ... D’autre part, on montre par récurrence sur n1n\geq 1 que si x>0x&gt;0 [q 2,...,q n,x]=v nx+v n1u nx+u n1[q_2,..., q_n,x]=\frac{v_{n}x+v_{n-1}}{u_{n}x+u_{n-1}} en effet au rang n=1n=1 [x]=x=v 1x+v 0u 1x+u 0[x]=x=\frac{v_1 x + v_0}{u_1 x+u_0 } et pour l’induction : [q 2,...,q n,x] = [q 2,...,q n1,q n+1x] = v n1(q n+1/x)+v n2u n1(q n+1/x)+u n2 = x(v n1q n+v n2)+v n1x(u n1q n+u n2)+u n1 = v nx+v n1u nx+u n1 \begin{matrix} [q_2,..., q_n,x] &= & [q_2,..., q_{n-1},q_n+\frac{1}{x}] \\ &=& \frac{v_{n-1}(q_n+1/x)+v_{n-2}}{u_{n-1}(q_n+1/x)+u_{n-2}} \\ &=& \frac{x(v_{n-1}q_n+v_{n-2})+v_{n-1}}{x(u_{n-1}q_n+u_{n-2})+u_{n-1}} \\ & = & \frac{v_{n}x+v_{n-1}}{u_{n}x+u_{n-1}} \end{matrix} Donc au rang n1n-1 et pour x=q nx=q_{n}, on obtient [q 2,...,q n]=v n+1u n+1[q_2,..., q_n]=\frac{v_{n+1}}{u_{n+1}}

Les fractions continues servent bien entendu aussi et d’abord à approcher les réels par des rationnels. L’algorithme de calcul des termes du développement est le suivant : Soit x0x\geq0. On initialise y=xy=x et la liste des a pa_p à vide. Puis on fait une boucle : on ajoute la partie entière de yy à la liste, on calcule la partie fractionnaire de yy, si elle est nulle on s’arrête (dans ce cas xx\in \mathbb{Q}), sinon on stocke dans yy l’inverse de cette partie fractionnaire et on recommence. On note classiquement : h 2=0, h 1=1, h p=a ph p1+h p2 k 2=1, k 1=0, k p=a pk p1+k p2(3) \begin{matrix} h_{-2}=0, & h_{-1}=1, & h_p=a_p h_{p-1}+h_{p-2}\\ k_{-2}=1, & k_{-1}=0, & k_p=a_p k_{p-1}+k_{p-2} \end{matrix} \qquad (3) On a h 0=a 0,h 1=a 1a 0+1,k 0=1,k 1=a 1h_0=a_0, h_1=a_1 a_0+1, k_0=1, k_1=a_1. Les suites h ph_p et k pk_p sont donc positives et strictement croissantes pour p1p \geq 1, puisque pour p1p \geq 1, a p1a_p\geq 1, elles tendent vers l’infini au moins aussi vite que des suites de Fibonacci (à vitesse au moins géométrique donc). On a aussi aisément par récurrence : h pk p1h p1k p=(1) p+1(4) h_p k_{p-1} - h_{p-1}k_p=(-1)^{p+1} \qquad (4) On montre aussi comme ci-dessus : [a 0,...,a p1,y]=yh p1+h p2yk p1+k p2[a_0,...,a_{p-1},y]=\frac{yh_{p-1}+h_{p-2}}{yk_{p-1}+k_{p-2}} On définit x px_p par x=[a 0,...,a p1,x p]x=[a_0,...,a_{p-1},x_p], en faisant y=x py=x_p on a alors x=x ph p1+h p2x pk p1+k p2x=\frac{x_ph_{p-1}+h_{p-2}}{x_p k_{p-1}+k_{p-2}} ce qui donne x px_p en fonction de xx et a p=floor(xk p2h p2xk p1h p1)a_p=\mbox{floor}\left( - \frac{xk_{p-2}-h_{p-2}}{xk_{p-1}-h_{p-1}} \right) En faisant y=a py=a_p on obtient [a 0,...,a p]=h pk p[a_0,...,a_p]=\frac{h_p}{k_p}. On montre ensuite que les suites (h p/k p)(h_p/k_p) pour les indices pairs et impairs sont deux suites adjacentes qui convergent vers xx, et on a h pk ph p1k p1=(1) p1k pk p1(5) \frac{h_p}{k_p} - \frac{h_{p-1}}{k_{p-1}} = \frac{(-1)^{p-1}}{k_p k_{p-1}} \qquad (5) En effet, la dernière égalité est une conséquence immédiate de (4), la croissance ou décroissance des suites d’indice pair ou impair s’en déduit en ajoutant (5) au cran suivant. La convergence vient de la limite infinie de k pk_p en l’infini. On a donc x=a 0+ p=0 (1) p1k pk p+1,1k p(k p+k p+1)|xh pk p|1k pk p+1x=a_0+\sum_{p=0}^\infty \frac{(-1)^{p-1}}{k_p k_{p+1}}, \quad \frac{1}{k_p(k_p+k_{p+1})} \leq |x-\frac{h_p}{k_p}| \leq \frac{1}{k_p k_{p+1}} La convergence est d’autant plus rapide que les k pk_p tendent rapidement vers l’infini, donc si les a pa_p sont plus grands que 1. La convergence la plus lente correspond au cas où tous les a p=1a_p=1 cas du nombre d’or, ou à partir d’un certain rang (nombre de Q[5]Q[\sqrt{5}]).

3.11.3  La puissance rapide itérative

Pour calculer a k(modn)a^k \pmod n, on décompose kk en base 2 k= j=0 Jk j2 j,a k= j=0 Ja k j2 j= j/k j0a 2 jk=\sum_{j=0}^J k_j 2^j, \quad a^k = \prod_{j=0}^{J} a^{k_j 2^j} = \prod_{j/k_j \neq 0} a^{2^j} On initialise une variable B à 1, B vaudra a k(modn)a^k \pmod n en fin de calcul, on initialise une variable k à kk. On calcule dans une boucle les carrés successifs de a(modn)a \pmod n que l’on stocke dans une variable A (A vaudra donc successivement a(modn),a 2(modn),a 4(modn),...a \pmod n, a^2 \pmod n, a^{4} \pmod n, ...) et simultanément on teste si k jk_j vaut 1 en prenant le reste de la division par 2 de k (dans ce cas on multuplie B par A modulo nn), on divise ensuite k par 2 au sens du quotient euclidien.

rapide(a,k,n):={
  local A,B;
  A:=a; B:=1;
  tantque k!=0 faire
    si irem(k,2)==1 alors B:=irem(A*B,n); fsi;
    k:=iquo(k,2);
    A:=irem(A*A,n);
  ftantque;
  return B;
}




Pour tester en mode pas à pas, ajoutez debug( au début de la commande qui précède
debug(rapide(123,4567890,123456))

3.11.4  Application de la puissance rapide: trouver un gńérateur de F p *=/p *F_p^*=\mathbb{Z}/p^*

Un entier gg est un générateur de F p *F_p^* si et seulement si son ordre est exactement p1p-1. Si on suppose connue la factorisation de p1p-1, cela revient à tester que g p1p i1(modp)g^{\frac{p-1}{p_i}} \neq 1 \pmod p pour tous les diviseurs premiers p ip_i de p1p-1. On essaie des entiers gg compris entre 1 et pp jusqu’à ce que ces tests soient vérifiés. La probabilité de réussite est de ϕ(p1)/(p1)\phi(p-1)/(p-1) donc en moyenne le nombre de tests à effectuer est (p1)/ϕ(p1)(p-1)/\phi(p-1). On va montrer que cela se comporte au pire en log(log(p))\log(\log(p)).

Le cas le pire à taille de pp fixée est celui où on prend tous les facteurs premiers depuis 2 et où la multiplicité des p ip_i dans la factorisation de p1p-1 est 1, dans ce cas ϕ(p1)p1= i(11p i),p1= ip i\frac{\phi(p-1)}{p-1} = \prod_i (1-\frac{1}{p_i}), \quad p-1=\prod_i p_i On va observer ce qui se passe lorsque on prend de plus en plus de facteurs premiers. Fixons nous un entier kk assez grand, on prend d’abord tous les nombres premiers entre 2 et kk, puis on regarde comment évolue log( i(11p i))= ilog(11p i) i1p i\log(\prod_i (1-\frac{1}{p_i})) = \sum_i \log(1-\frac{1}{p_i}) \geq -\sum_i \frac{1}{p_i} lorsqu’on ajoute les nombres premiers entre kk et 2k2k, puis entre 2k2k et 4k4k, ... puis entre 2 Nk2^Nk et 2 N+1k2^{N+1}k. Avec le résultat sur la densité des nombres premiers, il va y avoir k/log(k)k/\log(k) nombres premiers dans la première tranche, puis 2k/log(2k)2k/\log(2k), ... puis 2 Nk/log(2 Nk)2^Nk/\log(2^Nk), d’où la minoration log( i(11p i))1log(k)1log(2k)...1log(2 Nk)\log(\prod_i (1-\frac{1}{p_i})) \geq -\frac{1}{\log(k)} - \frac{1}{\log(2k)} - ... - \frac{1}{\log(2^Nk)} Quand NN est grand, les log sont équivalents à Nlog(2)N\log(2) et on se retrouve avec la série harmonique, donc un équivalent de la minoration de log(ϕ(p1)/(p1))\log(\phi(p-1)/(p-1)) en log(N)/log(2) -\log(N)/\log(2). Comparons NN avec la taille de pp. On a log(p1)= ilog(p i)\log(p-1)=\sum_i \log(p_i), si on fait le même découpage en tranche, le log de p1p-1 est encadré à une constante multiplicative près par iN2 i=2 N+11\sum_{i\leq N} 2^i=2^{N+1}-1. Donc NN est en log(log(p))\log(\log(p)) et au final on a une minoration de ϕ(p1)/(p1)\phi(p-1)/(p-1) en O(log(log(log(p))))O(\log(log(\log(p)))) donc un double log en la taille de pp.

3.11.5  Application de la puissance rapide: cryptographie RSA

Interprétation du codage et du décodage.

Nous revenons sur la cryptographie RSA, en utilisant les notions vue dans les sections précédentes. On rappelle qu’on se donne un entier n=pqn=pq produit de deux nombres premiers pp et qq. Les entiers pp et qq sont secrets alors que nn est public. On choisit ensuite deux entiers dd et ee tels que de=1+k(p1)(q1)de=1 + k(p-1)(q-1), ou encore dd et ee sont inverses modulo l’indicatrice d’Euler de nn : de=1(modφ(n))de=1 \pmod {\varphi(n)} Le codage et le décodage se font avec l’algorithme de la puissance modulaire rapide : ab=a e(modn)c=b d(modn)a \rightarrow b=a^e \pmod n \rightarrow c=b^d \pmod n le cout est de O(ln(e)ln(n) 2)O(\ln(e)\ln(n)^2) et O(ln(d)ln(n) 2)O(\ln(d)\ln(n)^2) opérations.

On peut maintenant facilement montrer que ces deux fonctions sont réciproques l’une de l’autre lorsque aa est premier avec nn. En effet, on a a φ(n)=1(modn)a^{\varphi(n)}=1 \pmod n donc : c=a de(modn)=a 1+kφ(n)(modn)=a(a φ(n)) k(modn)=a(modn)c=a^{de} \pmod n = a^{1+k \varphi(n)} \pmod n =a (a^{\varphi(n)})^k \pmod n = a \pmod n

Comment générer des clefs

On choisit pp et qq en utilisant le test de Miller-Rabin. Par exemple

On choisit un couple de clefs privée-publique en utilisant l’identité de Bézout (ou inverse modulaire). Par exemple

Ici, on a pris E de sorte que l’exponentiation modulaire rapide à la puissance E nécessite peu d’opérations arithmétiques (17), comparé au calcul de la puissance d, ceci permet de faire l’opération “publique” plus rapidement (encodage ou vérification d’une signature) si le microprocesseur a peu de ressources (par exemple puce d’une carte bancaire).

Sur quoi repose la sécurité de RSA.

Logarithme discret

Il s’agit de résoudre en xx entier léquation g x=a(modn)g^x=a \pmod n Si aa est dans le sous-groupe multiplicatif engendré par gg, il y a des solutions qui sont égales modulo l’ordre de gg dans /n *\mathbb{Z}/n^*, et on peut noter x=log g(a)x=\log_g(a) la plus petite solution positive par analogie avec les réeks.

Pour trouver xx, on peut bien sur tester tous les entiers en partant de 1 (en multipliant par gg à chaque itération) jusqu’à trouver aa mais le cout est en O(nlog(n) 2)O(n \log(n)^2).

Si φ(n)\varphi(n) est connu (par exemple si n=pn=p est premier) et si on connait la factorisation de φ(n)\varphi(n) p1= ip i m ip-1=\prod_i p_i^{m_i} on peut faire mieux, on se ramène d’abord à résoudre plusieurs équations g i x i=a i(modn)g_i^{x_i}=a_i \pmod n, en prenant l’équation de départ à la puissance e i=(p1)/p i m i= jip j m je_i=(p-1)/p_i^{m_i}=\prod_{j\neq i} p_j^{m_j}, (avec g i=g e ig_i=g^{e_i} et a i=a e ia_i=a^{e_i}), puis on retrouve xx à partir des x ix_i par les restes chinois appliqués à x=x i(modp i m i)x=x_i \pmod{p_i^{m_i}}. Ces équations sont moins couteuses à résoudre, car si gg est un générateur de /n *\mathbb{Z}/n^*, l’ordre de g ig_i est p i m ip_i^{m_i}. On peut d’ailleurs appliquer une méthode pp-adique pour trouver x ix_i et se ramener à des équations avec un g ig_i d’ordre p ip_i, en commençant par prendre l’équation à la puissance p i m i1p_i^{m_i-1} ce qui donne x i(modp i)x_i \pmod {p_i} puis on cherche le 2ème terme du développement en puissance croissantes de x ix_i en prenant l’équation à la puissance p i m i2p_i^{m_i-2}, etc.

On peut donc se ramener à résoudre une équation de logarithme discret avec gg d’ordre p ip_i plus petit (premier ou suffisament petit pour pouvoir faire une recherche exhaustive) et aa dans le sous-groupe engendré par gg.

Lorsque la recherche exhaustive en O(n)O(n) (à des termes logarithmiques près) devient couteuse (par exemple nn de l’ordre de quelques milliers), il est possible d’utiliser une méthode déterministe (pas de bébé, pas de géant) ou probabiliste de type Pollard-rho pour diminuer le cout en O(n)O(\sqrt{n}) (à des termes logarithmiques près).

La méthode pas de bébé, pas de géant décompose x=qm+rx=qm+rmm est la partie entière d’un majorant de la racine carrée de l’ordre du sous-groupe engendré par gg. On calcule toutes les puissances rr-ième de gg de 0 à mm et on place les paires (g r,r)(g^r,r) dans une liste triée selon la valeur de g rg^r. On compare ensuite les a(g m) qa(g^{-m})^q pour q de 0 à mm avec les éléments de la table, si on a égalité on en déduit x=qm+rx=qm+r. La méthode de Pollard-rho permet de gagner sur le stockage de la table des pas de bébé.

On peut aussi rechercher des kk tels que g kg^k se factorise sur une base de nombre premiers b ib_i fixée à l’avance g k= ib i m i,kg^k=\prod_i b_i^{m_{i,k}} Ce qui permet de calculer les log en base gg des b ib_i en résolvant un système linéaire dans /(p1)\mathbb{Z}/(p-1) (par restes chinois et calcul p ip_i-adique).

On cherche alors une puissance ll telle que ag lag^l se factorise sur la base, ce qui permet de trouver le log de aa.

3.12  Algorithmes rapides sur les polynômes en une variable.

On a présenté à la section 3.9.2 un algorithme de multiplication rapide de polynômes. On verra à la section 25.2 un algorithme plus rapide. En utilisant un algorithme de multiplication rapide de polynômes, on peut accélérer la division euclidienne et l’algorithme d’Euclide.

3.12.1  Inverse modulo x lx^l

Soit AA un polynôme de coefficient constant 1. On cherche BB de degré strictement plus petit que ll tel que AB=1(modx l)AB=1 \pmod{x^l}. Pour l=1l=1, il suffit de poser B=1B=1. Supposons le problème résolu pour ll AB=1(modx l)AB=1 \pmod{x^l} cherchons C=B+x lDC=B+x^lD tel que A(B+x lD)=1(modx 2l)A(B+x^lD)= 1 \pmod{x^{2l}} Ceci équivaut à AD=1ABx l(modx l)AD=\frac{1-AB}{x^l} \pmod{x^l} donc D=B1ABx l(modx l)D=B \frac{1-AB}{x^l} \pmod{x^l} on calcule B(1AB)B(1-AB), on tronque pour avoir un polynôme de degré 2l12l-1, on divise par x lx^l (on sait que 1AB1-AB est divisible par x lx^l). On peut aussi calculer CC directement C=B+x lD=2BAB 2(modx 2l)C=B+x^lD= 2B-AB^2 \pmod{x^{2l}} Pour passer de la précision ll à la précision 2l2l, le coût est celui d’une multiplication de 2 polynômes en précision ll et d’une multiplication en précision 2l2l, donc M(l)+M(2l)M(l)+M(2l). Si ll est une puissance de 2, l=2 nl=2^n, le cout total est k=1 nM(2 k)+M(2 k1)\sum_{k=1}^n M(2^k)+M(2^{k-1}) Si la multiplication est Karatsuba, on obtient la même complexité pour l’inverse. Si la multiplication est la FFT en O(k2 k)O(k2^k), on obtient aussi la même complexité pour l’inverse.

3.12.2  Division euclidienne.

Soient AA et BB deux polynômes de degré respectifs nn et mm avec nmn \geq m, on pose la division euclidienne : A=BQ+RA=BQ+R Le degré de QQ est nm+1n-m+1, le cout de l’algorithme naïf est donc proportionnel à m(nm+1)m(n-m+1). Lorsque nm+1n-m+1 et mm sont grands, on peut espérer trouver un algorithme plus efficace pour calculer QQ et RR.

On peut ramener le calcul de QQ à celui d’un inverse modulo une puissance de xx en faisant le changement de variables x=1/xx=1/x et de multiplier par x nx^n. Si aa est le polynôme ayant les coefficients de AA écrits dans l’autre sens, on a a(x)=x nA(1x)a(x) = x^n A(\frac{1}{x}) Avec les mêmes conventions de notations pour bb, qq et rr (en considérant RR comme de degré exactement égal à m1m-1), on a : a=bq+x nm+1ra=bq+x^{n-m+1} r Donc a=bq(modx nm+1) a=bq \pmod{x^{n-m+1}}, et q=ainv(b(modx nm+1))q=a \mbox{inv}(b \pmod{x^{n-m+1}}) ce qui détermine qq (car son degré est nm+1n-m+1).

On calcule ensuite QQ et R=ABQR=A-BQ.

3.12.3  Euclide

L’observation de base pour accélérer Euclide est que pour faire une étape d’Euclide, on divise génériquement un polynôme AA de degré nn par un polynôme BB de degré n1n-1, avec un quotient de degré 1, dont les deux coefficients sont entièrement déterminés par les deux coefficients dominants et sous-dominants de AA et BB.

On peut généraliser cette observation si on pense en terme de l’algorithme d’Euclide étendu (Bézout), le vecteur colonne des deux restes R iR_i et R i+1R_{i+1} successifs à l’étape ii s’obtient en faisant le produit d’une matrice 2,2 par le vecteur colonne AA et BB (R i R i+1)=M i(A B)\begin{pmatrix} R_i \\ R_{i+1} \end{pmatrix} = M_i \begin{pmatrix} A \\ B \end{pmatrix} Les coefficients de M iM_i ne dépendent que des quotients initiaux, ils sont donc de degré au plus ii (environ). Si on change les ll coefficients de plus bas degré de AA ou BB, les coefficients de degré plus grand que (environ) i+li+l de R iR_i et R i+1R_{i+1} ne changent pas. On va prendre tout d’abord i=n/4i=n/4 et l=n/2l=n/2 (environ) pour AA et BB et plus loin dans l’algorithme i=n/4=li=n/4=l. Les termes de de degré >3n/4&gt;3n/4 de R iR_i et R i+1R_{i+1} ne vont pas dépendre des termes de degré plus petit que n/2n/2 de AA et BB, que l’on peut annuler, ce qui revient à mettre X n/2X^{n/2} en facteur ou encore à effectuer le calcul des n/4n/4 premières étapes avec uniquement les n/2n/2 coefficients de plus haut degré de AA et BB. Comme on a fait n/4n/4 étapes environ, on a diminué d’environ n/4n/4 le degré de R iR_i et R i+1R_{i+1}, qui encadrent 3n/43n/4. On refait alors environ n/4n/4 étapes en gardant les termes de degré plus grand que n/4n/4 de R kR_k et R k+1R_{k+1} (k=l=n/4k=l=n/4 ci-dessus), on a alors diminué de n/2n/2 le degré de la paire de restes successifs.

L’algorithme HGCD (half-GCD) calcule la matrice d’Euclide étendu qui permet de passer dans la suite des restes de A,BA,B avec deg(A)=n(A)=n>deg(B)(B) à R k,R k+1R_k,R_{k+1} avec deg(R k)n/2>(R_k) \geq n/2 &gt; deg(R k+1(R_{k+1}. Si nn est impair, on pose m=(n+1)/2m=(n+1)/2, si nn est pair, m=n/2m=n/2.

On a donc ramené hgcd en taille nn au calcul de deux hgcd en taille n/2n/2 et des produits de taille au plus nn.

Pour une preuve rigoureuse, on renvoie à Yap.

3.13  Pour en savoir plus.

Sur des aspects plus théoriques :

Sur des aspects plus pratiques, quelques références en ligne, la plupart sont accessibles gratuitement :

3.14  Exercices sur types, calcul exact et approché, algorithmes de bases

Vous pouvez tester directement dans votre navigateur Pour télécharger et installer Xcas sur votre ordinateur, suivre les instructions données sur
http://www-fourier.ujf-grenoble.fr/~parisse/giac_fr.html
Pour lancer xcas sous linux, cherchez Xcas dans le menu Education ou ouvrir un fenêtre terminal et taper la commande
xcas &
Lors de la première exécution, vous devrez choisir entre différents types de syntaxe (compatible C, maple ou TI89). Vous pouvez changer ce choix à tout moment en utilisant le menu Configuration->mode (syntaxe). On vous propose aussi d’ouvrir le tutoriel, qui est également accessible depuis le menu Aide, Débuter en calcul formel.

L’aide en ligne est accessible en tapant ?nom_de_commande. Dans Xcas, vous pouvez aussi taper le début d’un nom de commande puis la touche de tabulation (à gauche du A sur un clavier francais), sélectionner la commande dans la boite de dialogues puis cliquer sur Details pour avoir une aide plus complète dans votre navigateur. Pour plus de détails sur l’interface de Xcas, consultez le manuel (Aide->Interface). Si vous n’avez jamais utilisé de logiciel de calcul formel, vous pouvez commencer par lire le tutoriel (menu Aide->Debuter en calcul formel->tutoriel) et faire certains des exercices proposés (des corrigés sous forme de sessions Xcas sont dans Aide->Debuter en calcul formel->solutions)

Il peut être interessant de tester ces exercices en parallèle avec Xcas et des calculatrices formelles....

  1. À quelle vitesse votre logiciel multiplie-t-il des grands entiers (en fonction du nombre de chiffres)? On pourra tester le temps de calcul du produit de a(a+1)a(a+1)a=10000!a=10 000!, a=15000!a=15000!, etc. . Même question pour des polynômes en une variable (à générer par exemple avec symb2poly(randpoly(n)) ou avec poly1[op(ranm(.))]).
  2. Comparer le temps de calcul de a n(modm)a^n \pmod m par la fonction powmod et la méthode prendre le reste modulo mm après avoir calculé a na^n.

    Programmez la méthode rapide et la méthode lente. Refaites la comparaison. Pour la méthode rapide, programmer aussi la version itérative utilisant la décomposition en base 2 de l’exposant : on stocke dans une variable locale bb les puissances successives a 2 0(modm),a 2 1(modm),...,a 2 k(modm),...a^{2^0} \pmod m,a^{2^1} \pmod m, ..., a^{2^k} \pmod m, ..., on forme a n(modn)a^n \pmod n en prenant le produit modulo mm de ces puissances successives lorsque le bit correspondant est à 1 (ce qui se détecte par le reste de divisions euclidiennes sucessives par 2, le calcul de bb et du bit correspondant se font dans une même boucle).
  3. Déterminer un entier cc tel que c=1(mod3)c=1 \pmod 3, c=3(mod5)c=3 \pmod 5, c=5(mod7)c=5 \pmod 7 et c=2(mod11)c=2 \pmod{11}.
  4. Calculez dans /11\mathbb{Z}/11\mathbb{Z} a=0 10(xa) \prod_{a=0}^{10} (x-a)
  5. Algorithmes fondementaux : écrire des programmes implémentant
    1. le pgcd de 2 entiers
    2. l’algorithme de Bézout
    3. l’inverse modulaire en ne calculant que ce qui est nécessaire dans l’algorithme de Bézout
    4. les restes chinois
  6. Construire un corps fini de cardinal 128 (GF), puis factoriser le polynôme x 2yx^2-yyy est un élément quelconque du corps fini. Comparer avec la valeur de y\sqrt{y}.
  7. Utiliser la commande type ou whattype ou équivalent pour déterminer la représentation utilisée par le logiciel pour représenter une fraction, un nombre complexe, un flottant en précision machine, un flottant avec 100 décimales, la variable xx, l’expression sin(x)+2\sin(x)+2, la fonction x->sin(x), une liste, une séquence, un vecteur, une matrice. Essayez d’accéder aux parties de l’objet pour les objets composites (en utilisant op par exemple).
  8. Comparer le type de l’objet t si on effectue la commande t[2]:=0; après avoir purgé t ou après avoir affecté t:=[1,2,3] ?
  9. Comparer l’effet de l’affectation dans une liste et dans un vecteur ou une matrice sur votre logiciel (en Xcas, on peut utiliser =< au lieu de := pour stocker par référence).
  10. Le programme ci-dessous calcule la base utilisée pour représenter les flottants.
    Testez-le
    et expliquez.
  11. Déterminer le plus grand réel positif xx de la forme 2 n2^{-n} (nn entier) tel que (1.0+x)1.0(1.0+x)-1.0 renvoie 0 sur PC avec la précision par défaut puis avec Digits:=30.
  12. Calculer la valeur de a:=exp(π163)a:=\exp(\pi \sqrt{163}) avec 30 chiffres significatifs, puis sa partie fractionnaire. Proposez une commande permettant de décider si aa est un entier.
  13. Déterminer la valeur et le signe de la fraction rationnelle F(x,y)=13354y 6+x 2(11x 2y 2y 6121y 42)+112y 8+x2y F(x,y)= \frac{1335}{4} y^6 + x^2 (11x^2 y^2-y^6 -121y^4-2) + \frac{11}{2} y^8 + \frac{x}{2y} en x=77617x=77617 et y=33096y=33096 en faisant deux calculs, l’un en mode approché et l’autre en mode exact. Que pensez-vous de ces résultats? Combien de chiffres significatifs faut-il pour obtenir un résultat raisonnable en mode approché?

  14. Que se passe-t-il si on essaie d’appliquer l’algorithme de la puissance rapide pour calculer (x+y+z+1) k(x+y+z+1)^{k} par exemple pour k=64k=64 ? Calculer le nombre de termes dans le développement de (x+y+z+1) n(x+y+z+1)^n et expliquez.
  15. Programmation de la méthode de Horner
    Il s’agit d’évaluer efficacement un polynôme P(X)=a nX n+...+a 0 P(X) = a_n X^n + ... + a_0 en un point. On pose b 0=P(α)b_0=P(\alpha ) et on écrit : P(X)b 0=(Xα)Q(X) P(X)-b_0=(X-\alpha )Q(X) où : Q(X)=b nX n1+...+b 2X+b 1 Q(X) = b_n X^{n-1} + ... +b_2 X + b_1 On calcule alors par ordre décroissant b nb_n, b n1b_{n-1}, ..., b 0b_0.
    1. Donner b nb_n en fonction de a na_n puis pour in1i\leq n-1, b ib_i en fonction de a ia_i et b i+1b_{i+1}. Indiquez le détail des calculs pour P(X)=X 32X+5P(X)=X^3-2X+5 et une valeur de α\alpha non nulle.
    2. Écrire un fonction horn effectuant ce calcul: on donnera en arguments le polynôme sous forme de la liste de ces coefficients (dans l’exemple [1,0,-2,5]) et la valeur de α\alpha et le programme renverra P(α)P(\alpha ). (On pourra aussi renvoyer les coefficients de QQ).
    3. En utilisant cette fonction, écrire une fonction qui calcule le développement de Taylor complet d’un polynôme en un point.

1
Certains systèmes de calcul formel (calculatrices par exemple) utilisent d’ailleurs des méthodes spécifiques pour gérer le problème de la fragmentation de la mémoire, appelés “garbage collector”. Ce type de méthode est intégré dans des langages comme Lisp ou Java, en C/C++ on trouve des libraries pour cela, par exemple GC de Boehm, incluse dans la distribution de GCC.
2
Les HP Prime utilisent Giac comme noyau de calcul formel, les TI Nspire CAS utilisent sans doute une version actualisée du système utilisé sur les TI 89, 92, Voayge 200.
3
un quartet=un demi octet
4
Plus précisément deux piles, la pile de donnée et la pile gérant le flux d’exécution. Cette dernière n’est pas visible par l’utilisateur
5
Sauf si on utilise comme dernier argument le nombre d’arguments de la fonction ou si on utilise (cf. infra) un tag de début de liste d’arguments
6
Toutefois une adaptation du logiciel utilisant comme quantum de base par exemple 32 bits porterait cette limite à 65536 65535165536^{65535}-1

Chapitre 4  Les générateurs de nombres pseudo-aléatoires.

4.1  Selon la loi uniforme

Les générateurs d’entiers dans une plage donnée selon la loi uniforme servent en général de base pour générer des nombres aléatoires entiers ou non selon des lois classiques. Ils doivent à la fois être rapides, avoir une période égale à la plage donnée et avoir de bonnes propriétés statistiques.

Xcas utilise un “tiny” Mersenne Twister (de période environ 2 1272^{127}), certaines implantations de Giac utilisent un générateur congruentiel.

4.1.1  Les générateurs congruentiels à 1 cran.

Etant donnés trois entiers a,ca, c et mm on considère la suite u n+1=au n+c(modm)u_{n+1}=au_n+c \pmod m où on choisit (par exemple) comme représentant de u nu_n le reste de la division euclidienne par mm. La valeur de u 0u_0 est appelée seed en anglais, elle est initialisée usuellement soit à 0 (ce qui permet de reproduire des bugs dans un programme dépendant du hasard), soit avec l’horloge système ou tout autre entrée de l’ordinateur (par exemple périphériques).

On supposera que a1a\neq 1, le cas a=1a=1 n’est pas très intéressant. On a alors : u n=a nu 0+a n1a1c(modm)u_n=a^n u_0 + \frac{a^n-1}{a-1} c \pmod m On cherche à réaliser une période la plus grande possible idéalement mm, mais m1m-1 peut fort bien convenir, et c’est possible si mm est premier en choisissant aa générateur du groupe cyclique, car on a alors a1(modm)a\neq 1 \pmod m et : u n=a n(u 0+ca1)ca1(modm)u_n=a^n (u_0 + \frac{c}{a-1}) - \frac{c}{a-1} \pmod m donc la suite est stationnaire ou prend toutes les valeurs sauf ca1- \frac{c}{a-1} .

Exemple : choisir pour mm une puissance de 2 permet d’effectuer la division euclidienne très rapidement, mais cela a un inconvénient assez important : les bits de poids faible de u nu_n ont une périodicité très (trop) petite. Il est alors intéressant de prendre m=2 k±1m=2^k \pm 1, parce que la division euclidienne par mm peut se coder efficacement en base 2, on divise par 2 k2^k (décalage de kk bits) et on ajuste x=(2 k±1)q+r=2 kq+(r±q)x=(2^k \pm 1)q+r=2^k q + (r \pm q). Ainsi pour k=4k=4 et m=2 4+1=17m=2^4+1=17, mm est premier. On peut construire une suite de période 16 en choisissant aa générateur de (/17) *(\mathbb{Z}/17\mathbb{Z})^*, par exemple a=3a=3 et c=2c=2 donne la suite 0,2,8,9,12,4,14,10,15,13,7,6,3,11,1,50,2,8,9,12,4,14,10,15,13,7,6,3,11,1,5.

On a le :

Théorème 13   La suite (u n)(u_n) définie ci-dessus est de périodicité maximale mm si et seulement si :
  1. cc et mm sont premiers entre eux
  2. a1a-1 est divisible par tous les facteurs premiers de mm
  3. a1a-1 est multiple de 4 si mm l’est.

On observe d’abord que vouloir la périodicité maximale revient à pouvoir supposer que u 0=0u_0=0. Il est donc nécessaire d’avoir cc et mm premiers entre eux, sinon tous les u nu_n sont multiples du pgcd de cc et mm. Ensuite, on pose m=p i r im=\prod p_i^{r_i} la décomposition en facteurs premiers de mm et on raisonne modulo chaque premier (par le lemme chinois, la périodicité est le PPCM des périodicités modulo chaque p i r ip_i^{r_i}). Si a1(modp) ia\neq 1 \pmod p_i alors a1a-1 est inversible modulo p ip_i donc modulo p i r ip_i^{r_i} on a u n=a n(u 0+ca1)+ca1u_n=a^n (u_0 + \frac{c}{a-1}) + \frac{-c}{a-1} et la valeur c/(a1)-c/(a-1) ne peut pas être atteinte (ou alors la suite est stationnaire). Donc a1a-1 doit être divisible par tous les facteurs premiers de mm pour avoir la périodicité maximale. Réciproquement, il faut trouver le premier ordre nn tel que (a n1)/(a1)=0(modp r)(a^n-1)/(a-1)=0 \pmod{p^r}. On pose a=b+1a=b+1, on a a n1a1=(b+1) n1b= k=1 n(nk)b k1=n+n(n1)2b+...\frac{a^n-1}{a-1}=\frac{(b+1)^n-1}{b} = \sum_{k=1}^n \left(^n_k\right) b^{k-1} = n +\frac{n(n-1)}{2}b +... On sait que b=a1b=a-1 est un multiple de pp, disons b=qpb=qp, on en déduit que pour n=p rn=p^r, on a bien (a n1)/(a1)=0(modp r)(a^n-1)/(a-1)=0 \pmod{p^r}, alors que pour n=p r1n=p^{r-1} et p2p\neq 2, (a n1)/(a1)=n(modp r)0(a^n-1)/(a-1)=n \pmod{p^r} \neq 0. Le même calcul pour p=2p=2 (prise en compte de la division par 2 de n(n1)n(n-1)) donne la condition b=a1b=a-1 est multiple de 4 si mm l’est.

On trouvera dans Knuth une discussion détaillée du choix de a,b,ma, b, m.

Exemple : m=2 311m=2^{31}-1 est premier, on peut donc construire un générateur congruentiel de période m1m-1 en choisissant aa générateur de /m *\mathbb{Z}/m\mathbb{Z}^*. Pour en trouver un, on peut tester aa pris au hasard et voir si a m1j1(modm)a^{\frac{m-1}{j}} \neq 1 \pmod m pour tous les diviseurs premiers de m1m-1. Par exemple





initialise l’état du générateur. Un appel à r() renvoie un entier entre 1 et m1m-1, pour avoir un g’enérateur pseudo-aléatoire selon la loi uniforme sur ]0,1[]0,1[, on tape
.

Ainsi

permet de vérifier visuellement si les réels générés sont bien répartis, ou bien

qui détecte des biais invisibles avec le test précédent, par exemple pour
.

4.1.2  Récurrence à kk éléments

Au lieu d’une récurrence u k+1=au k+cu_{k+1}=au_k+c on conserve en mémoire k+1k+1 valeurs successives de la suite et on calcule u n+k+1=a 0u n+...+a ku n+k(modp)u_{n+k+1} = a_0 u_n+...+a_{k}u_{n+k} \pmod p Si on note U nU_n le vecteur (u n,...,u n+k)(u_n,...,u_{n+k}) et AA la matrice companion du polynôme a 0+a 1x+...+a kx ka_0+a_1x+...+a_kx^k, on a U n+1=AU nU_{n+1}=AU_n. Rechercher un générateur de période maximale revient à chercher AA d’ordre le plus grand possible, donc les valeurs propres de AA, i.e. les racines de PP, doivent être racines de l’unité d’ordre le plus grand possible donc p k1p^k-1. Ce que l’on peut faire en construire un polynôme PP irréductible primitif (cf. la section 16 sur la construction de représentation des corps finis).

4.1.3  Mersenne twister.

Ce sont des générateurs plus performants, avec un état interne en général plus grand, dont l’état initial est généré par un générateur congruentiel. Ils utilisent une relation de récurrence qui ressemble aux générateurs congruentiels, mais au lieu de travailler sur de grands entiers, on découpe l’entier en mots de taille gérée par le CPU, et on fait des opérations de type matriciels avec des opérations bit à bit (ou exclusif par exemple) au lieu d’opérations arithmétiques.

4.2  Selon plusieurs lois classiques

La méthode générale consiste à calculer la distribution cumulée de la loi et à prendre la fonction réciproque d’un réel généré aléatoirement entre 0 et 1 selon la loi uniforme. Lorsqu’on a un nombre discret de valeurs possibles pas trop grand et que l’on veut générer plusieurs nombres selon la même loi, on peut précalculer la distribution cumulée en chaque valeur, et faire une dichotomie pour trouver la valeur de la fonction réciproque du nombre aléatoire généré. Les calculs peuvent être rendus difficiles par des dépassement de capacité des flottants si on utilise des méthodes naives pour estimer les fonction de répartition. On trouvera dans Abramowitz-Stegun diverses formules pour initialiser les méthodes de Newton pour inverser les fonction de répartition courante.

Il existe aussi quelques cas particuliers où on peut obtenir plus facilement un réel selon la loi donnée :

Chapitre 5  Le PGCD de polynômes.

Lorsqu’on travaille avec polynômes en une variable à coefficients sur un corps fini, l’algorithme d’Euclide est un algorithme efficace, pourvu que les degrés ne soient pas trop grands (dans ce cas il faut utiliser des algorithmes de type diviser pour régner, ici par exemple l’algorithme halfgcd qui consiste en gros à calculer d’abord l’identité de Bézout sous forme matricielle pour les polynômes tronqués en enlevant les degrés les plus bas). Mais l’algorithme d’Euclide est inefficace pour calculer le pgcd de deux polynômes à coefficients entiers ou à plusieurs variables. On va présenter ici les algorithmes utilisés habituellement par les systèmes de calcul formel: sous-résultant (PRS), modulaire (GCDMOD), pp-adique (EEZGD) et heuristique (GCDHEU). Le premier est une adaptation de l’algorithme d’Euclide et s’adapte à des coefficients assez génériques. Les trois autres ont en commun d’évaluer une ou plusieurs variables du polynôme (dans ce dernier cas il est nécessaire de bien distinguer le cas de polynômes à plusieurs variables) et de reconstruire le pgcd par des techniques distinctes, la plupart du temps ces algorithmes fonctionnent seulement si les coefficients sont entiers.

Soit donc P P et QQ deux polynômes à coefficients dans un corps. Le pgcd de PP et QQ n’est défini qu’à une constante près. Mais lorsque les coefficients de PP et QQ sont dans un anneau euclidien comme par exemple \mathbb{Z} ou [i]\mathbb{Z}[ i ], on appellera pgcd de PP et QQ un polynôme DD tel que P/DP / D et Q/DQ / D soient encore à coefficients dans l’anneau, et que DD soit optimal, c’est-à-dire que si un multiple μD\mu D de DD vérifie P/μDP / \mu D et Q/μDQ / \mu D sont à coefficients dans l’anneau, alors μ\mu est inversible.

La première étape d’un algorithme de calcul de pgcd consiste donc à diviser par son contenu (pgcd des coefficients entiers) chaque polynôme.

Exemple: P=4X 24P = 4 X^2 - 4 et Q=6X 2+12X+6Q = 6 X^2 + 12 X + 6. Le polynôme X+1X + 1 est un pgcd de PP et QQ puisqu’il est de degré maximal divisant PP et QQ mais le pgcd de PP et QQ est 2(X+1)2 ( X + 1 ). Remarquons qu’avec notre définition 2(X+1)- 2 ( X + 1 ) convient aussi. Par convention on appelera pgcd dans [X]\mathbb{Z}[X] le polynôme ayant un coefficient dominant positif.

Définition: On appelle contenu c(P)c ( P ) d’un polynôme PP le pgcd des coefficients de PP. On définit alors la partie primitive de PP: pp(P)=P/c(P)( P ) = P / c ( P ). Si c(P)=1c(P)=1, on dit que PP est primitif.

Proposition : Si AA et BB sont primitifs alors ABAB est primitif.
Sinon, on prend un facteur premier pp du contenu de ABAB, AB=0(modp)AB=0 \pmod p donc A=0A=0 ou B=0B=0 modulo pp, absurde.

Proposition : le contenu de ABAB est le produit des contenus de AA et de BB.
En effet le produit des contenus de AA et BB divise le contenu de ABAB, et AA/contenu de AA est primitif, BB/contenu de BB est primitif donc le produit l’est,

Proposition : Si AA et BB sont primitifs et si BB divise AA dans [X]\mathbb{Q}[X] alors A/B[X]A/B \in \mathbb{Z}[X].

Preuve : Soit Q=A/B[X]Q=A/B \in \mathbb{Q}[X]. Soit qq \in \mathbb{N} le PPCM des dénominateurs des coefficients de QQ et notons P=qQ[X]P=qQ \in \mathbb{Z}[X]. On a A=BQA=BQ donc qA=BPqA=BP donc le contenu de qAqA est le produit du contenu de BB par celui de PP, donc le contenu de P=qQP=qQ est qq, donc Q[X]Q \in \mathbb{Z}[X].

Donc le PGCD de AA et BB, polynômes primitifs de [X]\mathbb{Z}[X] est obtenu en prenant un PGCD de AA et BB dans [X]\mathbb{Q}[X], en multipliant par le PPCM des dénominateurs et en rendant le polynôme obtenu primitif (on change le signe du résultat si nécessaire pour avoir un coefficient dominant positif).

On en déduit que : D=pgcd(P,Q)=pgcd(c(P),c(Q))pgcd(pp(P),pp(Q)) D = \mbox{pgcd} ( P, Q ) = \mbox{pgcd} ( c ( P ), c ( Q )) \mbox{pgcd} ( \mbox{pp} ( P ), \mbox{pp} ( Q ))

5.1  Le sous-résultant.

La première idée qui vient à l’esprit pour améliorer l’efficacité de l’algorithme d’Euclide consiste à éviter les fractions qui sont créées par les divisions euclidiennes. On utilise à cet effet la pseudo-division: au lieu de prendre le reste RR de la division euclidienne du polynôme PP par QQ, on prend le reste de la division de Pq δ+1P q^{\delta + 1} par QQ, où qq désigne le coefficient dominant de QQ et δ\delta la différence entre le degré de PP et de QQ.

Exercice: En utilisant votre système de calcul formel préféré, calculez les restes intermédiaires générés dans l’algorithme d’Euclide lorsqu’on utilise la pseudo-division par exemple pour les polynômes P(x)=(x+1) 7(x1) 6P ( x ) = ( x + 1 )^7 - ( x - 1 )^6 et sa dérivée.

Une solution avec giac/xcas:

pgcd(a,b,prs):={ 
 local P,p,Q,q,R,g,h,d,res;
 res:=NULL;
 // convertit a et b en polynomes listes 
 // et extrait la partie primitive   
 P:=symb2poly(a);
 p:=lgcd(P); // pgcd des elements de la liste
 P:=P/p; 
 Q:=symb2poly(b);
 q:=lgcd(Q);
 Q:=Q/q; 
 if (size(P)<size(Q)){ // echange P et Q
  R:=P; P:=Q; Q:=R; 
 } 
 // calcul du contenu du pgcd
 p:=gcd(p,q);
 g:=1;
 h:=1;
 while (size(Q)!=1){
  q:=Q[0]; // coefficient dominant
  d:=size(P)-size(Q);
  R:=rem(q^(d+1)*P,Q);
  if (size(R)==0) return(p*poly12symb(Q/lgcd(Q),x));
  P:=Q;
  Q:=R;
  if (prs==1) Q:=Q/content(Q);
  if (prs==2) Q:=R/(g*h^d);
  res:=res,Q;
  if (prs==2) g:=q; h:=q^d/h^(d-1);
 } 
 return(p,res);
}:;



On s’aperçoit que les coefficients croissent de manière exponentielle (comparer avec ce qui se passe en mettant 1 comme dernier argument). La deuxième idée qui vient naturellement est alors à chaque étape de rendre le reste primitif, donc de diviser RR par le pgcd de ces coefficients. Cela donne un algorithme plus efficace, mais encore assez peu efficace car à chaque étape on doit calculer le pgcd de tous les coefficients, on peut imaginer le temps que cela prendra en dimension 1 et à fortiori en dimension supérieure. L’idéal serait de connaitre à l’avance une quantité suffisamment grande qui divise tous les coefficients du reste.

C’est ici qu’intervient l’algorithme du sous-résultant : après chaque pseudo-division euclidienne, on exhibe un coefficient "magique" qui divise les coefficients du reste (pour tester mettre le dernier argument de pgcd à 2). Ce coefficient n’est pas le pgcd mais il est suffisamment grand pour qu’on évite la croissance exponentielle des coefficients.

Algorithme du sous-résultant

Arguments: 2 polynômes PP et QQ primitifs. Valeur de retour: le pgcd de PP et QQ.

Pour calculer le coefficient "magique" on utilise 2 variables auxiliaires gg et hh initialisées a 1.

Boucle à effectuer tant que QQ est non nul:

Si on sort normalement de la boucle, QQ est nul, on renvoie donc la partie primitive de PP qui est le pgcd cherché.

Pour tester l’algorithme avec xcas, il suffit de décommenter les deux lignes Q:=R/(g*h^d); et g:=q; h:=q^d/h (d-1); ci-dessus.

La preuve de l’algorithme est un peu longue et par ailleurs bien expliquée dans le 2ème tome de Knuth (The Art of Computer Programming, Semi-numerical Algorithms), on y renvoie donc le lecteur intéressé. L’idée générale (et l’origine du nom de l’algorithme) est de considérer la matrice de Sylvester des polynômes de départ PP et QQ (celle dont le déterminant est appelé résultant de PP et QQ) et de traduire les pseudo-divisions qui permettent de calculer les restes successifs du sous-résultant en opération de ligne sur ces matrices. On démontre alors que les coefficients de RR divisés par gh δg h^{\delta} peuvent être interprétés comme des déterminants de sous-matrices de la matrice de Sylvester après réduction et c’est cela qui permet de conclure qu’ils sont entiers.

Par exemple, supposons que P=R 0P=R_0, Q=R 1Q=R_1, R 2R_2... diminuent de 1 en degré à chaque division (c’est le cas générique dans le déroulement de l’algorithme d’Euclide). Dans ce cas, δ=1\delta=1, il s’agit par exemple de montrer que le reste R 3R_3 de Q=R 1Q=R_1 par R 2R_2 est divisible par le carré du coefficient dominant de Q=R 1Q=R_1. Voyons comment on obtient les coefficients de R 3R_3 à partir de la matrice de Sylvester de PP et QQ. Prenons la sous-matrice constituée des 2 premières lignes de PP et des 3 premières lignes de QQ et réduisons-la sous forme échelonnée sans introduire de dénominateur. (p n p n1 p n2 p n3 ... 0 p n p n1 p n2 ... q n1 q n2 q n3 q n4 ... 0 q n1 q n2 q n3 ... 0 0 q n1 q n2 ...) \left( \begin{array}{ccccc} p_n & p_{n-1} & p_{n-2} & p_{n-3} & ... \\ 0 & p_n & p_{n-1} & p_{n-2} & ... \\ q_{n-1} & q_{n-2} & q_{n-3} & q_{n-4} & ... \\ 0 & q_{n-1} & q_{n-2} & q_{n-3} & ... \\ 0 & 0 & q_{n-1} & q_{n-2} & ... \end{array} \right) On effectue L 1q n1L 1p nL 3L_1 \leftarrow q_{n-1} L_1 - p_n L_3 et L 2q n1L 2p nL 4L_2 \leftarrow q_{n-1} L_2 - p_n L_4, ce qui correspond à l’élimination du terme en xx du quotient de PP par QQ (0 q n1p n1p nq n2 ... ... ... 0 0 q n1p n1p nq n2 ... ... q n1 q n2 q n3 q n4 ... 0 q n1 q n2 q n3 ... 0 0 q n1 q n2 ...) \left( \begin{array}{ccccc} 0 & q_{n-1} p_{n-1} - p_n q_{n-2} & ... & ... & ... \\ 0 & 0 & q_{n-1} p_{n-1} - p_n q_{n-2} & ... & ... \\ q_{n-1} & q_{n-2} & q_{n-3} & q_{n-4} & ... \\ 0 & q_{n-1} & q_{n-2} & q_{n-3} & ... \\ 0 & 0 & q_{n-1} & q_{n-2} & ... \end{array} \right) on effectue ensuite L 1 q n1L 1(q n1p n1p nq n2)L 4 L 2 q n1L 2(q n1p n1p nq n2)L 5 \begin{matrix} L_1 & \leftarrow &q_{n-1} L_1 - (q_{n-1} p_{n-1} - p_n q_{n-2}) L_4 \\ L_2 & \leftarrow & q_{n-1} L_2 - (q_{n-1} p_{n-1} - p_n q_{n-2}) L_5 \end{matrix} ce qui correspond à l’élimination du terme constant du quotient de PP par QQ, on obtient (0 0 r 2,n2 ... ... 0 0 0 r 2,n2 ... q n1 q n2 q n3 q n4 ... 0 q n1 q n2 q n3 ... 0 0 q n1 q n2 ...) \left( \begin{array}{ccccc} 0 & 0 & r_{2,n-2} & ... & ... \\ 0 & 0 & 0 & r_{2,n-2} & ... \\ q_{n-1} & q_{n-2} & q_{n-3} & q_{n-4} & ... \\ 0 & q_{n-1} & q_{n-2} & q_{n-3} & ... \\ 0 & 0 & q_{n-1} & q_{n-2} & ... \end{array} \right) si on enlève les lignes 3 et 4, et les colonnes 1 et 2, on obtient (après échanges de lignes) une sous-matrice de la matrice de Sylvester de QQ et R 2R_2 (q n1 q n2 ... r 2,n2 ... ... 0 r 2,n2 ...) \left( \begin{array}{ccc} q_{n-1} & q_{n-2} & ... \\ r_{2,n-2} & ... & ... \\ 0 & r_{2,n-2} & ... \end{array} \right) On recommence les opérations de réduction de cette sous-matrice correspondant à la division euclidienne de QQ par R 2R_2, on obtient (0 0 r 3,n3 r 2,n2 ... ... 0 r 2,n2 ...) \left( \begin{array}{ccc} 0 & 0 & r_{3,n-3} \\ r_{2,n-2} & ... & ... \\ 0 & r_{2,n-2} & ... \end{array} \right) puis après suppression des colonnes 1 et 2 et des lignes 2 et 3 la ligne des coefficients de R 3R_3.

Supposons qu’on se limite dès le début de la réduction à ne garder que les colonnes 1 à 4 et une 5-ième colonne parmi les suivantes, on obtient à la fin de la réduction une matrice 1,1 qui contient un des coefficients de R 3R_3 (selon le choix de la 5-ième colonne). Donc ce coefficient est égal au déterminant de la matrice 1,1 qui est égal, au signe près, au déterminant de la matrice 3,3 dont il est issu par notre réduction (en effet, dans la 2ième partie de la réduction, on a multiplié deux fois L 1L_1 par r 2,n2r_{2,n-2}, mais on doit ensuite diviser le déterminant par r 2,n2 2r_{2,n-2}^2 pour éliminer les colonnes 1 et 2). Quant au déterminant de la matrice 3,3, il se déduit du déterminant de la matrice 5,5 par multiplication par q n1 4q_{n-1}^4 (2 lignes ont été multipliées 2 fois par q n1q_{n-1}) et division par q n1 2q_{n-1}^2 (élimination des colonnes 1 et 2). Au final, tout coefficient de R 3R_3 est égal au produit d’un déterminant 5,5 extrait de la matrice de Sylvester de PP et QQ par q n1 2q_{n-1}^2, qui est justement le coefficient “magique” par lequel on divise le reste de R 1=QR_1=Q par R 2R_2 lors de l’algorithme du sous-résultant.

5.2  Le pgcd en une variable.

5.2.1  Le pgcd heuristique.

On suppose ici que les coefficients sont entiers ou entiers de Gauss. On peut donc se ramener au cas où les polynômes sont primitifs.

L’idée consiste à évaluer PP et QQ en un entier zz et à extraire des informations du pgcd gg des entiers P(z)P ( z ) et Q(z)Q ( z ). Il faut donc un moyen de remonter de l’entier gg à un polynôme GG tel que G(z)=gG ( z ) = g. La méthode consiste à écrire en base zz l’entier gg, avec une particularité dans les divisions euclidiennes successives on utilise le reste symétrique (compris entre z/2- z / 2 et z/2z / 2). Cette écriture donne les coefficients d’un polynôme GG unique. On extrait ensuite la partie primitive de ce polynôme GG. Lorsque zz est assez grand par rapport aux coefficients des polynômes PP et QQ, si pp(G)\mbox{pp} ( G ) divise PP et QQ, on va montrer que le pgcd de PP et de QQ est D=pp(G)D = \mbox{pp} ( G ).

On remarque tout d’abord que d:=D(z)d : = D ( z ) divise gg. En effet DD divise PP et QQ donc pour tout entier (ou entier de Gauss) zz, D(z)D ( z ) divise P(z)P ( z ) et Q(z)Q ( z ). Il existe donc une constante aa telle que g=ad g = a d On a aussi pp(G)\mbox{pp} ( G ) divise DD. Il existe donc un polynôme CC tel que : D=pp(G)C D = \mbox{pp} ( G ) C Nous devons prouver que CC est un polynôme constant. On suppose dans la suite que ce n’est pas le cas. Evaluons l’égalité précédente au point zz, on obtient d=gc(G)C(z) d = \frac{g}{c ( G )} C ( z ) Finalement 1=ac(G)C(z) 1 = \frac{a}{c ( G )} C ( z ) La procédure de construction de GG nous donne une majoration de ces coefficients par |z|/2| z | / 2, donc de c(G)c ( G ) par |z|/2| z | / 2, donc C(z)C ( z ) divise un entier de module plus petit que |z|/2| z | / 2, donc |C(z)||z|2 | C ( z ) | \leq \frac{| z |}{2} On considère maintenant les racines complexes z 1,.,z nz_1, \ldots ., z_n du polynôme CC (il en existe au moins une puisqu’on a supposé CC non constant). On a: C(X)=c n(Xz 1).(Xz n) C ( X ) = c_n ( X - z_1 ) \ldots . ( X - z_n ) Donc, comme c nc_n est un entier (ou entier de Gauss) non nul, sa norme est supérieure ou égale à 1 et : |C(z)| j=1 n(|z||z j|) | C ( z ) | \geq \prod^n_{j = 1} ( | z | - | z_j | ) Il nous reste à majorer les racines de CC pour minorer |C(z)|| C ( z ) |. Comme CC divise DD il divise PP et QQ donc les racines de CC sont des racines communes à PP et QQ. On va appliquer le:

Lemme 14   Soit x une racine complexe d’un polynôme P=a nX n+.+a 0P = a_n X^n + \ldots . + a_0.

Alors  |x|<|P||a n|+1,|P|=max 0in(|a i|) | x | &lt; \frac{| P |}{| a_n |} + 1, | P | = \max_{0 \leq i \leq n} ( | a_i | )

Application du lemme à C(X)C(X) : on a 1/|c n|11/|c_n|\leq 1 donc si on a choisi zz tel que |z|2min(|P|,|Q|)+2| z | \geq 2 \min ( | P |, | Q | ) + 2, alors pour tout jj, |z j|<|z|/2| z_j | &lt; | z | / 2 donc |C(z)|>(|z|2) n | C ( z ) | &gt; \left( \frac{| z |}{2} \right)^n qui contredit notre majoration de |C(z)|| C ( z ) |.

Théorème 15   Soit PP et Q deux polynômes à coefficients entiers. On choisit un entier z tel que |z|2min(|P|,|Q|)+2| z | \geq 2 \min ( | P |, | Q | ) + 2, si la partie primitive du polynôme GG reconstruit à partir du pgcd de P(z)etP ( z ) \mbox{et}Q(z) par écriture en base zz (avec comme reste euclidien le reste symétrique) divise PP et QQ alors c’est le pgcd de PP et QQ.

Pour finir la démonstration du théorème, il nous faut encore montrer le lemme. On a a nx n=a n1x n1+.+a 0 - a_n x^n = a_{n - 1} x^{n - 1} + \ldots . + a_0 Donc |a n||x| n|P|(1+.+|x| n1)=|P||x| n1|x|1 | a_n | | x |^n \leq | P | ( 1 + \ldots . + | x |^{n - 1} ) = | P | \frac{| x |^n - 1}{| x | - 1} Ici on peut supposer que |x|1| x | \geq 1, sinon le lemme est démontré, donc |x|1| x | - 1 est positif et |a n|(|x|1)|P||x| n1|x| n|x|1<|P||a n| | a_n | ( | x | - 1 ) \leq | P | \frac{| x |^n - 1}{| x |^n} \Rightarrow | x | - 1 &lt; \frac{| P |}{| a_n |} Remarques

Exemple 16   Si P 0=6(X 21)P_0 = 6 ( X^2 - 1 ) et Q 0=4(X 31)Q_0 = 4 ( X^3 - 1 ).

Le contenu de P 0P_0 est 6, celui de Q 0Q_0 est 4.
On a donc pgcd des contenus = 2,
P=X 21,Q=X 31P = X^2 - 1, Q = X^3 - 1. La valeur initiale de zz est donc 2*1+2=42 \ast 1 + 2 = 4. On trouve P(4)=15,Q(4)=63P ( 4 ) = 15, Q ( 4 ) = 63. Le pgcd entier de 15 et 63 est 3 que nous écrivons symétriquement en base 4 sous la forme 3=1*413 = 1 \ast 4 - 1, donc G=X1G = X - 1, sa partie primitive est X1X - 1. On teste si X1X - 1 divise PP et QQ, c’est le cas, donc c’est le pgcd de PP et QQ et le pgcd de P 0P_0 et Q 0Q_0 est 2(X1)2 ( X - 1 ).

Algorithme gcdheu
En arguments deux polynômes P 0P_0 et Q 0Q_0 à coefficients entiers ou entiers de Gauss. Retourne le pgcd de P 0P_0 et Q 0Q_0 ou faux en cas d’échec.

  1. Calculer le contenu de P 0P_0 et Q 0Q_0. Vérifier que les coefficients sont entiers de Gauss sinon retourner faux.
  2. Extraire la partie primitive PP de P 0P_0 et QQ de Q 0Q_0, calculer le pgcd cc des contenus de P 0P_0 et Q 0Q_0
  3. Déterminer z=2min(|P|,|Q|)+2z = 2 \min ( | P |, | Q | ) + 2.
  4. Début de boucle: initialisation du nombre d’essais à 1, test d’arrêt sur un nombre maximal d’essais, avec changement de zz entre deux itérations (par exemple z2zz \leftarrow 2 z).
  5. Calculer le pgcd gg de P(z)P ( z ) et Q(z)Q ( z ) puis son écriture symétrique en base zz dont on extrait la partie primitive GG.
  6. Si GnedivisepasG \mbox{ne} \mbox{divise} \mbox{pas}PP passer à l’itération suivante. De même pour QQ.
  7. Retourner cGc G
  8. Fin de la boucle
  9. Retourner faux.

On remarque au passage qu’on a calculé le quotient de PP par GG et le quotient de QQ par GG lorsque la procédure réussit. On peut donc passer à la procédure gcdheu deux paramètres supplémentaires par référence, les deux polynômes que l’on affectera en cas de succès, ce qui optimise la simplification d’une fraction de 2 polynômes.

5.2.2  Le pgcd modulaire

On part du fait que si DD est le pgcd de PP et QQ dans \mathbb{Z} (ou [i])\mathbb{Z} [ i ] ) alors après réduction modulo un nombre premier nn qui ne divise pas les coefficients dominants de PP et QQ, DD divise le pgcd GG de PP et QQ dans /n\mathbb{Z} / n \mathbb{Z} (par convention, le pgcd dans /n\mathbb{Z} / n \mathbb{Z} est normalisé pour que son coefficient dominant vaille 1). Comme on calcule GG dans /n\mathbb{Z} / n \mathbb{Z}, les coefficients des restes intermédiaires de l’algorithme d’Euclide sont bornés, on évite ainsi la croissance exponentielle des coefficients. Il faudra ensuite reconstruire DD à partir de GG.

On remarque d’abord que si on trouve G=1,G = 1, alors PP et QQ sont premiers entre eux. En général, on peut seulement dire que le degré de GG est supérieur ou égal au degré de DD. En fait, le degré de GG est égal au degré de DD lorsque les restes de l’algorithme d’Euclide (calculé en effectuant des pseudo-divisions, cf. l’exercice 1) ont leur coefficient dominant non divisible par nn. Donc plus nn est grand, plus la probabilité est grande de trouver GG du bon degré.

Dans la suite, nous allons déterminer une borne bb à priori majorant les coefficients de DD. On utilisera ensuite la même méthode que dans l’algorithme modulaire de recherche de racines évidentes: on multiplie GG dans /n\mathbb{Z} / n \mathbb{Z} par le pgcd dans \mathbb{Z} des coefficients dominants pp et qq de PP et QQ. Soit D˜=pgcd(p,q)G\tilde{D} = \mbox{pgcd} ( p, q ) G le résultat écrit en représentation symétrique. Si nbpgcd(p,q)n \geq b \mbox{pgcd} ( p, q ) et si GG est du bon degré, on montre de la même manière que D=D˜D = \tilde{D}. Comme on ne connait pas le degré de DD, on est obligé de tester si D˜\tilde{D} divise PP et QQ. Si c’est le cas, alors D˜\tilde{D} divise DD donc D˜=D\tilde{D} = D puisque degre(D˜)=degre(G)degre(D)\mbox{degre} ( \tilde{D} ) = \mbox{degre} ( G ) \geq \mbox{degre} ( D ). Sinon, nn est un nombre premier malchanceux pour ce calcul de pgcd (degre(G)degre(D)\mbox{degre} ( G ) \geq \mbox{degre} ( D )), il faut essayer un autre premier.

Remarque: On serait tenté de dire que les coefficients de DD sont bornés par le plus grand coefficient de PP. C’est malheureusement faux, par exemple (X+1) 2( X + 1 )^2 dont le plus grand coefficient est 2 divise (X+1) 2(X1)( X + 1 )^2 ( X - 1 ) dont le plus grand coefficient (en valeur absolue) est 1.

Soit P=p iX iP = \sum p_i X^i un polynôme à coefficients entiers. On utilise la norme euclidienne |P| 2=|p i| 2(6) | P |^2 = \sum | p_i |^2 \qquad (6) On établit d’abord une majoration du produit des racines de norme supérieure à 1 de PP à l’aide de |P| | P |^{}. Ensuite si DD est un diviseur de PP, le coefficient dominant dd de DD divise le coefficient dominant pp de PP et les racines de DD sont aussi des racines de PP. On pourra donc déterminer une majoration des polynômes symétriques des racines de DD et donc des coefficients de DD.

Lemme 17   Soit A= j=0 aa jX jA = \sum_{j = 0}^a a_j X^j un polynôme et α\alpha \in \mathbb{C}. Alors |(Xα)A|=|(α¯X1)A| | ( X - \alpha ) A | = | ( \overline{\alpha} X - 1 ) A |

Pour prouver le lemme 17, on développe les produits de polynômes. On pose a 1=a a+1=0a_{-1} = a_{a + 1} = 0 et on note \Re la partie réelle. |(Xα)A| 2= j=0 a+1|a j1αa j| 2= j=0 a+1|a j1| 2+|α| 2|a j| 22(a j1αa j¯) | ( X - \alpha ) A |^2 = \sum_{j = 0}^{a + 1} | a_{j - 1} - \alpha a_j |^2 = \sum_{j = 0}^{a + 1} | a_{j - 1} |^2 + | \alpha |^2 | a_j |^2 - 2 \Re ( a_{j - 1} \overline{\alpha a_j} ) |(α¯X1)A| 2= j=0 a+1|α¯a j1a j| 2= j=0 a+1|α| 2|a j1| 2+|a j| 22(α¯a j1a j¯) | ( \overline{\alpha} X - 1 ) A |^2 = \sum_{j = 0}^{a + 1} | \overline{\alpha} a_{j - 1} - a_j |^2 = \sum_{j = 0}^{a + 1} | \alpha |^2 | a_{j - 1} |^2 + | a_j |^2 - 2 \Re ( \overline{\alpha} a_{j - 1} \overline{a_j} ) Les deux donnent bien le même résultat.

Soit P(X)=p(Xα j)P ( X ) = p \prod ( X - \alpha_j ) la factorisation de PP sur \mathbb{C}. On introduit le polynôme P˜=p j/|α j|1(Xα j) j/|α j|<1(α j¯X1) \tilde{P} = p \prod_{j / | \alpha_j | \geq 1} ( X - \alpha_j ) \prod_{j / | \alpha_j | &lt; 1} ( \overline{\alpha_j} X - 1 ) qui d’après le lemme a la même norme que PP. La norme de PP majore donc le coefficient constant de P˜\tilde{P} d’où: j/|α j|1|α j||P||p|(7) \prod_{j / | \alpha_j | \geq 1} | \alpha_j | \leq \frac{| P |}{| p |} \qquad (7) On remarque que (7) reste vraie si on considère les racines δ j\delta_j de norme plus grande que 1 d’un diviseur DD de PP puisque le produit porte alors sur un sous-ensemble. On écrit maintenant l’expression des coefficients d jd_j de DD à l’aide des racines δ j\delta_j de DD: |d mj|=|d|| choixdejracinesparmilesmracinesdeD δ kracineschoisiesδ k| | d_{m - j} | = | d | \left| \sum_{\mbox{choix} \mbox{de} j \mbox{racines} \mbox{parmi} \mbox{les} m \mbox{racines} \mbox{de} D} \quad \prod_{\delta_k \in \mbox{racines} \mbox{choisies}} \delta_k \right| Pour majorer |d mj|| d_{m - j} |, on commence par majorer |δ k|| \delta_k | par β k=max(1,|δ k|)\beta_k = \max ( 1, | \delta_k | ). On est donc ramené à majorer σ j,m(β)= choixdejparmimvaleursβ k β kchoixβ k \sigma_{j, m} ( \beta ) = \sum_{\mbox{choix} \mbox{de} j \mbox{parmi} m \mbox{valeurs} \beta_k} \quad \prod_{\beta_k \in \mbox{choix}} \beta_k avec pour hypothèse une majoration de M= k=1 mβ kM = \prod_{k = 1}^m \beta_k donnée par la relation (7). Pour cela, on cherche le maximum de σ j,m(β)\sigma_{j, m} ( \beta ) sous les contraintes MM fixé et β k1\beta_k \geq 1.

On va montrer que le maximum ne peut être atteint que si l’un des β k=M\beta_k = M (et tous les autres β k=1)\beta_k = 1 ). Sinon, quitte à réordonner supposons que les β k\beta_k sont classés par ordre croissant. On a donc β m11\beta_{m - 1} \neq 1, on pose β k˜=β k\widetilde{\beta_k} = \beta_k pour km2k \leq m - 2, β˜ m1=1\tilde{\beta}_{m - 1} = 1 et β˜ m=β m1β m\tilde{\beta}_m = \beta_{m - 1} \beta_m. Comparons σ j,m(β)\sigma_{j, m} ( \beta ) et σ j,nm(β˜)\sigma_{j, \mbox{nm}} ( \tilde{\beta} ). Si le choix de jj parmi mm comporte k=m1k = m - 1 et k=mk = m, le produit est inchangé. Sinon on a la somme de deux produits, l’un contenant k=m1k = m - 1 et l’autre k=mk = m. On compare donc B(β m1+β m)B ( \beta_{m - 1} + \beta_m ) et B(1+β m1β m)B ( 1 + \beta_{m - 1} \beta_m ) avec B= β kresteduchoixβ kB = \prod_{\beta_k \in \mbox{reste} \mbox{du} \mbox{choix}} \beta_k. Comme 1+β m1β mβ m1+β m 1 + \beta_{m - 1} \beta_m \geq \beta_{m - 1} + \beta_m puisque la différence est le produit (1β m)(1β m1)(1-\beta_m)(1-\beta_{m-1}) de deux nombres positifs, on arrive à la contradiction souhaitée.

Ensuite on décompose les choix de σ m,j\sigma_{m, j} en ceux contenant MM et des 1 et ceux ne contenant que des 1, d’où la majoration σ j,m(β)(m1 j1)M+(m1 j) \sigma_{j, m} ( \beta ) \leq \left(\begin{array}{c} m - 1\\ j - 1 \end{array}\right) M + \left(\begin{array}{c} m - 1\\ j \end{array}\right) et finalement |d mj||d|((m1 j1)|P||p|+(m1 j))(8) | d_{m - j} | \leq | d | \left( \left(\begin{array}{c} m - 1\\ j - 1 \end{array}\right) \frac{| P |}{| p |} + \left(\begin{array}{c} m - 1\\ j \end{array}\right) \right) \qquad (8) On peut en déduire une majoration indépendante de jj sur les coefficients de DD, en majorant |d|| d | par |p|| p | (puisque dd divise pp) et les coefficients binomiaux par 2 m12^{m - 1} (obtenue en développant (1+1) m1( 1 + 1 )^{m - 1}). D’où le

Théorème 18   (Landau-Mignotte) Soit PP un polynôme à coefficients entiers (ou entiers de Gauss) et DD un diviseur de PP de degré mm. Si |P|| P | désigne la norme euclidienne du vecteur des coefficients de PP et pp le coefficient dominant de PP alors les coefficients d jd_j de DD satisfont l’inégalité |d j|2 m1(|P|+|p|)(9) | d_j | \leq 2^{m - 1} ( | P | + | p | ) \qquad (9)

Avec cette estimation, on en déduit que si nn est un premier plus grand que min(2 degre(P)1(|P|+|p|),2 degre(Q)1(|Q|+|q|)),(10) \min \left( 2^{\mbox{degre} ( P ) - 1} ( | P | + | p | ), 2^{\mbox{degre} ( Q ) - 1} ( | Q | + | q | ) \right), \qquad (10) alors le pgcd trouvé dans /n\mathbb{Z} / n \mathbb{Z} va se reconstruire en un pgcd dans \mathbb{Z} si son degré est le bon.

Malheureusement la borne précédente est souvent très grande par rapport aux coefficients du pgcd et calculer dans /n\mathbb{Z} / n \mathbb{Z} s’avèrera encore inefficace (surtout si le pgcd est 1). Cela reste vrai même si on optimise un peu la majoration (10) en repartant de (8).

L’idée est donc de travailler modulo plusieurs nombres premiers plus petits et reconstruire le pgcd des 2 polynômes à coefficients entiers à partir des pgcd des polynômes dans /n\mathbb{Z} / n \mathbb{Z} et du théorème des restes chinois. En pratique on prend des nombres premiers inférieurs à la racine carrée du plus grand entier hardware de la machine (donc plus petits que 2 162^{16} sur une machine 32 bits) ce qui permet d’utiliser l’arithmétique hardware du processeur sans risque de débordement.

Algorithme du PGCD modulaire en 1 variable:

En argument: 2 polynômes primitifs PP et QQ à coefficients entiers. Le résultat renvoyé sera le polynôme pgcd.

Variable auxiliaire: un entier NN initialisé à 1 qui représente le produit des nombres premiers utilisés jusqu’ici et un polynôme HH initialisé à 0 qui représente le pgcd dans /N\mathbb{Z} / N \mathbb{Z}.

Boucle infinie :

  1. Chercher un nouveau nombre premier nn qui ne divise pas les coefficients dominants pp et qq de PP et QQ
  2. Calculer le pgcd GG de PP et QQ dans /n\mathbb{Z} / n \mathbb{Z}. Si GG=1, renvoyer 1.
  3. Si H=0H = 0 ou si le degré de GG est plus petit que le degré de HH, recopier GG dans HH et nn dans NN, passer à la 6ème étape
  4. Si le degré de GG est plus grand que celui de HH passer à l’itération suivante
  5. Si le degré de GG est égal au degré de HH, en utilisant le théorème des restes chinois, calculer un polynôme H˜\tilde{H} tel que H˜=H\tilde{H} = H modulo NN et H˜=G\tilde{H} = G modulo nn. Recopier H˜\tilde{H} dans HH et nNn N dans NN.
  6. Ecrire pgcd(p,q)H\mbox{pgcd} ( p, q ) H en représentation symétrique. Soit H˜\tilde{H} le résultat rendu primitif. Tester si H˜\tilde{H} divise PP et QQ. Si c’est le cas, renvoyer H˜\tilde{H}, sinon passer à l’itération suivante.

Finalement on n’a pas utilisé bb, la borne de Landau-Mignotte. On peut penser que l’étape 6 ne devrait être effectuée que lorsque NN est plus grand que pgcd(p,q)b\mbox{pgcd} ( p, q ) b. En pratique, on effectue le test de l’étape 6 plus tôt parce que les coefficients du pgcd sont rarement aussi grand que bb. Mais pour éviter de faire le test trop tôt, on introduit une variable auxiliaire HH' qui contient la valeur de HH de l’itération précédente et on ne fait le test que si H=HH' = H (ou bien sûr si on a dépassé la borne).

Remarque:

L’algorithme ci-dessus fonctionne également pour des polynômes à plusieurs variables.

Exemple 1:

Calcul du pgcd de (X+1) 3(X1) 4( X + 1 )^3 ( X - 1 )^4 et (X 41) ( X^4 - 1 )^{}. Prenons pour commencer n=2n = 2. On trouve comme pgcd X 4+1X^4 + 1 (en effet 1=1- 1 = 1 donc on cherchait le pgcd de (X+1) 7( X + 1 )^7 et de X 4+1=(X+1) 4X^4 + 1 = ( X + 1 )^4). On teste si X 4+1X^4 + 1 divise PP et QQ, ce n’est pas le cas donc on passe au nombre premier suivant. Pour n=3n = 3, on trouve X 21X^2 - 1. Donc n=2n = 2 n’était pas un bon nombre premier pour ce calcul de pgcd puisqu’on a trouvé un pgcd de degré plus petit. On teste si X 21X^2 - 1 divise PP et QQ, c’est le cas ici donc on peut arrêter, le pgcd cherché est X 21X^2-1.

Exemple 2 :

Calcul du pgcd de (X+1) 3(X1) 4( X + 1 )^3 ( X - 1 )^4 et (X 41) 3( X^4 - 1 )^3. Pour n=2n = 2, on trouve un polynôme de degré 7. Pour n=3n = 3, on trouve X 61X^6 - 1 donc n=2n = 2 était une mauvaise réduction. Comme X 61X^6 - 1 ne divise pas PP et QQ, on passe à n=5n = 5. On trouve X 6+2X 42X 21X^6 + 2 X^4 - 2 X^2 - 1. On applique le théorème des restes chinois qui va nous donner un polynôme dans /15\mathbb{Z} / 15 \mathbb{Z}. On cherche donc un entier congru à 2 modulo 5 et à 0 modulo 3, -3 est la solution (écrite en représentation symétrique), donc le polynôme modulo 15 est X 63X 4+3X 21=(X 21) 3X^6 - 3 X^4 + 3 X^2 - 1 = ( X^2 - 1 )^3. Ce polynôme divise PP et QQ, c’est donc le pgcd de PP et de QQ.

5.3  Le pgcd à plusieurs variables.

5.3.1  Le pgcd heuristique.

On suppose comme dans le cas à une variable que les polynômes sont primitifs, donc qu’on a simplifié les polynômes par le pgcd entier de leurs coefficients entiers.

Le principe est identique à celui du PGCD à 1 variable, on évalue les deux polynômes PP et QQ de kk variables X 1,.,X kX_1, \ldots ., X_k en un X k=zX_k = z et on calcule le pgcd gg des 2 polynômes P(z)P ( z ) et Q(z)Q ( z ) de k1k - 1 variables. On remonte ensuite à un polynôme GG par écriture symétrique en base zz de gg et on teste si pp(G)\mbox{pp} ( G ) divise PP et QQ. Il s’agit à nouveau de montrer que si zz est assez grand, alors pp(G)\mbox{pp} ( G ) est le pgcd cherché. On sait que d=D(z)d = D ( z ) divise gg. Il existe donc un polynôme aa de k1k - 1 variables tel que g=adg = a d. On sait aussi que pp(G)\mbox{pp} ( G ) divise DD, donc il existe un polynôme CC de kk variables tel que D=C*pp(G).D = C \ast \mbox{pp} ( G ) . On évalue en zz et on obtient d=C(z)g/c(G)d = C ( z ) g / c ( G ), où c(G)c ( G ) est un entier, donc c(G)=a*C(z) c ( G ) = a \ast C ( z ) Comme c(G)c ( G ) est un entier, aa et C(z)C ( z ) sont des polynômes constants. Comme précédemment, on a aussi |C(z)||z|/2| C ( z ) | \leq | z | / 2 puisque |c(G)||z|/2| c ( G ) | \leq | z | / 2.

En pratique, cet algorithme nécessite le calcul récursif de pgcd sans garantie de réussite. On l’évite donc s’il y a beaucoup de variables (la limite est par exemple de 5 pour MuPAD).

5.3.2  Le pgcd modulaire multivariables.

Ici, on travaille modulo X nα X_n - \alpha_{}, où X 1,.,X nX_1, \ldots ., X_n désignent les variables des polynômes. On considère donc deux polynômes PP et QQ comme polynômes de la variables X nX_n avec des coefficients dans [X 1,.,X n1]\mathbb{Z} [ X_1, \ldots ., X_{n - 1} ]. On évalue en X n=αX_n = \alpha, on obtient deux polynômes en n1n - 1 variables dont on calcule le pgcd (récursivement).

Il s’agit de reconstruire le pgcd par interpolation. Tout d’abord, on a une borne évidente sur le degré du pgcd par rapport à la variable X nX_n, c’est le minimum δ\delta des degrés par rapport à X nX_n des polynômes PP et QQ. A première vue, il suffit donc d’évaluer les polynômes en δ+1\delta + 1 points α\alpha.

Il faut toutefois prendre garde aux mauvaises évaluations et à la normalisation des pgcd avant d’interpoler. En effet, si D(X 1,.,X n)D ( X_1, \ldots ., X_n ) désigne le pgcd de PP et QQ et G(X 1,.,X n1)G ( X_1, \ldots ., X_{n - 1} ) le pgcd de P(X 1,.,X n1,α)P ( X_1, \ldots ., X_{n - 1}, \alpha ) et de Q(X 1,.,X n1,α)Q ( X_1, \ldots ., X_{n - 1}, \alpha ), on peut seulement dire D(X 1,.,X n1,α)D ( X_1, \ldots ., X_{n - 1}, \alpha ) divise GG. Plusieurs cas sont donc possibles lorsqu’on évalue en un nouveau point α\alpha:

On voit que les mauvaises évaluations se détectent simplement par les degrés. Pour la normalisation, on utilise une petite astuce: au lieu de reconstruire lepgcdD\mbox{le} \mbox{pgcd} D, on va reconstruire un multiple du pgcd DD (ce multiple appartiendra à [X n])\mathbb{Z} [ X_n ] ). On voit maintenant PP et QQ comme des polynômes en n1n - 1 variables X 1,.,X n1X_1, \ldots ., X_{n - 1} à coefficients dans [X n]\mathbb{Z} [ X_n ]. Alors lcoeff(D)(D), le coefficient dominant de DD (relativement à l’ordre lexicographique sur les variables X 1,...,X n1X_1,...,X_{n-1}), est un polynôme en X nX_n qui divise le coefficient dominant de PP et de QQ donc divise le coefficient dominant du pgcd des coefficients dominants de PP et de QQ. On va donc reconstruire le polynôme : D=DΔ(X n)lcoeff(D)(X n),Δ(X n)=pgcd(lcoeff(P)(X n),lcoeff(Q)(X n)) D' = D \frac{\Delta ( X_n )}{\mbox{lcoeff} ( D ) ( X_n )}, \Delta ( X_n ) = \mbox{pgcd} ( \mbox{lcoeff} ( P ) ( X_n ), \mbox{lcoeff} ( Q ) ( X_n )) c’est-à-dire DD multiplié par un polynôme qui ne dépend que de X nX_n.

Revenons à GG en un point α\alpha de bonne évaluation. C’est un multiple entier de D(X 1,.,X n1,α)D ( X_1, \ldots ., X_{n - 1}, \alpha ): G=βD(X 1,.,X n1,α) G = \beta D ( X_1, \ldots ., X_{n - 1}, \alpha ) Donc, comme polynômes de X 1,...,X n1X_1,...,X_{n-1} à coefficients dans [X n]\mathbb{Z}[X_n] ou dans \mathbb{Z}, lcoeff(G)=βlcoeff(D) |X n=α\mbox{lcoeff} ( G ) = \beta \mbox{lcoeff} ( D )_{| X_n = \alpha}. Comme lcoeff(D)\mbox{lcoeff} ( D ) divise Δ(X n)\Delta ( X_n ), il en est de même en X n=αX_n = \alpha donc lcoeff(G)(G) divise βΔ(α)\beta \Delta(\alpha). On en déduit que Δ(α)G \Delta ( \alpha) G qui est divisible par Δ(α)β \Delta (\alpha) \beta est divisible par lcoeff(G)\mbox{lcoeff} ( G ). On va donc considérer le polynôme Δ(α)G/lcoeff(G) \Delta (\alpha) G / \mbox{lcoeff} ( G ) : ses coefficients sont entiers et son coefficient dominant est Δ(α)=lcoeff(D(X 1,.,X n1,α))\Delta ( \alpha) = \mbox{lcoeff}(D'( X_1, \ldots ., X_{n - 1}, \alpha )) donc Δ(α)G/lcoeff(G)=D(X 1,.,X n1,α) \Delta (\alpha) G / \mbox{lcoeff} ( G )= D'( X_1, \ldots ., X_{n - 1}, \alpha )

Algorithme du pgcd modulaire à plusieurs variables (interpolation dense):

Arguments: 2 polynômes primitifs PP et QQ de nn variables X 1,.,X nX_1, \ldots ., X_n à coefficients entiers. Renvoie le pgcd de PP et QQ.

  1. Si n=1n = 1, renvoyer le pgcd de PP et QQ en une variable.
  2. Test rapide de pgcd trivial par rapport à X nX_n. On cherche des n1n - 1-uplets α\alpha tels que P(α,X n)P ( \alpha, X_n ) et Q(α,X n)Q ( \alpha, X_n ) soient de même degré que PP et QQ par rapport à la variable X nX_n. On calcule le pgcd GG de ces 2 polynômes en une variable. Si le pgcd est constant, alors on retourne le pgcd des coefficients de PP et QQ.
  3. On divise PP et QQ par leur contenu respectifs vu comme polynômes en X 1,.,X n1X_1, \ldots ., X_{n - 1} à coefficients dans [X n]\mathbb{Z} [ X_n ], on note C(X n)C ( X_n ) le pgcd des contenus. On calcule aussi le pgcd Δ(X n)\Delta ( X_n ) des coefficients dominants de PP et de QQ.
  4. On initialise DD' le pgcd reconstruit à 0, I(X n)I ( X_n ) le polynôme d’interpolation à 1, δ=(δ 1,...,δ n1)\delta=(\delta_1,...,\delta_{n-1}) la liste des degrés partiels du pgcd par rapport à X 1,.,X n1X_1, \ldots ., X_{n - 1} au minimum des degrés partiels de PP et QQ par rapport à X 1,.,X n1X_1, \ldots ., X_{n - 1}, ee le nombre d’évaluation à 0 et EE l’ensemble des points d’interpolation à la liste vide.
  5. Boucle infinie:
    • Faire α\alpha=entier aléatoire n’appartenant pas à EE jusqu’à ce que degre(P(X 1,.,X n1,α))=degre X n(P(X 1,.,X n) degre(Q(X 1,.,X n1,α))=degre X n(Q(X 1,.,X n)) \begin{matrix} \mbox{degre}(P ( X_1, \ldots ., X_{n - 1}, \alpha ))=\mbox{degre}_{X_n} ( P ( X_1, \ldots ., X_n ) & & \\ \mbox{degre} ( Q ( X_1, \ldots ., X_{n - 1}, \alpha )) = \mbox{degre}_{X_n} ( Q ( X_1, \ldots ., X_n )) & & \end{matrix}
    • Calculer le pgcd G(X 1,.,X n1)G ( X_1, \ldots ., X_{n - 1} ) en n1n - 1 variables de P(X 1,.,X n1,α)P ( X_1, \ldots ., X_{n - 1}, \alpha ) et Q(X 1,.,X n1,α)Q ( X_1, \ldots ., X_{n - 1}, \alpha ).
    • Si degre (G) i<δ i\mbox{degre}_{} ( G )_i &lt; \delta_i pour un indice au moins. Si degre(G)δ\mbox{degre} ( G ) \leq \delta, on pose δ=degre(G)\delta = \mbox{degre} ( G ), D=GΔ(α)lcoeff(G)D' = G \frac{\Delta ( \alpha )}{\mbox{lcoeff} ( G )}, I=X nαI = X_n - \alpha, e=1e = 1 et E=[α]E = [ \alpha ], sinon on pose δ=min(δ,degre(G)),D=0,I=1,e=0,E=[]\delta = \min ( \delta, \mbox{degre} ( G )), D' = 0, I = 1, e = 0, E = [ ]. On passe à l’itération suivante.
    • Si degre(G)>δ\mbox{degre} ( G ) &gt; \delta, on passe à l’itération suivante.
    • Si degre(G)=δ\mbox{degre} ( G ) = \delta, on interpole:
      • G:=GΔ(α)lcoeff(G)G := G \frac{\Delta ( \alpha )}{\mbox{lcoeff} ( G )}
      • D:=D+I(X n) α jE(αα j)(GD(X 1,.,X n1,α))D' := D' + \frac{I ( X_n )}{\prod_{\alpha_j \in E} ( \alpha - \alpha_j )} ( G - D' ( X_1, \ldots ., X_{n - 1}, \alpha ))
      • I:=I*(X nα)I := I \ast ( X_n - \alpha )
      • e:=e+1e := e + 1 et ajouter α\alpha à EE
      • Si ee est strictement plus grand que le minimum des degrés partiels de PP et QQ par rapport à X nX_n, on pose D˜\tilde{D} la partie primitive de DD' (vu comme polynôme à coefficients dans [X n]\mathbb{Z} [ X_n ]), on teste si PP et QQ sont divisibles par D˜\tilde{D}, si c’est le cas, on renvoie D=C(X n)D˜D = C ( X_n ) \tilde{D}

On observe que dans cet algorithme, on fait le test de divisibilite de D˜\tilde{D} par PP et QQ. En effet, même après avoir évalué en suffisamment de points, rien n’indique que tous ces points sont des points de bonne évaluation. En pratique cela reste extrêmement improbable. En pratique, on teste la divisibilité plus tôt, dès que DD' n’est pas modifié par l’ajout d’un nouveau point à la liste des α j\alpha_j.

Il existe une variation de cet algorithme, appelé SPMOD (sparse modular), qui suppose que seuls les coefficients non nuls du pgcd en n1n - 1 variables sont encore non nuls en nn variables (ce qui a de fortes chances d’être le cas). L’étape d’interpolation est alors remplacée par la résolution d’un sous-système d’un système de Vandermonde. Cette variation est intéressante si le nombre de coefficients non nuls en n1n - 1 variables est petit devant le degré. Si elle échoue, on revient à l’interpolation dense.

Notons enfin qu’on peut appliquer cette méthode lorsque les coefficients de PP et QQ sont dans /n\mathbb{Z} / n \mathbb{Z} mais il faut alors vérifier qu’on dispose de suffisamment de points d’interpolation. Ce qui en combinant avec l’algorithme modulaire à une variable donne un algorithme doublement modulaire pour calculer le pgcd de 2 polynômes à coefficients entiers. C’est cette méthode qu’utilise par exemple MuPAD (en essayant d’abord SPMOD puis l’interpolation dense).

Exemple:

Dans cet exemple, on donne FF et GG sous forme factorisée, le but étant de faire comprendre l’algorithme. En utilisation normale, on n’exécuterait cet algorithme que si FF et GG étaient développés.

P=((x+1)y+x 2+1)(y 2+xy+1),Q=((x+1)y+x 2+1)(y 2xy1)P = (( x + 1 ) y + x^2 + 1 ) ( y^2 + x y + 1 ), Q = (( x + 1 ) y + x^2 + 1 ) ( y^2 - x y - 1 ).

Prenons xx comme variable X 1X_1 et yy comme variable X 2X_2. Les coefficients dominants de PP et QQ sont respectivement yy et y- y donc Δ=y\Delta = y.

En y=0y = 0, P(x,0)=x 2+1P ( x, 0 ) = x^2 + 1 n’est pas du bon degré.

En y=1y = 1, P(x,1)=(x+x 2+2)(x+2)P ( x, 1 ) = ( x + x^2 + 2 ) ( x + 2 ) et Q(x,1)=(x+x 2+2)(x)Q ( x, 1 ) = ( x + x^2 + 2 ) ( - x ) sont du bon degré. Leur pgcd est G=x 2+x+2G = x^2 + x + 2, Δ(1)=1\Delta ( 1 ) = 1, donc D=x 2+x+1D' = x^2 + x + 1. On teste la divisibilité de PP par DD', le teste échoue.

En y=2y = 2, P(x,2)=(x 2+2x+3)(2x+5)P ( x, 2 ) = ( x^2 + 2 x + 3 ) ( 2 x + 5 ) et Q(x,2)=(x 2+2x+3)(2x+3)Q ( x, 2 ) = ( x^2 + 2 x + 3 ) ( - 2 x + 3 ) donc G=x 2+2x+3G = x^2 + 2 x + 3, Δ(2)=2\Delta ( 2 ) = 2. On interpole: D=x 2+x+2+y121(2(x 2+2x+3)(x 2+x+2))=y(x 2+3x+4)(2x+2) D' = x^2 + x + 2 + \frac{y - 1}{2 - 1} ( 2 ( x^2 + 2 x + 3 ) - ( x^2 + x + 2 )) = y ( x^2 + 3 x + 4 ) - ( 2 x + 2 ) On teste la divisibilité de PP par DD', le test échoue.

En y=3y = 3, P(x,3)=(x 2+3x+4)(3x+10)P ( x, 3 ) = ( x^2 + 3 x + 4 ) ( 3 x + 10 ) et Q(x,3)=(x 2+3x+4)(3x+8)Q ( x, 3 ) = ( x^2 + 3 x + 4 ) ( - 3 x + 8 ) donc G=x 2+3x+4G = x^2 + 3 x + 4, Δ(3)=3\Delta ( 3 ) = 3. On interpole: D = y(x 2+3x+4)(2x+2)+ (y2)(y1)(32)(31)(3(x 2+3x+4)(3(x 2+3x+4)(2x+2))) \begin{matrix} D' &= &y ( x^2 + 3 x + 4 ) - ( 2 x + 2 ) + \\ & & \frac{( y - 2 ) ( y - 1 )}{( 3 - 2 ) ( 3 - 1 )} \left( 3 ( x^2 + 3 x + 4 ) - ( 3 ( x^2 + 3 x + 4 ) - ( 2 x + 2 )) \right) \end{matrix} donc D=y(x 2+3x+4)(2x+2)+(y2)(y1)2(2x2)=x 2y+xy 2+y 2+y D' = y ( x^2 + 3 x + 4 ) - ( 2 x + 2 ) + \frac{( y - 2 ) ( y - 1 )}{2} ( - 2 x - 2 ) = x^2 y + x y^2 + y^2 + y On divise DD' par son contenu et on trouve x 2+xy+y+1x^2 + x y + y + 1 qui est bien le pgcd de PP et QQ.

5.3.3  EZGCD.

Il s’agit d’une méthode pp-adique. On évalue toutes les variables sauf une, on calcule le pgcd en une variable et on remonte au pgcd variable par variable (EEZGCD) ou toutes les variables simultanément (EZGCD) par un lemme de Hensel. Il semble qu’il est plus efficace de remonter les variables séparément.

Soit donc FF et GG deux polynômes primitifs dépendant des variables X 1,,X nX_1, \ldots, X_n de pgcd DD, on fixe une des variables qu’on appelera X 1X_1 dans la suite. Soient lcoeff(F)\mbox{lcoeff} ( F ) et lcoeff(G)\mbox{lcoeff} ( G ) les coefficients dominants de FF et GG par rapport à X 1X_1. On évalue FF et GG en un n1n - 1 uplet bb tel que le degré de FF et GG par rapport à X 1X_1 soit conservé après evaluation en bb. On suppose que D b(X 1)=pgcd(F(b),G(b))D_b ( X_1 ) = \mbox{pgcd} ( F ( b ), G ( b )) a le même degré que D(b)D ( b ). On a donc l’égalité: (F*lcoeff(F))(b)=(D blcoeff(F(b))lcoeff(D b))*(F(b)D blcoeff(F)(b)lcoeff(F(b)D b)) ( F \ast \mbox{lcoeff} ( F )) ( b ) = \left( D_b \frac{\mbox{lcoeff} ( F ( b ))}{\mbox{lcoeff} ( D_b )} \right) \ast \left( \frac{F ( b )}{D_b} \frac{\mbox{lcoeff} ( F ) ( b )}{\mbox{lcoeff} ( \frac{F ( b )}{D_b} )} \right) et de même en remplaçant FF par GG.

Pour pouvoir lifter cette égalité (c’est-à-dire généraliser à plusieurs variables), il faut que D bD_b et F(b)D b\frac{F ( b )}{D_b} soient premiers entre eux. Sinon, on peut essayer de lifter l’égalité analogue avec GG. En général, on montre qu’il existe un entier jj tel que D bD_b et F(b)+jG(b)D b\frac{F ( b ) + j G ( b )}{D_b} soient premiers entre eux. En effet, sinon au moins un des facteurs irréductibles de D bD_b va diviser F(b)+jG(b)D b\frac{F ( b ) + j G ( b )}{D_b} pour deux valeurs distinctes de jj et va donc diviser à la fois F(b)D b\frac{F ( b )}{D_b} et G(b)D b\frac{G ( b )}{D_b} en contradiction avec la définition de D b=pgcd(F(b),G(b))D_b = \mbox{pgcd} ( F ( b ), G ( b )). On lifte alors l’égalité obtenue en remplaçant FF par (F+kG)( F + k G ) ci-dessus. Dans la suite, on suppose qu’on peut prendre j=0j = 0 pour alléger les notations.

On va aussi supposer que b=0b = 0. Sinon, on fait un changement d’origine sur les polynômes FF et GG pour que b=0b = 0 convienne, on calcule le pgcd et on lui applique la translation d’origine opposée.

On adopte ensuite la notation suivante: si kk est un entier, on dit qu’un polynôme PP est un O(k)O ( k ) si la valuation de PP vu comme polynôme en X 2,.,X nX_2, \ldots ., X_n à coefficients dans [X 1]\mathbb{Z} [ X_1 ] est supérieure ou égale à k k^{}, ou de manière équivalente si P(X 1,hX 2,.,hX n)=O h0(h k) P ( X_1, h X_2, \ldots ., h X_n ) = O_{h \rightarrow 0} ( h^k ) L’égalité à lifter se réécrit donc: Flcoeff(F)=P 0Q 0+O(1) F \mbox{lcoeff} ( F ) = P_0 Q_0 + O ( 1 ) P 0=P_0 =D blcoeff(F(b))lcoeff(D b)D_b \frac{\mbox{lcoeff} ( F ( b ))}{\mbox{lcoeff} ( D_b )} et Q 0=F(b)D blcoeff(F)(b)lcoeff(F(b)D b)Q_0 = \frac{F ( b )}{D_b} \frac{\mbox{lcoeff} ( F ) ( b )}{\mbox{lcoeff} ( \frac{F ( b )}{D_b} )} sont premiers entre eux et de degré 0 par rapport aux variables X 2,.,X nX_2, \ldots ., X_n. Cherchons P 1=O(1)P_1 = O ( 1 ) et Q 1=O(1)Q_1 = O ( 1 ) de degré 1 par rapport aux variables X 2,.,X nX_2, \ldots ., X_n tels que Flcoeff(F)=(P 0+P 1)(Q 0+Q 1)+O(2) F \mbox{lcoeff} ( F ) = ( P_0 + P_1 ) ( Q_0 + Q_1 ) + O ( 2 ) Il faut donc résoudre Flcoeff(F)P 0Q 0=P 0Q 1+Q 0P 1+O(2) F \mbox{lcoeff} ( F ) - P_0 Q_0 = P_0 Q_1 + Q_0 P_1 + O ( 2 ) On peut alors appliquer l’identité de Bézout qui permet de déterminer des polynômes P 1P_1 et Q 1Q_1 satisfaisant l’égalité ci-dessus (avec comme reste O(2)O ( 2 ) nul) puisque P 0P_0 et Q 0Q_0 sont premiers entre eux. De plus, on choisit P 1P_1 et Q 1Q_1 tels que degre X 1P 1degre X 1(F)degre (Q 0)=degre(P 0)\mbox{degre}_{X_1} P_1 \leq \mbox{degre}_{X_1} ( F ) - \mbox{degre}_{} ( Q_0 ) = \mbox{degre} ( P_0 ) et degre X 1(Q 1)degre(Q 0)\mbox{degre}_{X_1} ( Q_1 ) \leq \mbox{degre} ( Q_0 ) et lcoeff X 1(P 0+P 1)+O(2)=lcoeff X 1(Q 0+Q 1)+O(2)=lcoeff X 1(F)\mbox{lcoeff}_{X_1} ( P_0 + P_1 ) + O ( 2 ) = \mbox{lcoeff}_{X_1} ( Q_0 + Q_1 ) + O ( 2 ) = \mbox{lcoeff}_{X_1} ( F ). On tronque ensuite P 1P_1 et Q 1Q_1 en ne conservant que les termes de degré 1 par rapport à X 2,.,X nX_2, \ldots ., X_n.

On trouve de la même manière par récurrence P kP_k et Q kQ_k homogènes de degré kk par rapport à X 2,.,X kX_2, \ldots ., X_k, de degré par rapport à X 1X_1 respectivement inférieur aux degrés de Q 0Q_0 et de P 0P_0 et tels que Flcoeff(F)=(P 0+.+P k)(Q 0+.+Q k)+O(k+1)(11) F \mbox{lcoeff} ( F ) = ( P_0 + \ldots . + P_k ) ( Q_0 + \ldots . + Q_k ) + O ( k + 1 ) \qquad (11) et lcoeff(F)=lcoeff X 1(P 0+.+P k)+O(k+1)=lcoeff X 1(Q 0+.+Q k)+O(k+1)\mbox{lcoeff} ( F ) = \mbox{lcoeff}_{X_1} ( P_0 + \ldots . + P_k ) + O ( k + 1 ) = \mbox{lcoeff}_{X_1} ( Q_0 + \ldots . + Q_k ) + O ( k + 1 ).

Si on est bien en un point de bonne évaluation et si kk est plus grand que le degré total (par rapport aux variables X 2,.,X nX_2, \ldots ., X_n) du polynôme Flcoeff(F)F \mbox{lcoeff} ( F ) on va vérifier que P 0+.+P k=Dlcoeff(F)lcoeff(D)P_0 + \ldots . + P_k = D \frac{\mbox{lcoeff} ( F )}{\mbox{lcoeff} ( D )}. En effet, si on a deux suites de polynômes PP et PP' et QQ et QQ' satisfaisant (11) avec les même termes de degré zéro P 0P_0 et Q 0Q_0, alors en prenant la différence, on obtient: (P 0+P 1+P k)(Q 0+Q 1+Q k)=(P 0+P 1+P k)(Q 0+Q 1+Q k)+O(k+1) ( P_0 + P_1 \ldots + P_k ) ( Q_0 + Q_1 \ldots + Q_k ) = ( P_0 + P_1' \ldots + P_k' ) ( Q_0 + Q_1' \ldots + Q_k' ) + O ( k + 1 ) On égale alors les termes homogènes de degré jj, pour j=1j = 1, on obtient P 0(Q 1Q 1)=Q 0(P 1P 1)P_0 ( Q_1 - Q_1' ) = Q_0 ( P_1 - P_1' ), donc Q 0Q_0 divise Q 1Q 1Q_1 - Q_1' qui est de degré strictement inférieur au degré de Q 0Q_0 par rapport à X 1X_1 (car on a l’inégalité large et les termes de plus haut degré sont égaux), donc Q 1=Q 1Q_1 = Q_1' et P 1=P 1P_1 = P_1'. On montre de la même manière que Q j=Q jQ_j = Q_j' et P j=P jP_j = P_j'. L’écriture est donc unique, c’est donc l’écriture en polynôme homogène de degré croissant de Dlcoeff(F)lcoeff(D)D \frac{\mbox{lcoeff} ( F )}{\mbox{lcoeff} ( D )} que l’on reconstruit.

Cet algorithme permet donc de reconstruire DD, il suffit de tester à chaque étape si P 0+.+P kP_0 + \ldots . + P_k divise Flcoeff(F)F \mbox{lcoeff} ( F ). On appelle cette méthode de remontée lemme de Hensel linéaire. Il existe une variante dite lemme de Hensel quadratique qui consiste à passer de O(k)O ( k ) à O(2k)O ( 2 k ). Elle nécessite toutefois un calcul supplémentaire, celui de l’identité de Bézout à O(2k)O ( 2 k ) près pour les polynômes P 0+.+P k1P_0 + \ldots . + P_{k - 1} et Q 0+.+Q k1Q_0 + \ldots . + Q_{k - 1}. Ce calcul se fait également par lifting.

Algorithme EZGCD (Hensel linéaire)

Arguments: 2 polynômes FF et GG à coefficients entiers et primitifs. Renvoie le pgcd de FF et GG ou false.

  1. Evaluer FF et GG en (X 2,.,X n)=(0,.,0)( X_2, \ldots ., X_n ) = ( 0, \ldots ., 0 ), vérifier que les coefficients dominants de FF et de GG ne s’annulent pas. Calculer le pgcd D bD_b de F(0)F ( 0 ) et de G(0)G ( 0 ). Prendre un autre point d’évaluation au hasard qui n’annule pas les coefficients dominants de FF et de GG et vérifier que le pgcd a le même degré que D bD_b. Sinon, renvoyer false (on peut aussi faire une translation d’origine de FF et de GG en un autre point mais cela diminue l’efficacité de l’algorithme).
  2. On note lcF\mbox{lcF} et lcG\mbox{lcG} les coefficients dominants de FF et de GG par rapport à X 1X_1.
  3. Si degre(F)degre(G)\mbox{degre} ( F ) \leq \mbox{degre} ( G ) et degre(D b)=degre(G)\mbox{degre} ( D_b ) = \mbox{degre} ( G ) et FF divise GG renvoyer FF
  4. Si degre(G)<degre(F)\mbox{degre} ( G ) &lt; \mbox{degre} ( F ) et degre(D b)=degre(F)\mbox{degre} ( D_b ) = \mbox{degre} ( F ) et GG divise FF renvoyer GG
  5. Si degre(F)=degre(D b)\mbox{degre} ( F ) = \mbox{degre} ( D_b ) ou si degre(G)=degre(D b)\mbox{degre} ( G ) = \mbox{degre} ( D_b ) renvoyer false
  6. Boucle infinie sur jj entier initialisé à 0, incrémenté de 1 à chaque itération: si pgcd(D b,F(0)+jG(0)D b)=C\mbox{pgcd} ( D_b, \frac{F ( 0 ) + j G ( 0 )}{D_b} ) = C constant, alors arrêter la boucle
  7. Lifter l’égalité (F+jG)(lcF+jlcG)(0)=(D b(lcF+jlcG)(0)lcoeff(D b))*.( F + j G ) ( \mbox{lcF} + j \mbox{lcG} ) ( 0 ) = \left( D_b \frac{( \mbox{lcF} + j \mbox{lcG} ) ( 0 )}{\mbox{lcoeff} ( D_{b )}} \right) \ast \ldots . par remontée de Hensel linéaire ou quadratique. Si le résultat est false, renvoyer false. Sinon renvoyer le premier polynôme du résultat divisé par son contenu vu comme polynôme en X 1X_1 à coefficients dans [X 2,.,X n]\mathbb{Z} [ X_2, \ldots ., X_n ].

Remontée de Hensel linéaire:

Arguments: FF un polynôme, lcF\mbox{lcF}=lcoeff(F)(F) son coefficient dominant, P 0P_0 un facteur de F(0)F ( 0 ) ayant comme coefficient dominant lcF(0)\mbox{lcF} ( 0 ) et dont le cofacteur Q 0Q_0 est premier avec P 0P_0.

Renvoie deux polynômes PP et QQ tels que FlcF=PQF \mbox{lcF} = P Q et P(0)=P 0P ( 0 ) = P_0 et lcoeff(P)=lcoeff(Q)=lcF\mbox{lcoeff} ( P ) = \mbox{lcoeff} ( Q ) = \mbox{lcF}.

  1. Soit G=FlcFG = F \mbox{lcF}, , Q 0=G(0)/P 0Q_0 = G ( 0 ) / P_0, P=P 0P = P_0, Q=Q 0Q = Q_0.
  2. Déterminer les deux polynômes UU et VV de l’identité de Bézout (tels que P 0U+Q 0V=dP_0 U + Q_0 V = ddd est un entier).
  3. Boucle infinie avec un compteur kk initialisé à 1, incrémenté de 1 à chaque itération
    • Si k>degre X 2,.,X n(G)k &gt; \mbox{degre}_{X_2, \ldots ., X_n} ( G ), renvoyer false.
    • Si PP divise GG, renvoyer PP et G/PG / P.
    • Soit H=GPQ=O(k)H = G - P Q = O ( k ). Soit u=UHdu = U \frac{H}{d} et v=VHdv = V \frac{H}{d}, on a P 0u+Q 0v=HP_0 u + Q_0 v = H
    • Remplacer vv par le reste de la division euclidienne de vv par P 0P_0 et uu par le reste de la division euclidienne de uu par Q 0Q_0. La somme des deux quotients est égale au quotient euclidien de HH par P 0Q 0P_0 Q_0, c’est-à-dire au coefficient dominant de HH divisé par le produit des coefficients dominants de P 0P_0 et Q 0Q_0 (qui sont égaux) donc on a l’égalité: P 0u+Q 0v=Hlcoeff(H)lcoeff(P 0) 2P 0Q 0 P_0 u + Q_0 v = H - \frac{\mbox{lcoeff} ( H )}{\mbox{lcoeff} ( P_0 )^2} P_0 Q_0
    • Soit α=(lcoeff(F)lcoeff(P))/lcoeff(P 0)\alpha = ( \mbox{lcoeff} ( F ) - \mbox{lcoeff} ( P )) / \mbox{lcoeff} ( P_0 ) et β=(lcoeff(F)lcoeff(Q))/lcoeff(P 0)\beta = ( \mbox{lcoeff} ( F ) - \mbox{lcoeff} ( Q )) / \mbox{lcoeff} ( P_0 ). On ajoute αP 0\alpha P_0 à vv, ainsi lcoeff(P +v)=lcoeff(F)+O(k+1)\mbox{lcoeff} ( P_{} + v ) = \mbox{lcoeff} ( F ) + O ( k + 1 ) et βQ 0\beta Q_0 à uu, ainsi lcoeff(Q +u)=lcoeff(F)+O(k+1)\mbox{lcoeff} ( Q_{} + u ) = \mbox{lcoeff} ( F ) + O ( k + 1 )

      Remarque: on montre alors que α+β=lcoeff(H)lcoeff(P 0Q 0)+O(k+1)\alpha + \beta = \frac{\mbox{lcoeff} ( H )}{\mbox{lcoeff} ( P_0 Q_0 )} + O ( k + 1 ) donc P 0u+Q 0v=H+O(k+1)P_0 u + Q_0 v = H + O ( k + 1 ) en utilisant les propriétés : lcoeff(F)=lcoeff(P)+O(k)=lcoeff(Q)+O(k)=lcoeff(P 0)+O(1) \mbox{lcoeff} ( F ) = \mbox{lcoeff} ( P ) + O ( k ) = \mbox{lcoeff} ( Q ) + O ( k ) = \mbox{lcoeff} ( P_0 ) + O ( 1 )

    • Réduire uu et vv en éliminant les termes de degré strictement supérieur à kk par rapport à X 2,.,X nX_2, \ldots ., X_n. S’il reste un coefficient non entier, renvoyer false
    • Remplacer PP par P+vP + v et QQ par Q+uQ + u, passer à l’itération suivante.

Exemple:

F=((x+1)y+x 2+1)(y 2+xy+1),G=((x+1)y+x 2+1)(y 2xy1)F = (( x + 1 ) y + x^2 + 1 ) ( y^2 + x y + 1 ), G = (( x + 1 ) y + x^2 + 1 ) ( y^2 - x y - 1 )

On a F(0,y)=(y+1)(y 2+1)F ( 0, y ) = ( y + 1 ) ( y^2 + 1 ) et G(0,y)=(y+1)(y 21)G ( 0, y ) = ( y + 1 ) ( y^2 - 1 ), le pgcd est donc D b=(y+1)D_b = ( y + 1 ). On remarque que D bD_b est premier avec le cofacteur de FF mais pas avec le cofacteur de GG. Si on évalue en un autre point, par exemple x=1x = 1, on trouve un pgcd D 1D_1 de même degré, donc 0 est vraissemblablement un bon point d’évaluation (ici on en est sûr puisque le pgcd de FF et GG se calcule à vue...). On a lcoeff(F)=x+1\mbox{lcoeff} ( F ) = x + 1, on va donc lifter G=((x+1)y+x 2+1)(y 2+xy+1)(x+1)=PQG = (( x + 1 ) y + x^2 + 1 ) ( y^2 + x y + 1 ) ( x + 1 ) = P QP 0=(y+1)P_0 = ( y + 1 ) et Q 0=(y 2+1)Q_0 = ( y^2 + 1 ).

On calcule les polynômes de l’identité de Bézout U=(1y)U = ( 1 - y ) et V=1V = 1 avec d=2d = 2, puis à l’ordre k=1k = 1: H=GP 0Q 0=(2y 3+2y 2+3y+1)x+O(2) H = G - P_0 Q_0 = ( 2 y^3 + 2 y^2 + 3 y + 1 ) x + O ( 2 ) donc u=reste(UH/d,Q 0)=xyu = \mbox{reste} ( U H / d, Q_0 ) = x y et v=reste(VH/d,P 0)=xv = \mbox{reste} ( V H / d, P_0 ) = - x.

Donc Q 1=xy+αQ 0Q_1 = x y + \alpha Q_0 avec α=(x+11)/lcoeff(P 0)=x\alpha = ( x + 1 - 1 ) / \mbox{lcoeff} ( P_0 ) = x et Q 0+Q 1=(y 2+1)(x+1)+xyQ_0 + Q_1 = ( y^2 + 1 ) ( x + 1 ) + x y. De même, P 1=x+βP 0P_1 = - x + \beta P_0, avec β=(x+11)/lcoeff(P 0)=x\beta = ( x + 1 - 1 ) / \mbox{lcoeff} ( P_0 ) = x donc P 0+P 1=(y+1)(x+1)xP_0 + P_1 = ( y + 1 ) ( x + 1 ) - x. On remarque que P 0+P 1P_0 + P_1 et Q 0+Q 1Q_0 + Q_1 sont bien à O(2)O ( 2 ) près les facteurs de Flcoeff(F)F \mbox{lcoeff} ( F ): P=(x+1)y+x 2+1=P 0+P 1+O(2),Q=(x+1)(y 2+xy+1)=Q 0+Q 1+O(2) P = ( x + 1 ) y + x^2 + 1 = P_0 + P_1 + O ( 2 ), \ Q = ( x + 1 ) ( y^2 + x y + 1 ) = Q_0 + Q_1 + O ( 2 ) Une deuxième itération est nécessaire. On calcule H=G(P 0+P 1)(Q 0+Q 1)=(2y 2+y+1)x 2+O(3) H = G - ( P_0 + P_1 ) ( Q_0 + Q_1 ) = ( 2 y^2 + y + 1 ) x^2 + O ( 3 ) puis reste(UH/d,Q 0)=yx 2\mbox{reste} ( U H / d, Q_0 ) = y x^2 et reste(VH/d,P 0)=x 2\mbox{reste} ( V H / d, P_0 ) = x^2. Ici les coefficients α\alpha et β\beta sont nuls car lcoeff(F)\mbox{lcoeff} ( F ) n’a pas de partie homogène de degré 2. On trouve alors P=P 0+P 1+P 2P = P_0 + P_1 + P_2 et Q=Q 0+Q 1+Q 2Q = Q_0 + Q_1 + Q_2. Pour calculer le pgcd, il suffit de calculer la partie primitive de PP vu comme polynôme en yy, ici c’est encore PP car le contenu de PP est 1 (remarque: pour QQ le contenu est x+1x + 1).
On trouve donc PP comme pgcd.

5.4  Quel algorithme choisir?

Il est toujours judicieux de faire une évaluation en quelques n1n - 1 uplets pour traquer les pgcd triviaux. (E)EZGCD sera efficace si (0,...,0) est un point de bonne évaluation et si le nombre de remontées nécessaires pour le lemme de Hensel est petit donc pour les pgcd de petit degré, GCDMOD est aussi efficace si le degré du pgcd est petit. Le sous-résultant est efficace pour les pgcd de grand degré car il y a alors peu de divisions euclidiennes à effectuer et les coefficients n’ont pas trop le temps de croitre. SPMOD est intéressant pour les polynômes creux de pgcd non trivial creux. GCDHEU est intéressant pour les problèmes relativement petits.

Avec des machines multiprocesseurs, on a probablement intérêt à lancer en parallèle plusieurs algorithmes et à s’arrêter dès que l’un deux recontre le succès.

5.5  Pour en savoir plus.

Parmi les références citées dans le premier article, ce sont les livres de Knuth, H. Cohen, et Davenport-Siret-Tournier qui traitent des algorithmes de pgcd. On peut bien sûr consulter le source de son système de calcul formel lorsqu’il est disponible :

Sur le web on trouve quelques articles en lignes sur le sujet en cherchant les mots clefs GCDHEU, EZGCD, SPMOD sur un moteur de recherche, il y a par exemple une description un peu différente du pgcd heuristique sur:
www.inf.ethz.ch/personal/gonnet/CAII/HeuristicAlgorithms/node1.html
et un article de comparaison de ces algorithmes par Fateman et Liao (dont la référence bibliographique est Evaluation of the heuristic polynomial GCD. in: ISSAC pages 240–247, 1995). Quelques autres références :

Chapitre 6  Le résultant

6.1  Définition

Il s’agit d’un point de vue d’algèbre linéaire sur le PGCD. Considérons deux polynômes AA et BB à coefficients dans un corps, de degrés pp et qq et de pgcd DD et l’identité de Bézout correspondante : AU+BV=D(12) A U + B V =D \qquad (12) avec degré(U)<q(U)&lt;q et degré(V)<p(V)&lt;p. Imaginons qu’on cherche UU et VV en oubliant qu’il s’agit d’une identité de Bézout, en considérant simplement qu’il s’agit d’un problème d’algèbre linéaire de p+qp+q équations (obtenues en développant et en identifiant chaque puissance de XX de 0 à p+q1p+q-1) à p+qp+q inconnues (les pp coefficients de VV et les qq coefficients de UU) On sait que AA et BB sont premiers entre eux si et seulement si ce problème d’algèbre linéaire a une solution pour D=1D=1. Donc si le déterminant du système est non nul, alors AA et BB sont premiers entre eux. Réciproquement si AA et BB sont premiers entre eux, le système a une solution unique non seulement avec comme second membre 11 mais avec n’importe quel polynôme de degré inférieur p+qp+q, donc le déterminant du système est non nul.

Définition:
On appelle résultant de AA et BB le déterminant de ce système (12). Il s’annule si et seulement si AA et BB ne sont pas premiers entre eux (ont au moins une racine commune). On appelle matrice de Sylvester la transposée de la matrice du système (les inconnues étant par ordre décroissant les coefficients de UU et VV) M(A,B)=(A a A a1 A 0 0 0 0 A a A 1 A 0 0 0 0 A 0 B b B b1 B 0 0 0 0 0 0 B 0) M(A,B)=\left( \begin{array}{cccccccc} A_a & A_{a-1} & \ldots & \ldots & A_0 & 0 & \ldots & 0 \\ 0 & A_a & \ldots & \ldots & A_1 & A_0 & \ldots & 0 \\ \vdots & & & & & & & \vdots \\ 0 & 0 & \ldots & & & & & A_0 \\ B_b & B_{b-1} & \ldots & B_0 & 0 & 0 & \ldots & 0 \\ \vdots & & & & & & & \vdots \\ 0 & 0 & \ldots & & & & & B_0 \end{array} \right) (cette matrice contient b=b=degré(B)(B) lignes de coefficients du polynôme AA et a=a=degré(A)(A) lignes de coefficients du polynôme BB, les coefficients diagonaux sont les A aA_a et B 0B_0)

Remarques
Le résultant s’exprime polynomialement en fonction des coefficients des polynômes AA et BB donc aussi en fonction des coefficients dominants de AA et BB et des racines α 1,...,α a\alpha_1,..., \alpha_a de AA et β 1,...,β b\beta_1,...,\beta_b BB, or si on fait varier les racines de BB on annulera le résultant si l’une d’elle coincide avec une racine de AA, ceci montre que le résultant est divisible par le produit des différences des racines β jα i\beta_j-\alpha_i de AA et BB. On montre que le quotient est A a bB b aA_a^b B_b^a en regardant le coefficient dominant du résultant en degré total par rapport aux β j\beta_j : dans le déterminant il faut prendre le produit des termes diagonaux pour avoir le degré maximal en les β j\beta_j. On peut aussi l’écrire sous la forme resultant(A,B)=A a b i=1 aB(α i)\mbox{resultant}(A,B)=A_a^b \prod_{i=1}^a B(\alpha_i)

Soit PP un polynôme de degré nn et coefficient dominant p np_n. Le coefficient dominant de PP' est np nnp_n, un multiple de p np_n, le résultant de PP et PP' est donc divisible par p np_n, on appelle le quotient discriminant. En terme des racines r ir_i de PP, on a disc(P)=resultant(P,P)p n=p n n2 i=1 nP(r i)=p n 2n2 1i<jn(r ir j) 2\mbox{disc}(P)=\frac{\mbox{resultant}(P,P')}{p_n} =p_n^{n-2} \prod_{i=1}^n P'(r_i) = p_n^{2n-2} \prod_{1\leq i&lt;j\leq n} (r_i-r_j)^2 Ce résultat a un intérêt pour par exemple minorer à priori l’écart entre 2 racines d’un polynôme à coefficients entiers.

6.2  Applications

Revenons au cas où nos polynômes sont à coefficients dans un anneau contenu dans un corps, par exemple \mathbb{Z} \in \mathbb{Q} ou un anneau de polynômes [X 2,...,X n]\mathbb{Z}[X_2,...,X_n] dans son corps de fractions. On remarque alors que l’équation : AU+BV=CAU+BV=C a une solution dans l’anneau si CC est le résultant rr de AA et BB (ou un multiple). En effet, on écrit les solutions comme celles d’un système de Cramer, le dénominateur de chaque inconnue est rr, le numérateur est un déterminant ayant les coefficients de CC dans une des colonnes, on peut donc y factoriser rr et simplifier. On peut le voir directement à partir de la définition du résultant en effectuant sur le déterminant une manipulation de colonnes sur la dernière colonne, on ajoute à cette dernière colonne xx fois l’avant-dernière, x 2x^2 fois l’avant-avant-dernière etc... La dernière colonne devient (x b1A ... A x a1B ... B)\left( \begin{array}{c} x^{b-1} A \\ ... \\ A \\ x^{a-1} B \\ ...\\ B \end{array} \right) et en développant le déterminant par rapport à cette dernière colonne, on obtient l’identité de Bézout.

Exemple : le résultant de x+1x+1 et x1x-1 est 2, donc l’équation (x+1)U+(x1)V=2(x+1)U+(x-1)V=2 a une solution U=1U=1 et V=1V=-1 dans [X]\mathbb{Z}[X], par contre (x+1)U+(x1)V=1(x+1)U+(x-1)V=1 n’a pas de solution dans [X]\mathbb{Z}[X].

6.2.1  Systèmes polynomiaux

Ceci peut servir à éliminer des inconnues lorsqu’on résoud un système d’équations polynomiales : P 1(X 1,...,X n)=0,...,P n(X 1,...,X n)=0P_1(X_1,...,X_n)=0, ..., P_n(X_1,...,X_n)=0 On pose P 1 1(X 1,...,X n1)=resultant(P 1,P n,X n),...,P n1 1(X 1,...,X n1)=resultant(P n1,P n,X n)P^1_1(X_1,...,X_{n-1})=\mbox{resultant}(P_1,P_n,X_n), ..., P^1_{n-1}(X_1,...,X_{n-1})=\mbox{resultant}(P_{n-1},P_n,X_n) Comme P 1 1,P n1 1,...P^1_1, P^1_{n-1}, ... sont des combinaisons linéaires des polynômes de départ à coefficients dans l’anneau, si (X 1,...,X n)(X_1,...,X_n) est solution du système de départ, alors X 1,...,X n1X_1,...,X_{n-1} est solution du deuxième système. On élimine ainsi les variables les unes après les autres, pour se ramener à une seule équation polynomiale P 1 n1(X 1)=0P^{n-1}_1(X_1)=0, dont on cherche les racines, puis si r 1r_1 est une racine de P 1 n1P^{n-1}_1, on remonte au système précédent P 1 n2(r 1,X 2)=0,P 2 n2(r 1,X 2)=0P^{n-2}_1(r_1,X_2)=0, P^{n-2}_2(r_1,X_2)=0, que l’on résoud en cherchant les racines de gcd(P 1 n2(r 1,X 2),P 2 n2(r 1,X 2))(P^{n-2}_1(r_1,X_2),P^{n-2}_2(r_1,X_2)), et ainsi de suite jusqu’au système de départ.

Lors des calculs de résultant, il peut arriver que le résultat soit nul si les arguments ne sont pas premiers entre eux, dans ce cas il faut diviser par le PGCD de ces 2 polynômes et traiter le cas du PGCD à part.

Malheureusement, les calculs de résultant deviennent vite impraticables (cf. infra), on ne peut guère traiter par cette méthode que des systèmes 3x3 (ou 4x4 si on est patient). Pour des systèmes plus ambitieux, on utilisera plutôt un calcul de bases de Groebner. Mais le résultant est très bien adapté par exemple à la recherche d’équations cartésiennes d’une courbe ou surface paramétrée par des fractions rationnelles.

6.2.2  Identité de Bézout dans [X]\mathbb{Z}[X].

Lorsque les polynômes AA et BB sont à coefficients entiers, on peut résoudre l’identité de Bézout en résolvant le système linéaire AU+BV=DAU+BV=DDD est calculé par un algorithme de calcul de PGCD. C’est un système linéaire de a+ba+b équations en a+ba+b inconnues, que l’on peut résoudre par une méthode pp-adique, permettant de calculer efficacement les coefficients rationnels de UU et VV.

On peut étendre à des polynômes premiers entre eux ayant des coefficients dans une extension algébrique de \mathbb{Q}, en calculant l’identité de Bézout pour A˜\tilde{A}=norme(A)(A) et B˜\tilde{B}=norme(B)(B) (norme au sens de norme algébrique, obtenue en multipliant par les conjugués du polynôme, calculé en pratique en prenant le résultant du polynôme avec le polynôme minimal de l’extension algébrique) et en observant que la norme est divisible par le polynôme A˜U˜+B˜V˜=1AA˜AU˜+BB˜BV˜=1\tilde{A} \tilde{U}+\tilde{B}\tilde{V}=1 \Rightarrow A \frac{\tilde{A}}{A} \tilde{U}+ B \frac{\tilde{B}}{B}\tilde{V}=1 On pose alors uu le reste de A˜AU˜ \frac{\tilde{A}}{A} \tilde{U} par BB et vv le reste deB˜BV˜ \frac{\tilde{B}}{B}\tilde{V} par AA. Si les polynômes ne sont pas premiers entre eux, on s’y ramène en divisant par leur pgcd.

6.3  Résultant et degrés

Si AA et BB sont des polynômes en dd variables de degré total mm et nn alors le résultant de AA et BB par rapport à une des variables, disons la première notée xx, est un polynôme en d1d-1 variables, on va voir qu’on peut majorer son degré total par mnmn.

Quitte à ajouter une variable d’homogénéisation (appelons-la tt), on peut supposer que AA et BB sont homogènes, par exemple si A=x 3+xy+1A=x^3+xy+1 on considère A t=x 3+xyt+t 3A_t=x^3+xyt+t^3. Le degré total par rapport aux d1d-1 variables d’un coefficient A jA_j de AA est alors mjm-j, et pour B kB_k c’est nkn-k. On développe le déterminant comme somme sur toutes les permutations de a+ba+b éléments, et on regarde le degré total d’un terme par rapport aux d1d-1 variables, on a donc un produit de r iσ(i)r_{i \sigma(i)} pour ii entre 1 et a+ba+b. Pour ii entre 11 et bb, on est dans les bb premières lignes, donc avec des coefficients de AA, le degré total de r iσ(i)r_{i \sigma(i)} se déduit de la distance à la diagonale, il vaut ma+iσ(i)m-a+i-\sigma(i) puisque sur la diagonale c’est mam-a. Pour ii entre b+1b+1 et b+ab+a on est dans les aa dernières lignes, donc avec des coefficients de BB, le degré total est n+σ(i)in+\sigma(i)-i. Le degré total du produit vaut donc b(ma)+an+ i=1 a+bσ(i)i=b(ma)+an=mn(ma)(nb)b(m-a)+an+\sum_{i=1}^{a+b} \sigma(i) -i = b(m-a)+an=mn-(m-a)(n-b) il est donc au plus mnmn avec égalité si m=am=a ou n=bn=b (c’est-à-dire si le degré total est identique au degré partiel en xx pour au moins un des deux polynômes).

Lorsqu’on enlève la variable d’homogénéisation (en posant t=1t=1), on peut également perdre un ou plusieurs degrés. Dans le cas de polynômes en 2 variables A(x,y),B(x,y)A(x,y), B(x,y), cela correspond à un point d’intersection à l’infini entre les 2 courbes A(x,y)=B(x,y)=0A(x,y)=B(x,y)=0, en coordonnées homogènes on a t=0t=0 qui est solution, et on remplace tt par 0 dans A t(x,y,t)=B t(x,y,t)=0A_t(x,y,t)=B_t(x,y,t)=0 pour trouver la direction.

Exemple (tiré d’un TP de Frédéric Han) intersection des 2 courbes x*y=4x*y=4 et y 2=(x3)*(x 216)y^2=(x-3)*(x^2-16). On a donc A=xy4A=xy-4, B=y 2(x3)(x 216)B=y^2-(x-3)(x^2-16), m=2,n=3m=2, n=3 on définit alors :
A:=x*y-4t^2; B:=y^2*t-(x-3t)*(x^2-16t^2);
On observe que resultant(A,B,x) est bien de degré 6 (car n=b=3n=b=3), alors que resultant(A,B,y) est de degré 5 (ma,nbm \neq a, n \neq b). On a donc 5 points d’intersection complexes et un point d’intersection à l’infini correspondant à la racine t=0t=0 du résultant en xx de coordonnées homogènes (x,y,t)=(0,1,0)(x,y,t)=(0,1,0). Illustration
solve(subst(resultant(A,B,y),t=1))
implicitplot(subst(A,t=1));implicitplot(subst(B,t=1))

Plus généralement, soit deux courbes algébriques d’équations respectives A(x,y)=0A(x,y)=0 et B(x,y)=0B(x,y)=0 de degré totaux mm et nn et premiers entre eux, alors AA et BB ont au plus mnmn points d’intersection (théorème de Bézout). En effet, le résultant en xx par exemple est non nul puisque les 2 polynômes sont premiers entre eux, donc est un polynôme en yy qui a un nombre fini de racines, puis on cherche les racines en xx de gcd(A(.,y),B(.,y))(A(.,y),B(.,y)) pour chaque valeur de yy racine, il y a donc un nombre fini d’intersections. On peut donc changer de repère et choisir un repère tel que deux points d’intersections distincts aient leurs abscisses distinctes. On refait le même raisonnement, et on utilise la majoration du degré du résultant par rapport à yy par mnmn, on a donc au plus mnmn valeurs de yy, donc au plus mnmn points d’intersections, puisqu’une valeur de yy ne correspond qu’à une valeur de xx par choix du repère. Lorsqu’on travaille dans 2\mathbb{C}^2, le défaut de nombre de points d’intersection par rapport au majorant mnmn provient des points à l’infini, à condition de prendre en compte la multiplicité des intersections. Dans 2\mathbb{R}^2, on perd aussi les points non réels. Exemple : intersection de (x2) 2+y 2=4(x-2)^2+y^2=4 et y 2=(x3)*(x 216)y^2=(x-3)*(x^2-16).

Le degré du résultant explique pourquoi on ne peut pas résoudre en pratique de grands systèmes polynomiaux avec cet outil d’élimination. Par exemple pour un système de 5 équations en 5 inconnues de degré 5, en éliminant une variable, on passe à 4 équation en 4 inconnues de degré 25, puis à 3 équations en 3 inconnues de degré 25 2=62525^2=625, puis 2 équations en 2 inconnues de degré 625 2=390625625^2=390625 et enfin un polynôme de degré ... 152587890625. Pour nn équations de degré nn, on a une majoration par n (2 n1)n^{(2^{n-1})}, ainsi pour n=4n=4 on trouve 65536 qui est déjà discutable...

6.4  Lien avec l’algorithme du sous-résultant (calcul de PGCD)

On peut calculer le déterminant avec la suite des restes de divisions euclidiennes de la manière suivante, on part de la pseudo-division de AA par BB : B b ab+1A=BQ+R B_b^{a-b+1} A=BQ+R on effectue alors sur chaque ligne contenant les coefficients de AA la manipulation de ligne correspondante, c’est-à-dire multiplier la ligne par B b ab+1B_b^{a-b+1} et soustraire (q 0q_0 fois la ligne de BB terminant dans la même colonne+q 1q_1 fois la ligne de BB terminant une colonne avant+...). Toutes les lignes contenant les coefficients de AA ont été remplacées par des lignes contenant les coefficients de RR. Ces lignes contiennent kk zéros initiaux avec k1k \geq 1, ce qui permet de réduire le déterminant à celui de la matrice de Sylvester de RR et BB (à un coefficient multiplicatif près qui vaut B b kB_b^k par rapport au précédent donc B b kb(ab+1)B_b^{k-b(a-b+1)} par rapport au déterminant de départ). On échange ensuite RR et BB ce qui change éventuellement le signe et on continue en faisant les divisions euclidiennes de l’algorithme du sous-résultant (cf. Knuth où on utilise la matrice de Sylvester pour prouver que l’algorithme du sous-résultant est correct). Rappelons que le sous-résultant définit les suites A kA_k (A 0=A,A 1=BA_0=A, A_1=B), d kd_k le degré de A kA_k, δ k=d kd k+1\delta_k=d_k-d_{k+1}, g kg_k (g 0=1g_0=1, si k0k\neq 0, g kg_k coefficient dominant de A kA_k) h kh_k (h 0=1h_0=1, h k+1=h k 1δ kg k+1 δ kh_{k+1}=h_k^{1-\delta_k} g_{k+1}^{\delta_k}) et g k δ k1+1A k1=A kQ k+1+g k1h k1 δ k1A k+1 g_k^{\delta_{k-1}+1} A_{k-1} = A_k Q_{k+1} + g_{k-1} h_{k-1}^{\delta_{k-1}} A_{k+1}

Théorème 19   Le résultant est égal au signe près au coefficient h kh_kkk correspond au reste A kA_k constant (en supposant que le résultant soit non nul).

Preuve
La transcription de l’égalité précédente sur les résultants donne par la méthode ci-dessus : g k (δ k1+1)d kRes(A k1,A k) = g k d k1d k+1Res(g k1h k1 δ k1A k+1,A k) = g k d k1d k+1(g k1h k1 δ k1) d kRes(A k+1,A k) \begin{matrix} g_k^{(\delta_{k-1}+1)d_k}\mbox{Res}(A_{k-1},A_k) &=& g_k^{d_{k-1}-d_{k+1}} \mbox{Res}(g_{k-1} h_{k-1}^{\delta_{k-1}} A_{k+1},A_k)\\ &= & g_k^{d_{k-1}-d_{k+1}} (g_{k-1} h_{k-1}^{\delta_{k-1}})^{d_k} \mbox{Res}(A_{k+1},A_k) \end{matrix} On en déduit que : Res(A k1,A k)g k1 d kh k1 d k11=g k d k1d k+1(δ k1+1)d kh k1 δ k1d k+1d k1Res(A k+1,A k) \frac{\mbox{Res}(A_{k-1},A_k)}{g_{k-1}^{d_k} h_{k-1}^{d_{k-1}-1}} = g_k^{d_{k-1}-d_{k+1}-(\delta_{k-1}+1)d_k} h_{k-1}^{\delta_{k-1}{d_k}+1-d_{k-1}} \mbox{Res}(A_{k+1},A_k) On observe que : h k1 δ k1d k+1d k1=h k1 (δ k11)(d k1)=(h k1 δ k11) d k1=(g k δ k1h k) d k1 h_{k-1}^{\delta_{k-1}{d_k}+1-d_{k-1}} =h_{k-1}^{(\delta_{k-1}-1)(d_k-1)} = \left( h_{k-1}^{\delta_{k-1}-1}\right) ^{d_k-1} = \left( \frac{g_k^{\delta_{k-1}}}{h_{k}} \right) ^ {d_k-1} donc : Res(A k1,A k)g k1 d kh k1 d k11 = g k d k1d k+1(δ k1+1)d k(g k δ k1h k) d k1Res(A k+1,A k) = g k d k1d k+1d kδ k1(1h k) d k1Res(A k+1,A k) = Res(A k+1,A k)g k d k+1h k d k1 \begin{matrix} \frac{\mbox{Res}(A_{k-1},A_k)}{g_{k-1}^{d_k} h_{k-1}^{d_{k-1}-1}} &=& g_k^{d_{k-1}-d_{k+1}-(\delta_{k-1}+1)d_k} \left( \frac{g_k^{\delta_{k-1}}}{h_{k}} \right) ^ {d_k-1} \mbox{Res}(A_{k+1},A_k) \\ &=& g_k^{d_{k-1}-d_{k+1}-d_k-\delta_{k-1}} \left( \frac{1}{h_{k}} \right) ^ {d_k-1} \mbox{Res}(A_{k+1},A_k) \\ &=& \frac{ \mbox{Res}(A_{k+1},A_k) } { g_k^{d_{k+1}} h_{k}^ {d_k-1}} \end{matrix} Donc en valeur absolue |Res(A 0,A 1)g 0 d 1h 0 d 01|=|Res(A k1,A k)g k1 d kh k1 d k11| |\frac{\mbox{Res}(A_{0},A_1)}{g_{0}^{d_1} h_{0}^{d_{0}-1}}| = |\frac{\mbox{Res}(A_{k-1},A_k)}{g_{k-1}^{d_k} h_{k-1}^{d_{k-1}-1}} | En prenant le rang kk tel que A kA_{k} est constant, on a d k=0d_k=0 et le résultant est égal à g k d k1g_k^{d_{k-1}}, on obtient donc : |Res(A 0,A 1)|=|g k d k1h k1 d k11| |\mbox{Res}(A_{0},A_1)|=|\frac{g_k^{d_{k-1}}}{ h_{k-1}^{d_{k-1}-1}} | Comme ici δ k1=d k1\delta_{k-1}=d_{k-1}, le terme de droite est |h k||h_k|.

Remarque
On peut calculer au fur et à mesure le signe du résultant en tenant compte des degrés de A kA_k pour inverser l’ordre de A k1A_{k-1} et A kA_k dans le résultant.

Utilisation
La valeur du résultant est très utile pour savoir si 2 polynômes dépendant de paramètres sont premiers entre eux en fonction de la valeur des paramètres. En effet, la fonction gcd d’un logiciel de calcul formel calculera le PGCD par rapport à toutes les variables en incluant les paramètres. En cherchant quand le résultant s’annule en fonction des paramètres on obtient un autre type d’information.

Exemple :
Chercher quand le polynône P=x 3+px+qP=x^3+px+q possède une racine multiple en fonction de pp et qq. On calcule le résultant de PP et PP' et on trouve 4p 3+27q 24p^3+27q^2, donc PP a une racine multiple si et seulement si 4p 3+27q 2=04p^3+27q^2=0.

6.5  Calcul efficace du résultant

On dispose essentiellement de deux stratégies avec des sous-stratégies :

Exemple de comparaison :


Chapitre 7  Localisation des racines

7.1  Majoration

On a vu au lemme 14, que si zz est une racine complexe d’un polynôme PP de coefficient dominant p np_n alors |z|1+|P| |p n||z| \leq 1 + \frac{|P|_\infty}{|p_n|}

7.2  Les suites de Sturm.

L’algorithme du sous-résultant appliqué à un polynôme sans racine multiple PP et à sa dérivée permet, à condition de changer les signes dans la suite des restes, de connaitre le nombre de racines réelles d’un polynôme à coefficients réels dans un intervalle. Ceci est trè utile pour par exemple simplifier des valeurs absolues de polynômes dans un intervalle.

On définit donc la suite de polynômes A 0=P,A 1=P,...,A k,0A_0=P, A_1=P', ..., A_k,0 par : A i=A i+1Q i+2A i+2(13) A_{i} = A_{i+1} Q_{i+2} - A_{i+2} \qquad (13) avec A kA_k, le dernier reste non nul, un polynôme constant puisque PP n’a pas de racine multiple. On utilise plutot l’algorithme du sous-résultant que l’algorithme d’Euclide, il faut alors s’assurer que les signes de A iA_i et A i+2A_{i+2} sont opposés lorsque A i+1A_{i+1} s’annule quitte à changer le signe de A i+2A_{i+2} en fonction du signe du coefficient dominant de A i+1A_{i+1}, de la parité de la différence des degrés et du signe du coefficient gh 1δgh^{1-\delta}.

On définit s(a)s(a) comme étant le nombre de changements de signes de la suite A i(a)A_i(a) en ignorant les 0. On a alors le

Théorème 20   Le nombre de racines réelles de A 0=PA_0=P sur l’intervalle ]a,b]]a,b] est égal à s(a)s(b)s(a)-s(b).

Preuve
Par continuité de la suite des polynômes, ss ne peut varier que si l’un des polynômes s’annule. On considére la suite des signes en un point : elle ne peut contenir deux 0 successifs (sinon toute la suite vaudrait 0 en ce point en appliquant (13), or A kA_k est constant non nul). Elle ne peut pas non plus contenir +,0,+ ni -,0,- à cause de la convention de signe sur les restes de (13). Donc une racine bb de A iA_i pour 0<i<k 0 &lt; i &lt; k , n’influe pas sur la valeur de ss au voisinage de bb (il y a toujours un changement de signe entre les positions i1i-1 et i+1i+1). Comme A kA_k est constant, seules les racines de A 0=PA_0=P sont susceptibles de faire varier ss. Comme A 1=PA_1=P', le sens de variations de A 0A_0 au voisinage d’une racine de A 0A_0 est déterminé par le signe de A 1A_1, donc les possibilités sont -,+ vers +,+ ou +,- vers -,-, ce qui diminue ss d’une unité.


7.3  Autres algorithmes


1
cela se fait par une méthode itérative appelée algorithme de Francis. On pose A 0A_0, la forme de Hessenberg de MM, puis on factorise A n=QRA_n=QR par des symétries de Householder ou des rotations de Givens et on définit A n+1=RQA_{n+1}=RQ, le calcul de A n+1A_{n+1} en fonction de A nA_n se fait sans expliciter la factorisation QRQR

Chapitre 8  Exercices (PGCD, résultant, ...)

8.1  Instructions

Elles sont dans les menus Cmds->Integer et Cmds->Polynomes de Xcas.

8.1.1  Entiers

8.1.2  Polynômes

On peut représenter les polynômes par leur écriture symbolique (par exemple x^2+1), ou par des listes (représentation dense ou creuse, récursive ou distribuée). Xcas propose deux types de représentation, dense à une variable (poly1[ ]), ou distribuée (%%%{ }%%%) et des instructions de conversion (poly2symb et symb2poly) entre représentations. L’intérêt d’une représentation non symbolique est l’efficacité des opérations polynomiales, (et la possibilité de chronométrer des opérations comme le produit de 2 polynômes).

Les instructions qui suivent utilisent la représentation symbolique, certaines acceptent les autres représentations.

Notez aussi que le menu Exemples->poly->pgcd.xws de Xcas contient des exemples de programmes de calcul de pgcd de type Euclide.

8.1.3  Calculs modulo nn

Pour travailler dans /n[X]\mathbb{Z}/n\mathbb{Z}[X] :

8.2  Exercices PGCD

  1. Calculez le pgcd de x 202+x 101+1x^{202}+x^{101}+1 et sa dérivée modulo 3 et modulo 5. Conclusion?
  2. P=51x 335x 2+39x115P=51x^3-35x^2+39x-115 et Q=17x 423x 3+34x 2+39x115Q=17x^4-23x^3+34x^2+39x-115. Calculez le pgcd de PP et QQ modulo 5, 7 et 11. En déduire le pgcd de PP et QQ par le théorème des restes chinois. Pourquoi ne doit-on pas essayer modulo 17?
  3. Écrire un programme qui détermine le degré probable du pgcd de 2 polynômes en une variable en utilisant le pgcd modulaire (on considère le degré probable déterminé lorsqu’on trouve deux nombres premiers réalisant le minimum des degrés trouvés)
  4. Détaillez l’algorithme du PGCD heuristique pour les polynômes P=(x+1) 7(x1) 6P=(x+1)^7-(x-1)^6 et sa dérivée. Comparez avec l’algorithme d’Euclide naïf.
  5. Écrire un programme mettant en oeuvre le pgcd heuristique pour des polynômes à une variable.
  6. On veut comprendre comment un logiciel de calcul formel calcule x 6+2(x 3+1) 2dx \int \frac{x^6+2}{(x^3+1)^2} \ dx On se ramène d’abord à une fraction propre (numérateur NN de degré inférieur au dénominateur), Soit P=x 3+1P=x^3+1, calculez le PGCD de PP et PP', puis deux polynômes UU et VV tels que N=UP+VP N=UP+VP' . On décompose alors l’intégrale en deux morceaux :
    NP 2=UP+VPP 2 \int \frac{N}{P^2}=\int \frac{U}{P} + \int V \frac{P'}{P^2} Faites une intégration par parties sur le deuxième terme et en déduire la valeur de l’intégrale du départ.
  7. Écrire un programme qui détermine le degré probable du PGCD par rapport à toutes les variables de 2 polynôme à plusieurs variables en utilisant l’évaluation en toutes les variables sauf une.
  8. Calculer le pgcd par une méthode modulaire de (xyx+1)(xy+x 2+1)(xy-x+1)(xy+x^2+1) et (xyxy)(xyx+1)(xy-x-y)(xy-x+1)
  9. En utilisant uniquement l’instruction de calcul de PGCD déterminer la multiplicité maximale d’un facteur irréductible de x 14x 1314x 12+12x 11+78x 1054x 9224x 8+116x 7+361x 6129x 5330x 4+72x 3+160x 216x32x^{14}-x^{13}-14x^{12}+12x^{11}+78x^{10}-54x^9-224x^8+116x^7+361x^6-129x^5-330x^4+72x^3+160x^2-16x-32
  10. Donner le détail des calculs avec Bézout de la décomposition en éléments simples de : 1(x 21) 2(x+2) \frac{1}{(x^2-1)^2(x+2)} puis calculer le coefficient de x nx^n du développement en séries entières de cette fraction en 0.

8.3  Exercice (Bézout modulaire)

Soit AA et BB deux polynômes à coefficients entiers et premiers entre eux. Soit c *c \in \mathbb{Z}^* le résultant de AA et BB, on va calculer les polynômes UU et VV de l’identité de Bézout AU+BV=c,deg(U)<deg(B),deg(V)<deg(A)(14) A U + B V = c , \quad \mbox{deg}(U)&lt;\mbox{deg}(B), \mbox{deg}(V)&lt;\mbox{deg}(A) \qquad (14) par une méthode modulaire.

  1. Montrer, en utilisant les formules de Cramer, que les coefficients de UU et VV sont des entiers de valeur absolue inférieure ou égale à la borne de Hadamard hh de la matrice de Sylvester de AA et BB (dont le déterminant est cc, le résultant de AA et BB). Calculer hh en fonction de la norme euclidienne de AA, BB et de leurs degrés.
  2. On calcule c *c \in \mathbb{Z}^* puis on résoud (14) dans /p iZ[X]\mathbb{Z}/p_i Z[X] pour plusieurs nombres premiers p ip_i (choisis si possible inférieurs à 2 31\sqrt{2^{31}} pour des raisons d’efficacité), puis on calcule par le théorème des restes chinois (14) dans /p iZ[X]\mathbb{Z}/\prod p_i Z[X]. Donner une minoration de ip i\prod_i p_i faisant intervenir hh qui permette de garantir que l’écriture en représentation symétrique de (14) dans /p iZ[X]\mathbb{Z}/\prod p_i Z[X] est identique à (14) dans [X]\mathbb{Z}[X].
  3. Application : résoudre de cette manière l’équation de Bézout pour A=(X+1) 4(X3),B=(X1) 4(X+2) A=(X+1)^4(X-3), \quad B=(X-1)^4(X+2) (vous pouvez utiliser sans justifications l’instruction de calcul de résultant, des coefficients de Bézout dans /p iZ[X]\mathbb{Z}/p_iZ[X] et de reste chinois de votre logiciel).
  4. Écrire une fonction mettant en oeuvre cet algorithme.
  5. Que pensez-vous de l’intérêt de cet algorithme par rapport à l’algorithme d’Euclide étendu dans [X]\mathbb{Z}[X]?

8.4  Exercices (résultant)

  1. Pour quelles valeurs de pp le polynôme X 5+X 3pX+1X^5+X^3-pX+1 admet-il une racine multiple? Factoriser le polynôme pour cette valeur de pp.
  2. Résoudre le système en éliminant successivement les variables grâce au résultant : {a 3+b 3+c 3 = 8 a 2+b 2+c 2 = 6 a+b+2c = 4 \left\{\begin{array}{rcl} a^{3}+b^{3}+c^{3} & = & 8 \\ a^{2}+b^{2}+c^{2} & = & 6 \\ a+b+2c & = & 4 \end{array}\right.
  3. Déterminer l’intersection de xy=4xy=4 et y 2=(x3)(x 216) y^2=(x-3)(x^2-16), repésenter graphiquement les courbes. Discuter la multiplicité et le nombre d’intersections.
    Même question pour (x2) 2+y 2=4(x-2)^2+y^2=4 et y 2=(x3)(x 216)y^2=(x-3)(x^2-16).
  4. Courbe paramétrique dépendant d’un paramètre : on considère la courbe C mC_m dépendant du réel mm : x(t)=t+mt 2+1+m 2,y(t)=t 2tmx(t)=\frac{t+m}{t^2+1+m^2}, \quad y(t)=\frac{t^2}{t-m} Représenter la courbe pour quelques valeurs de mm (on pourra utiliser dans un niveau de géométrie, le menu Edit, Ajouter un paramètre pour créer un curseur représentant mm, puis plotparam). Donner l’équation cartésienne de C mC_m. Déterminer les valeurs de mm pour lesquelles la courbe admet un point singulier, représenter le graphe dans ce(s) cas et faire l’étude de la courbe.
  5. Calculer 1x 21+x 4dx \int \frac{1-x^2}{1+x^4} \ dx en utilisant le résultant pour calculer les logarithmes.
  6. On cherche une relation algébrique entre les coordonnées de 4 points A,B,C,DA,B,C,D qui traduise le fait que ces 4 points sont cocycliques. Cette condition étant invariante par translation, on cherche une relation entre les 6 coordonnées des 3 vecteurs v 1=(x 1,y 1)v_1=(x_1,y_1), v 2=(x 2,y 2)v_2=(x_2,y_2) et v 3=(x 3,y 3)v_3=(x_3,y_3) d’origine AA et d’extrémité BB, CC et DD. On peut supposer quitte à translater que le centre du cercle est l’origine, on a donc 5 paramètres : le rayon du cercle RR et les 4 angles des points sur le cercle θ 0\theta_0, θ 1\theta_1, θ 2\theta_2 et θ 3\theta_3. La relation cherchée va s’obtenir en éliminant les 5 paramètres des expressions des 6 coordonnées en fonction de ces paramètres.
    1. Exprimer les 6 coordonnées en fonction de RR et a=tan(θ 0/2)a=\tan(\theta_0/2), b=tan(θ 1/2)b=\tan(\theta_1/2), c=tan(θ 2/2)c=\tan(\theta_2/2) et d=tan(θ 3/2)d=\tan(\theta_3/2). On obtient ainsi 6 équations, par exemple les deux premières sont de la forme x 1F(R,a,b)=0,y 1G(R,a,b)=0 x_1- F(R,a,b)= 0, \quad y_1- G(R,a,b)= 0 FF et GG sont deux fractions rationnelles.
    2. En réduisant au même dénominateur, calculer 6 polynômes, fonction de x 1,y 1,x 2,y 2,x 3,y 3,R,a,b,c,dx_1,y_1,x_2,y_2,x_3,y_3,R,a,b,c,d, qui doivent s’annuler pour que les points soient cocycliques (Vous pouvez utiliser l’instruction numer pour obtenir le numérateur d’une fraction rationnelle).
    3. Éliminer bb des polynômes contenant x 1x_1 et y 1y_1 et factoriser le polynôme obtenu, faire de même avec cc, x 2x_2 et y 2y_2 et dd, x 3x_3 et y 3y_3, en déduire (en supposant que les points sont tous distincts) 3 polynômes en x 1,y 1,x 2,y 2,x 3,y 3,R,ax_1,y_1,x_2,y_2,x_3,y_3,R,a qui s’annulent.
    4. Éliminer RR et aa, en déduire la relation cherchée.
    5. Vérifier que cette relation est équivalente à la nullité de la partie imaginaire du birapport des affixes α,β,γ,δ\alpha, \beta, \gamma, \delta des 4 points : (αβαγδγδβ)=0 \Im \left( \frac{\alpha-\beta}{\alpha-\gamma} \frac{\delta-\gamma}{\delta-\beta} \right) = 0

8.5  Décalage entier entre racines.

Soit PP un polynôme à coefficients entiers sans racines multiples. On dira que PP a la propriété \mathcal{I} si deux des racines de PP sont décalées d’un entier. En d’autres termes, si r 1,...,r nr_1,...,r_n désignent les racines complexes distinctes de PP, PP possède la propriété \mathcal{I} s’il existe au moins un entier parmi les différences r ir jr_i-r_j pour iji \neq j.

  1. Soit R(t)=resultant x(P(x),P(x+t)) R(t)=\mbox{resultant}_x(P(x),P(x+t)) Montrer que RR est à coefficients entiers. Montrer que la propriété \mathcal{I} est équivalente à la propriété “RR possède une racine entière non nulle”. On va maintenant construire un algorithme déterminant les racines entières du polynôme RR.
  2. Après division de RR par une puissance de tt, on peut supposer que RR a un coefficient constant non nul. Après division de RR par son contenu, on peut aussi supposer que le contenu de RR est 1. En effectuant ensuite une factorisation square-free de RR, on peut se ramener au cas où RR et RR' sont premiers entre eux. Soit aa une racine de RR.
    1. Donner une majoration de |a||a| en fonction du coefficient constant de RR.
    2. Soit pp un nombre premier ne divisant pas le coefficient dominant de RR et tel que RR et RR' soient premiers entre eux modulo pp. On peut calculer aa à partir d’une racine de RR modulo pp en la “remontant” modulo p kp^k pour kk assez grand (algorithme p-adique). Pour quelle valeur de kk peut-on reconstruire toutes les racines entières de RR ?
    3. Comparer l’algorithme ci-dessus avec les algorithmes suivants : la factorisation de RR sur \mathbb{Z}, la recherche numérique des racines complexes de RR, la recherche des racines entières de RR parmi les diviseurs entiers du coefficient constant de RR et leurs opposés.
  3. Une fois les racines entières de RR connues, comment peut-on en déduire les facteurs de PP dont les racines diffèrent de cet(ces) entier(s)?
  4. Soit P(x)=x 6+9x 5+29x 4+41x 3+37x 2+59x+31P(x)=x^6+9x^5+29x^4+41x^3+37 x^2+59x+31 Montrer que PP a la propriété \mathcal{I}. Calculer la ou les racines entières de RR et donner la factorisation correspondante de PP.
  5. Écrire un programme qui effectue cet algorithme sur un polynôme quelconque. On pourra utiliser la fonction rationalroot de Xcas pour déterminer les racines entières de RR.
  6. Application : on cherche à calculer k=1 n9x 227x30P(x)(15) \sum_{k=1}^n \frac{-9x^2-27x-30}{P(x)} \qquad (15) Décomposer cette fraction en éléments simples (donner le détail des calculs en utilisant la factorisation précédente et l’identité de Bezout abcuv en Xcas).
  7. Calculer la somme précédente (15). On pourra remarquer que pour kk entier strictement positif, 1f(x+k)1f(x)\frac{1}{f(x+k)}-\frac{1}{f(x)} s’exprime comme une somme de différences 1f(x+j+1)1f(x+j)\frac{1}{f(x+j+1)}-\frac{1}{f(x+j)}.
  8. Écrire un programme effectuant ce calcul avec une fraction quelconque, lorsque cela est possible.

8.6  Exemple de correction de géométrie et résultant

e1:=x1-R*((1-b^2)/(1+b^2)-(1-a^2)/(1+a^2));
e2:=y1-R*(2b/(1+b^2)-2*a/(1+a^2));
e3:=x2-R*((1-c^2)/(1+c^2)-(1-a^2)/(1+a^2));
e4:=y2-R*(2c/(1+c^2)-2*a/(1+a^2));
e5:=x3-R*((1-d^2)/(1+d^2)-(1-a^2)/(1+a^2));
e6:=y3-R*(2d/(1+d^2)-2*a/(1+a^2));
f1:=factor(resultant(numer(e1),numer(e2),b)/
 (-4)/(a^2+1)^3/R^2);
f2:=factor(resultant(numer(e3),numer(e4),c)/
 (-4)/(a^2+1)^3/R^2);
f3:=factor(resultant(numer(e5),numer(e6),d)/
 (-4)/(a^2+1)^3/R^2);
g1:=factor(resultant(f1,f2,R));
g2:=resultant(f1,f3,R);
r:=factor(resultant(g1/(a^2+1),g2/(a^2+1),a));
eq1:=r[1,3,1];
eq2:=numer(im((-x1-i*y1)/(-x2-i*y2)*
 (x3-x2+i*(y3-y2))/(x3-x1+i*(y3-y1))));
normal(eq1-eq2);

Chapitre 9  Bases de Gröbner.

9.1  Ordre et réduction

L’anneau des polynômes à plusieurs variables n’a pas de division euclidienne. On est donc obligé d’utiliser des outils moins performants. La première chose à faire est de choisir un ordre total sur les monomes, compatible avec la multiplication des monômes (a<ba&lt;b doit entrainer ac<bca c&lt;b c) et tel que si un monôme aa divise un autre monôme bb alors a<ba&lt;b. Exemples d’ordres utilisés fréquemment (ce sont les 3 ordres proposés par les fonctions de Xcas) :

On remarque sur ces 3 exemples qu’il ne peut exister de suite strictement décroissante infinie pour l’ordre >&gt;. Lorsque le degré total est le premier critère, c’est évident, puisque le nombre de monomes <&lt; à un monome donné est fini. Pour l’ordre lexicographique, on raisonne par l’absurde. On regarde d’abord le premier indice, comme la suite est décroissante, tous les monômes ont un indice inférieur ou égal au premier indice du premier monôme. On peut donc extraire une sous-suite strictement décroissante et infinie de monômes dont le 1er indice est constant. On passe alors au 2ème indice, et ainsi de suite jusqu’au dernier indice qui donne une contradiction. On fait donc dans la suite l’hypothèse qu’il n’existe pas de suite strictement décroissante infinie pour l’ordre >&gt;.

On peut alors effectuer une sorte de remplacement de la division euclidienne de AA par BB, appelée réduction qui consiste à comparer le terme dominant de BB au sens de l’ordre (noté LT(B)LT(B)) aux monomes de AA par ordre décroissant, si l’un des monomes de AA a toutes ses puissances plus grandes que LT(B)LT(B), alors on élimine ce terme, disons A kA_k, en retranchant à AA le polynôme A k/LT(B)BA_k/LT(B) B. Ceci ne modifie pas le début de AA jusqu’au monôme A kA_k. Les termes retranchés peuvent eux-même donner lieu à une réduction par BB, par exemple A k/LT(B)B 2A_k/LT(B) B_2 peut être divisible par LT(B)LT(B). Le procédé de réduction doit toutefois s’arrêter, sinon on pourrait construire une suite décroissante infinie pour l’ordre >&gt; avec les A kA_k. On peut même diviser AA par plusieurs polynômes B,C,..B,C,.. en utilisant cet algorithme.

9.2  Idéaux

En dimension 1, les idéaux sont engendrés par un polynôme PP et c’est la division euclidienne par PP qui permet de savoir si on est dans l’idéal. En dimension plus grande, l’analogue est la base de Gröbner de l’idéal (relativement à un ordre monomial <&lt;) et on utilise la réduction par rapport aux polynômes de l’idéal pour savoir si on est dans l’idéal. On commence par montrer que les idéaux de monomes sont engendrés par les monômes minimaux, qui ne sont divisibles par aucun autre monôme de l’idéal. Supposons qu’ils soient en nombre infini. Considérons le premier indice des monomes, s’il est borné, on aura une infinité de monomes ayant le même indice, sinon on aura une suite infinie de monômes d’indice croissant, dans les deux cas on peut extraire une suite infinie dont la première composante est croissante au sens large. On fait le même raisonnement sur la suite extraite pour la 2ème composante, etc. et on aboutit à une suite infinie de monômes qui se divisent les uns les autres ce qui est absurde. Donc les monômes minimaux sont en nombre fini.

Une base de Gröbner s’obtient en prenant des polynômes correspondant aux monômes minimaux de l’idéal de monômes LT(I)LT(I) des coefficients dominants de II. La réduction par rapport aux éléments de cette base donne alors 0 pour tous les éléments de II, ce qui montre que II est engendré par cette base.

On appelle “s-polynôme” d’une paire de polynômes AA et BB le polynôme obtenu en calculant le monôme PPCM LL de LT(A)LT(A) et LT(B)LT(B) et en créant la différence qui annule ce monôme PPCM L/LT(A)AL/LT(B)BL/LT(A)A -L/LT(B)B.

On peut montrer que la base de Gröbner peut se calculer à partir d’une famille génératrice en effectuant la boucle suivante : on calcule tous les s-polynômes de la famille génératrice courante, on les réduit par rapport à la famille génératrice courante, si tous les s-polynomes sont nuls la famille courante est la base cherchée, sinon on garde les s-polynômes réduits non nuls, on réduit la famille génératrice courante par rapport à ces s-polynômes réduits non nuls et on fusionne les polynômes non nuls en la famille génératrice courante pour l’itération suivante de la boucle.

Le problème est que cela devient très vite très long. Il existe des méthodes permettant d’accélérer l’algorithme, par exemple on peut savoir à l’avance qu’un s-polynôme se réduit à 0 (règles de Gebauer-Möller) il est donc inutile de le calculer. On peut aussi précalculer tous les multiples des polynômes par rapport auxquels on réduit et réduire simultanément tous les polynômes à réduire en ramenant la réduction à un algorithme de pivot de Gauß (c’est la partie algèbre linéaire de l’algorithme F4). L’ordre choisi est aussi très important pour l’efficacité. Enfin, pour le cas des coefficients entiers, des méthodes modulaires permettent d’accélérer les calculs. Xcas implémente un algorithme modulaire très compétitif pour l’ordre revlex, présenté dans l’article en anglais qui suit.

Les instructions Xcas correspondantes sont gbasis, greduce.

9.3  Introduction

During the last decades, considerable improvements have been made in CAS like Maple or specialized systems like Magma, Singular, Cocoa, Macaulay... to compute Groebner basis. They were driven by implementations of new algorithms speeding up the original Buchberger ([]) algorithm: Gebauer and Möller criterion ([]), F4 and F5 algorithms from J.-C. Faugère ([], []), and are widely described in the literature if the base field is a finite field. Much less was said about computing over \mathbb{Q}. It seems that implementers are using the same algorithm as for finite fields, this time working with coefficients in \mathbb{Q} or in \mathbb{Z} (sometimes with fast integer linear algebra), despite the fact that an efficient p-adic or Chinese remaindering algorithm were described as soon as in year 2000 by E. Arnold ([]). The reason might well be that these modular algorithms suffer from a time-consuming step at the end: checking that the reconstructed Groebner basis is indeed the correct Groebner basis.

Section 9.4 will show that if one accepts a small error probability, this check may be fast, so we can let the user choose between a fast conjectural Groebner basis to make his own conjectures and a slower certified Groebner basis once he needs a mathematical proof.

Section 9.5 will explain learning, a process that can accelerate the computation of a Groebner basis modulo a prime p kp_k once the same computation but modulo another prime pp has already been done ; learning is an alternative to the F5 algorithm in order to avoid computing useless critical pairs that reduce to 0. The idea is similar to F4remake by Joux-Vitse ([]) used in the context of computing Groebner basis in large finite fields.

Section 9.6 will show in more details how the gbasis algorithm is implemented in Giac/Xcas ([]) and show that - at least for the classical academic benchmarks Cyclic and Katsura - the deterministic modular algorithm is competitive or faster than the best open-source implementations and the modular probabilistic algorithm is comparable to Maple and slower than Magma on one processor (at least for moderate integer coefficient size) and may be faster than Magma on multi-processors, while computation modulo pp are faster for characteristics in the 24-31 bits range. Moreover the modular algorithm memory usage is essentially twice the memory required to store the basis on \mathbb{Q}, sometimes much less than the memory required by other algorithms.

9.4  Checking a reconstructed Groebner basis

Let f 1,..,f mf_1,..,f_m be polynomials in [x 1,..,x n]\mathbb{Q}[x_1,..,x_n], I=<f 1,...,f m>I=&lt;f_1,...,f_m&gt; be the ideal generated by f 1,...,f nf_1,...,f_n. Without loss of generality, we may assume that the f if_i have coefficients in \mathbb{Z} by multiplying by the least common multiple of the denominators of the coefficients of f if_i. We may also assume that the f if_i are primitive by dividing by their content.

Let <&lt; be a total monomial ordering (for example revlex the total degree reverse lexicographic ordering). We want to compute the Groebner basis GG of II over \mathbb{Q} (and more precisely the inter-reduced Groebner basis, sorted with respect to <&lt;). Now consider the ideal I pI_p generated by the same f if_i but with coefficients in /p\mathbb{Z}/p\mathbb{Z} for a prime pp. Let G pG_p be the Groebner basis of I pI_p (also assumed to be inter-reduced, sorted with respect to <&lt;, and with all leading coefficients equal to 1).

Assume we compute GG by the Buchberger algorithm with Gebauer and Möller criterion, and we reduce in \mathbb{Z} (by multiplying the s-poly to be reduced by appropriate leading coefficients), if no leading coefficient in the polynomials are divisible by pp, we will get by the same process but computing modulo pp the G pG_p Groebner basis. Therefore the computation can be done in parallel in \mathbb{Z} and in /p\mathbb{Z}/p\mathbb{Z} except for a finite set of unlucky primes (since the number of intermediate polynomials generated in the algorithm is finite). If we are choosing our primes sufficiently large (e.g. about 2 312^{31}), the probability to fall on an unlucky prime is very small (less than the number of generated polynomials divided by about 2 312^{31}, even for really large examples like Cyclic9 where there are a few 10 410^4 polynomials involved, it would be about 1e-5).

The Chinese remaindering algorithm is as follow: compute G pG_p for several primes, for all primes that have the same leading monomials in G pG_p (i.e. if coefficient values are ignored), reconstruct G p jG_{\prod p_j} by Chinese remaindering, then reconstruct a candidate Groebner basis G cG_c in \mathbb{Q} by Farey reconstruction. Once it stabilizes, do the checking step described below, and return G cG_c on success.

Checking step : check that the original f if_i polynomials reduce to 0 with respect to G cG_c and check that G cG_c is a Groebner basis.

Théorème 23   (Arnold, Greuel and Pfister) If the checking step succeeds, then G cG_c is the Groebner basis of II.

This is a consequence of ideal inclusions (first check) and dimensions (second check), for a complete proof, see [] and theorem 7.5.1 in Greuel,G.-M., Pfister,G., 2007, A Singular Introduction to Commutative Algebra, Springer.

Probabilistic checking algorithm: instead of checking that s-polys of critical pairs of G cG_c reduce to 0, check that the s-polys reduce to 0 modulo several primes that do not divide the leading coefficients of G cG_c and stop as soon as the inverse of the product of these primes is less than a fixed ε>0\varepsilon&gt;0.

Deterministic checking algorithm: check that all s-polys reduce to 0 over \mathbb{Q}. This can be done either by integer computations (or even by rational computations, I have not tried that), or by reconstruction of the quotients using modular reduction to 0 over /p\mathbb{Z}/p\mathbb{Z} for sufficiently many primes. Once the reconstructed quotients stabilize, we can check the 0-reduction identity, and this can be done without computing the products quotients by elements of G cG_c if we have enough primes (with appropriate bounds on the coefficients of G cG_c and the lcm of the denominators of the reconstructed quotients).

9.5  Speeding up by learning from previous primes

Once we have computed a Groebner basis modulo an initial prime pp, if pp is not an unlucky prime, then we can speedup computing Groebner basis modulo other lucky primes. Indeed, if one s-poly reduce to 0 modulo pp, then it reduces most certainly to 0 on \mathbb{Q} (non zero s-poly have in general several terms, cancellation of one term mod pp has probability 1/p1/p, simultaneous cancellation of several terms of a non-zero s-poly modulo pp is highly improbable), and we discard this s-poly in the next primes computations. We name this speedup process learning. It can also be applied on other parts of the Groebner basis computation, like the symbolic preprocessing of the F4 algorithm, where we can reuse the same collection of monomials that were used for the first prime pp to build matrices for next primes (see Buchberger Algorithm with F4 linear algebra in the next section).

If we use learning, we have no certification that the computation ends up with a Groebner basis modulo the new primes. But this is not a problem, since it is not required by the checking correctness proof, the only requirement is that the new generated ideal is contained in the initial ideal modulo all primes (which is still true) and that the reconstructed G cG_c is a Groebner basis.

9.6  Giac/Xcas implementation and experimentation

We describe here briefly some details of the Giac/Xcas gbasis implementation and give a few benchmarks.

The optimized algorithm runs with revlex as <&lt; ordering if the polynomials have at most 15 variables (it’s easy to modify for more variables, adding multiples of 4, but this will increase a little memory required and slow down a little). Partial and total degrees are coded as 16 bits integers (hence the 15 variables limit, since 1 slot of 16 bits is kept for total degree). Modular coefficients are coded as 31 bit integers (or 24).

The Buchberger algorithm with linear algebra from the F4 algorithm is implemented modulo primes smaller than 2 312^{31} using total degree as selection criterion for critical pairs.
Buchberger algorithm with F4 linear algebra modulo a prime

  1. Initialize the basis to the empty list, and a list of critical pairs to empty
  2. Add one by one all the f if_i to the basis and update the list of critical pairs with Gebauer and Möller criterion, by calling the gbasis update procedure (described below step 9)
  3. Begin of a new iteration:
    All pairs of minimal total degree are collected to be reduced simultaneously, they are removed from the list of critical pairs.
  4. The symbolic preprocessing step begins by creating a list of monomials, gluing together all monomials of the corresponding s-polys (this is done with a heap data structure).
  5. The list of monomials is “reduced” by division with respect to the current basis, using heap division (like Monagan-Pearce []) without taking care of the real value of coefficients. This gives a list of all possible remainder monomials and a list of all possible quotient monomials and a list of all quotient times corresponding basis element monomial products. This last list together with the remainder monomial list is the list of all possible monomials that may be generated reducing the list of critical pairs of maximal total degree, it is ordered with respect to <&lt;. We record these lists for further primes during the first prime computation.
  6. The list of quotient monomials is multiplied by the corresponding elements of the current basis, this time doing the coefficient arithmetic. The result is recorded in a sparse matrix, each row has a pointer to a list of coefficients (the list of coefficients is in general shared by many rows, the rows have the same reductor with a different monomial shift), and a list of monomial indices (where the index is relative to the ordered list of possible monomials). We sort the matrix by decreasing order of leading monomial.
  7. Each s-polynomial is written as a dense vector with respect to the list of all possible monomials, and reduced with respect to the sparse matrix, by decreasing order with respect to <&lt;. (To avoid reducing modulo pp each time, we are using a dense vector of 128 bits integers on 64 bits architectures, and we reduce mod pp only at the end of the reduction. If we work on 24 bit signed integers, we can use a dense vector of 63 bits signed integer and reduce the vector if the number of rows is greater than 2 152^{15}).
  8. Then inter-reduction happens on all the dense vectors representing the reduced s-polynomials, this is dense row reduction to echelon form (0 columns are removed first). Care must be taken at this step to keep row ordering when learning is active.
  9. gbasis update procedure
    Each non zero row will bring a new entry in the current basis (we record zero reducing pairs during the first prime iteration, this information will be used during later iterations with other primes to avoid computing and reducing useless critical pairs). New critical pairs are created with this new entry (discarding useless pairs by applying Gebauer-Möller criterion). An old entry in the basis may be removed if it’s leading monomial has all partial degrees greater or equal to the leading monomial corresponding degree of the new entry. Old entries may also be reduced with respect to the new entries at this step or at the end of the main loop.
  10. If there are new critical pairs remaining start a new iteration (step 3). Otherwise the current basis is the Groebner basis.

Modular algorithm

  1. Set a list of reconstructed basis to empty.
  2. Learning prime: Take a prime number of 31 bits or 29 bits for pseudo division, run the Buchberger algorithm modulo this prime recording symbolic preprocessing data and the list of critical pairs reducing to 0.
  3. Loop begin: Take a prime of 29 bits size or a list of nn primes if nn processors are available. Run the Buchberger algorithm. Check if the output has the same leading terms than one of the chinese remainder reconstructed outputs from previous primes, if so combine them by Chinese remaindering and go to step 4, otherwise add a new entry in the list of reconstructed basis and continue with next prime at step 3 (clearing all learning data is probably a good idea here).
  4. If the Farey \mathbb{Q}-reconstructed basis is not identical to the previous one, go to the loop iteration step 3 (a fast way to check that is to reconstruct with all primes but the last one, and check the value modulo the last prime). If they are identical, run the final check : the initial polynomials f if_i must reduce to 0 modulo the reconstructed basis and the reconstructed basis s-polys must reduce to 0 (this is done on \mathbb{Q} either directly or by modular reconstruction for the deterministic algorithm, or checked modulo several primes for the probabilistic algorithm). On success output the \mathbb{Q} Groebner basis, otherwise continue with next prime at step 3.

Benchmarks
Comparison of giac (1.1.0-26) with Singular 3.1 from sage 5.101 on Mac OS X.6, Dual Core i5 2.3Ghz, RAM 2*2Go:

 giac mod ppgiacsingulargiac \mathbb{Q} prob.giac \mathbb{Q}singular
 24, 31 bitsrun2mod pp1e-7, 1e-16 certifiedstd \mathbb{Q}
Cyclic70.5, 0.580.12.03.5, 4.221, 29.3>2700
Cyclic87.2, 8.91.852.5103, 106258, 679>>
Cyclic9633, 1340200?1 day>>>>
Kat80.063, 0.0740.0090.20.33, 0.536.55, 4.354.9
Kat90.29, 0.390.051.372.1, 3.254, 3641
Kat101.53, 2.270.311.6514, 20.7441, 335480
Kat1110.4, 13.82.886.8170, 2104610?
Kat1276, 103278851950, RAMRAM>>
alea60.83, 1.08.264.18202, 204738, >>>1h


This leads to the following observations :

Example of Giac/Xcas code:

alea6 := [5*x^2*t+37*y*t*u+32*y*t*v+21*t*v+55*u*v,
39*x*y*v+23*y^2*u+57*y*z*u+56*y*u^2+10*z^2+52*t*u*v,
33*x^2*t+51*x^2+42*x*t*v+51*y^2*u+32*y*t^2+v^3,
44*x*t^2+42*y*t+47*y*u^2+12*z*t+2*z*u*v+43*t*u^2,
49*x^2*z+11*x*y*z+39*x*t*u+44*x*t*u+54*x*t+45*y^2*u,
48*x*z*t+2*z^2*t+59*z^2*v+17*z+36*t^3+45*u];
l:=[x,y,z,t,u,v];
p1:=prevprime(2^24); p2:=prevprime(2^29);
time(G1:=gbasis(alea6 % p1,l,revlex));
time(G2:=gbasis(alea6 % p2,l,revlex));
threads:=2; // set the number of threads you want to use
// debug_infolevel(1); // uncomment to show intermediate steps
proba_epsilon:=1e-7; // probabilistic algorithm.
time(H0:=gbasis(alea6,indets(cyclic5),revlex));
proba_epsilon:=0; // deterministic
time(H1:=gbasis(alea6,indets(cyclic5),revlex));
time(H2:=gbasis(alea6,indets(cyclic5),revlex,modular_check));
size(G1),size(G2),size(H0),size(H1),size(H2);
write("Halea6",H0);

Note that for small examples (like Cyclic5), the system performs always the deterministic check (this is the case if the number of elements of the reconstructed basis to 50).

9.7  Conclusion

I have described some enhancements to a modular algorithm to compute Groebner basis over \mathbb{Q} which, combined to linear algebra from F4, gives a sometimes much faster open-source implementation than state-of-the-art open-source implementations for the deterministic algorithm. The probabilistic algorithm is also not ridiculous compared to the best publicly available closed-source implementations, while being much easier to implement (about 10K lines of code, while Fgb is said to be 200K lines of code, no need to have highly optimized sparse linear algebra).

This should speed up conjectures with the probabilistic algorithm and automated proofs using the deterministic algorithm (e.g. for the Geogebra theorem prover []), either using Giac/Xcas (or one of it’s interfaces to java and python) or adapting it’s implementation to other open-source systems. With fast closed-source implementations (like maple or magma), there is no certification that the result is a Groebner basis : there might be some hidden probabilistic step somewhere, in integer linear system reduction for example. I have no indication that it’s the case but one can never know if the code is not public, and at least for my implementation, certification might take a lot more time than computation.

There is still room for additions and improvements

Acknowledgements
Thanks to Frédéric Han for interfacing giac with Python. Thanks to Vanessa Vitse for insightfull discussions.

9.8  Représentation rationnelle univariée (rur).

Lorsqu’on résoud un système polynomial, on a (en général) autant d’équations que d’inconnues et en principe un nombre fini de solutions. On peut utiliser une base de Groebner dans l’ordre lexicographique, résoudre par rapport à la dernière variable, puis remonter, mais d’une part le calcul d’une base de Groebner dans l’ordre lexicographique est significativement plus long que dans l’ordre revlex, et d’autre part il faut calculer des PGCD et factoriser des polynômes sur des extensions algébriques dont la taille peut augmenter au fur et à mesure que l’on remonte (ou faire des calculs approchés...). Il serait plus intéressant de calculer d’un seul coup une extension algébrique de \mathbb{Q} qui permette d’exprimer toutes les variables. Ceci peut se faire si on arrive à trouver une forme linéaire en les variables qui sépare les solutions (la valeur de la forme est distincte si les points solutions sont distincts). On rajoute cette variable et on résoud l’équation obtenue en cette variable, pour chaque solution on aura une unique solution en remontant les autres variables. La représentation univariée rationnelle fait précisément cela, et donne même les autres variables comme polynôme en la forme linéaire séparante.

La présentation classique de la représentation univariée rationnelle utilise des calculs de trace (cf. par exemple le rapport de l’Inria 1998 de Fabrice Rouillier), l’algorithme implémenté dans Giac/Xcas (versions 1.1.1 et ultérieures) est un algorithme modulaire. On commence par se ramener au cas d’un idéal radical (c’est-à-dire que les points solutions du système sont de multiplicité 1) en ajoutant aux générateurs de l’idéal les parties squarefree des polynômes minimaux de toutes les variables. Pour un idéal radical, on montre qu’il existe une forme linéaire séparante, le degré du polynôme minimal de cette forme linéaire séparante est exactement égal à la dimension du quotient de l’anneau de polynômes par l’idéal radical. On peut donc tester si une forme linéaire est séparante en calculant son polynôme minimal. En pratique, on commence par calculer une base de Groebner pour l’ordre revlex (le plus efficace). On génère la liste des monomes du quotient en commençant par majorer les degrés en chacune des variables, puis on élimine parmi les monomes possibles ceux qui sont divisibles par le monome dominant d’un élément de la base de Groebner. On calcule ensuite la classe d’un polynôme dans le quotient en effectuant une réduction par la base de Groebner, on obtient un vecteur de coordonnées dans cette base de monome. Le calcul du polynôme minimal d’une forme linéaire devient ainsi un problème d’algèbre linéaire. Le calcul de chaque variable en fonction des puissances d’une forme linéaire séparante est également un problème d’algèbre linéaire (on le fait simultanément pour toutes les variables, si on veut optimiser on peut même faire une décomposition LU lors du calcul du polynôme minimal et la réutiliser). Pour éviter les problèmes de croissance de coefficients dans les calculs intermédiaires, ce calcul est effectué modulo plusieurs nombres premiers dans giac, jusqu’à pouvoir reconstruire par les restes chinois le polynôme minimal de la forme séparante sur \mathbb{Q} et les expressions des variables comme polynôme de la forme séparante (on n’a alors pas besoin de reconstruire la base de Groebner sur \mathbb{Q}). Bien entendu, il faut traiter le cas des mauvaises réductions, pour cela on regarde si les monomes de la base du quotient de l’anneau par l’idéal sont indépendants du nombre premier choisi, en cas de différence, il faut conserver le nombre premier correspondant à la liste de monômes la plus grande (l’autre nombre premier est de mauvaise réduction), ou rejeter les deux nombres premiers si aucune des deux listes de monomes ne contient l’autre.

Les fonctions solve, fsolve et cfsolve utilisent cet algorithme pour des systèmes polynomiaux qui s’y prêtent (en cherchant une forme séparante d’abord parmi les variables puis avec des combinaisons linéaires aléatoires à petits coefficients entiers), solve essaie de renvoyer des solutions exactes si le polynome minimal de la forme linéaire séparante se factorise sur \mathbb{Q}, fsolve (en mode réel) localise les racines réelles par la méthode d’Akritas, cfsolve localise les racines complexes par factorisation de Schur de la matrice companion. La fonction gbasis(eqs,vars,rur) avec comme paramètre optionnel rur effectue le calcul de la représentation univariée rationnelle et renvoie une liste contenant le polynôme minimal PP (exprimée arbitrairement en fonction de la 1ère variable du système), sa dérivee PP' et les P 1,...,P nP_1,...,P_n qui permettent d’exprimer la ii-ème variable d’une solution comme étant P i(r)/P(r)P_i(r)/P'(r) avec rr racine de PP. On peut alors vérifier que l’on a bien une solution en remplaçant la variable x ix_i par P i/PP_i/P' dans les équations, le reste de la division euclidienne du numérateur de la fraction obtenue par le polynome minimal PP doit donner 0.

Exemple :

Calcul en mode pas à pas :
l’élément d’indice 1 est la forme linéaire séparante, en indice 2, le polynôme minimal de l’élément séparant exprimé en fonction de xx, en indice 3 sa dérivée qui sera le dénominateur commun de la solution, en indices de 4 à la fin le numérateur de la solution en fonction de xx
On vérifie :
On trouve les solutions approchées

La représentation rationnelle univariée a des applications au-delà de la seule résolution de systèmes polynomiaux. On peut s’en servir pour trouver une extension algébrique unique de \mathbb{Q} permettant de calculer toutes les racines d’un polynôme, il suffit de poser le système formé par les relations racines-coefficients de ce polynôme et d’en chercher la représentation rationnelle univariée, cf. la section 18.6. On peut également s’en servir pour trouver une extension algébrique unique contenant plusieurs extensions de \mathbb{Q} dont on a le polynôme minimal. Par exemple pour travailler dans [2,3,5]\mathbb{Q}[\sqrt{2},\sqrt{3},\sqrt{5}], on pose
G:=gbasis([a^2-2,b^2-3,c^2-5],[a,b,c],rur),
on a alors ±2=\pm \sqrt{2}=rootof(G[4],G[2])/rootof(G[3],G[2]),
±3=\pm \sqrt{3}=rootof(G[5],G[2])/rootof(G[3],G[2]),
±5=\pm \sqrt{5}=rootof(G[6],G[2])/rootof(G[3],G[2])
(on peut utiliser normal ou evalf pour décider du signe).


1
Singular has also a modular implementation in modstd.lib, but it is not called by default.

Chapitre 10  Courbes paramétriques et polaires

10.1  Introduction

Le graphe d’une fonction f:If: I \mapsto \mathbb{R} (II un intervalle) est un exemple de courbe du plan, mais il n’est pas assez général pour représenter tous les types de courbe du plan, par exemple un segment de droite vertical, ou un cercle, car deux points distincts d’un graphe doivent avoir des abscisses différentes. D’autre part, il apparait naturellement d’autres types de courbes que les graphes de fonction, par exemple la trajectoire d’un mobile dans le plan dont les coordonnées x,yx,y dépendent du temps (selon une équation différentielle ou un système différentiel), ce sont les courbes paramétriques, ou des courbes vérifiant une équation cartésienne (par exemple en géométrie le cercle x 2+y 2=1x^2+y^2=1, ou en cinématique des courbes de niveau de l’énergie totale dans le plan position-impulsion) ce sont les courbes implicites.

Dans cette section, on va étudier les courbes en paramétriques, donnée par un couple de fonctions (x(t),y(t))(x(t),y(t)) définies pour tt dans un sous-ensemble des réels et à valeurs dans \mathbb{R}. (Ceci ne restreint pas trop la généralité, on peut montrer sous des hypothèses assez générales que l’allure locale d’une courbe implicite est identique à celle d’une courbe paramétrique, sauf en certains points dits singuliers, c’est le théorème des fonctions implicites).

Exemples :

10.2  Représentation graphique

La plupart des calculatrices graphiques et de nombreux logiciels de maths permettent de représenter graphiquement un arc de courbe en donnant des valeurs extrêmes t t_- et t +t_+ (souvent notées tmin et tmax) et un pas Δt\Delta t (tstep). Le logiciel évalue la valeur de x(t)x(t) et y(t)y(t) en t t_-, t +Δtt_-+\Delta t, t +2Δtt_-+2\Delta t, ... puis relie les points de la courbe obtenue par des segments (parfois avec des autres arcs de courbes). La plupart du temps cela donne une bonne idée de la courbe, mais parfois on peut manquer un détail intéressant (valeur de Δt\Delta t trop grande), ou un morceau de courbe (mauvaises valeurs de t t_- et t +t_+). Par exemple

Il peut être nécessaire d’ajuster le cadrage graphique à l’affichage (xmin, xmax, ymin, ymax) ou de l’affiner avec un menu de zoom. Sur les calculatrices les opérations de changement de cadrage graphique provoquent un nouveau calcul complet qui peut durer une dizaine de secondes.

Mise en oeuvre :

Exemples : essayez de tracer quelques courbes en paramétriques (2cos(t),3sin(t)),(cos(2t),sin(3t)),(t 2,t 3),(t+1/t,t 2+2/t),(t1,2t)(2\cos(t),3\sin(t)), \quad (\cos(2t),\sin(3t)), \quad (t^2,t^3), \quad (t+1/t, t^2+2/t), \quad (\sqrt{t-1},\sqrt{2-t})

10.3  Paramétrage

On adoptera souvent la convention d’appeler temps le paramétre tt. Mais cela ne signifie pas que le paramétrage est réellement le temps mesuré en secondes. On peut très bien paramétrer une courbe avec un paramètre autre, qui peut être un multiple constant ou variable du temps (c’est d’ailleurs conforme au principe de la relativité). Le paramétrage n’est jamais unique, on peut changer de paramétrage pourvu que la fonction donnant le nouveau en fonction de l’ancien paramétrage soit une bijection (qui peut même renverser le sens de déroulement du temps c’est-à-dire le sens de parcours de la courbe). On utilisera d’ailleurs plus loin un paramétrage par la longueur, où la courbe est parcourue à vitesse constante égale à 1.

Le choix d’un paramétrage est ce qui fait la différence entre la cinématique (on prend le temps comme paramètre) et la géométrie (où on cherche à décrire les propriétés intrinséques de la courbe indépendamment du paramétrage). Ainsi, l’équation cartésienne d’une courbe est une propriété géométrique, indépendante du choix de paramétrage choisi pour l’obtenir.

On observe aussi que l’opération inverse, trouver un paramétrage à partir d’une équation cartésienne de courbe n’est pas possible de manière explicite, sauf dans quelques cas particuliers. C’est pour cette raison qu’il est beaucoup plus difficile (et couteux en temps) d’obtenir une représentation graphique d’une courbe donnée par son équation cartésienne.

10.4  Étude analytique d’une courbe en paramétrique

10.4.1  Rappel sur les graphes de fonction

Pour tracer le graphe d’une fonction ff, on commence par déterminer le domaine de définition, on restreint éventuellement l’intervalle d’étude (parité, périodicité). Puis on calcule les limites aux bornes du domaine de définition :

On calcule la dérivée première de ff pour déterminer le sens de variations, les points d’annulation correspondent à des tangentes horizontales. On peut étudier la convexité de ff (signe de ff'{'}), les points d’inflexion de la courbe se produisent lorsque ff'{'} s’annule. On trace alors la courbe en faisant apparaitre les points particuliers et les asymptotes.

Pour une courbe en paramétrique, le plan général est analogue, mais l’étude est un peu plus compliquée puisqu’on a deux fonctions tx(t)t \rightarrow x(t) et ty(t)t \rightarrow y(t) au lieu d’une seule xy(x)x \rightarrow y(x).

10.4.2  Domaine et périodicité

On supposera dans toute la suite que les fonctions x(t)x(t) et y(t)y(t) sont continument dérivables au moins 2 fois, sauf peut-être en un nombre fini de réels d’un intervalle II de \mathbb{R}.

On commence par déterminer le domaine de définition de x(t)x(t) et de y(t)y(t), et on essaie de le réduire si possible, soit par périodicité (par exemple pour le cercle ci-dessus, t[0,2π]t \in [0,2 \pi]) soit par l’existence de symétries si les fonctions x(t)x(t) et y(t)y(t) sont paires ou impaires. Par exemple, si xx et yy sont paires, alors on parcourt deux fois le même arc de courbe sur +\mathbb{R}^+ et \mathbb{R}^-, on peut restreindre le domaine d’étude à t0t\geq 0. Si xx est pair et yy impair, alors (x(t),y(t))=(x(t),y(t))(x(-t),y(-t))=(x(t),-y(t)), il y a une symétrie par rapport à l’axe des xx, on se restreint à tR +t \in R^+. Dans le cas périodique, on peut tester des symétries correspondant à des demi (voire quart) de période. Exemple : (3cos(t)+2cos(3t),3sin(t)2sin(3t))(3\cos(t)+2\cos(3t),3\sin(t)-2\sin(3t))

10.4.3  Branches infinies

On s’intéresse ensuite aux bornes du domaine de définition et aux points où xx ou/et yy ne sont pas définis. Si xx et yy admettent une limite finie, on peut prolonger la courbe. Si les limites existent mais ne sont pas finies, on a une branche infinie (xx ou yy). Si l’une des deux valeurs tend vers l’infini, l’autre restant finie, on a une asymptote (horizontale si xx tend vers l’infini, verticale si yy tend vers l’infini), on peut déterminer la position de l’arc de courbe par rapport à l’asymptote en cherchant le signe de yly-l ou xlx-l lorsque tt tend vers la valeur particulière (limite à droite et limite à gauche). Enfin si xx et yy tendent vers l’infini tous les deux, on cherche la limite de y/xy/x, Si yxa0\frac{y}{x} \rightarrow a \neq 0, on a une branche parabolique de direction asymptotique y=axy=ax, on cherche alors la limite yaxy-ax, si cette limite est finie et vaut bb on a une asymptote oblique y=ax+by=ax+b (on peut déterminer la position en cherchant le signe de y(ax+b)y-(ax+b).

Exemples : (t 2t+1,t+1t 2+1),(t 2,t 3),(t 3t 2+1,t+1t 2+2),(1t 21,tt+1),(\frac{t^2}{t+1},t+\frac1{t^2+1}), \ (t^2,t^3), \ (\frac{t^3}{t^2+1},t+\frac{1}{t^2+2}), \ (\frac{1}{t^2-1},\frac{t}{t+1}), On peut utiliser la commande limit dans Xcas pour étudier une asymptote, par exemple dans le premier cas, pour étudier la branche infinie pour t+t \rightarrow +\infty1
On définit les fonctions

puis on calcule les limites lorsque t+t \rightarrow +\infty


Si aa est fini non nul et bb fini, on en déduit que y=ax+by=ax+b est asymptote à la courbe. Il y a une autre asymptote pour t=1t=-1 (YY fini, XX tend vers l’infini)

Autre exemple :

10.4.4  Étude locale

On se place en une valeur de t 0t_0xx et yy sont continument dérivables au moins deux fois. On notera la dérivation par rapport au paramètre par le signe ’ (en physique on utilise aussi le point). On a alors un développement de Taylor à l’ordre 2 du vecteur M(t 0)M(t 0+h) = (x(t 0+h)x(t 0),y(t 0+h)y(t 0)) = h(x(t 0),y(t 0))+h 22(x(t x),y(t y)) \begin{matrix} \overrightarrow{M(t_0)M(t_0+h)}&=&(x(t_0+h)-x(t_0),y(t_0+h)-y(t_0)) \\ &=& h (x'(t_0),y'(t_0))+\frac{h^2}{2}(x'{'}(t_x),y'{'}(t_y)) \end{matrix} t xt_x et t yt_y sont compris entre t 0t_0 et t 0+ht_0+h. Si le vecteur vitesse v=(x(t 0),y(t 0))v=(x'(t_0),y'(t_0)) est non nul, on en déduit un équivalent M(t 0)M(t 0+h)h(x(t 0),y(t 0))\overrightarrow{M(t_0)M(t_0+h)} \approx h (x'(t_0),y'(t_0)) Lorsque hh est proche de 0, le vecteur M(t 0)M(t 0+h)\overrightarrow{M(t_0)M(t_0+h)} est équivalent à un vecteur colinéaire à v=(x(t 0),y(t 0))\overrightarrow{v}=(x'(t_0),y'(t_0)) (supposé non nul), qui est donc vecteur tangent à la courbe en (x(t 0),y(t 0))(x(t_0),y(t_0)).

Définition 24   On appelle point régulier d’une courbe paramétrique un point où la vitesse v(t)=(x(t),y(t))\overrightarrow{v}(t)=(x'(t),y'(t)) est non nulle. En un point régulier, la courbe est tangente au vecteur vitesse (la direction du vecteur vitesse est donc une propriété géométrique, alors que le vecteur vitesse est une propriété cinématique). On notera en particulier que la tangente est horizontale si y=0y'=0 et verticale si x=0x'=0.

On appelle point singulier un point où la vitesse s’annulle.

On verra dans la suite comment étudier la tangente en un point singulier d’une courbe. Génériquement, une courbe n’a pas de points singuliers, car il faut annuler simultanément les deux dérivées, or on n’a qu’un seul paramètre libre tt. Par contre une famille de courbes (x m(t),y m(t))(x_m(t),y_m(t)) dépendant d’un paramètre mm (par exemple x m(t)=t 2mt,y m(t)=m/(1+t 2)+tx_m(t)=t^2-mt, y_m(t)=m/(1+t^2)+t) possède en général un nombre discret de valeurs du paramètre pour lesquelles la courbe admet un point singulier. Dans l’exemple, x m=2tm,y m=2mt/(1+t 2) 2+1x_m'=2t-m, y_m'=-2mt/(1+t^2)^2+1, les deux dérivées s’annulent si m=2m=-2 (en t=1t=-1, x=1,y=2x=-1, y=-2) ou m=2m=2 (en t=1t=1). Commandes Xcas :
x:=t^2-m*t; y:=m/(1+t^2)+t;
solve([diff(x,t),diff(y,t)],[m,t]);
supposons(m=[-2.0,-5,5,0.1]);
plotparam([x,y],t=((-3) .. 3));

=
Not evaled

Remarque : en cinématique, si la vitesse et l’accélération sont nulles en un point et que les équations ne dépendent pas explicitement du temps, on reste indéfiniment en ce point qui est un point d’équilibre, la notion de tangente à la courbe n’a alors pas de sens. On peut aussi suivre une trajectoire qui se rapproche de plus en plus d’un point d’équilibre (la limite de (x(t),y(t))(x(t),y(t)) est alors ce point, pour t+t \rightarrow +\infty si l’équilibre est stable ou tt \rightarrow - \infty si l’équilibre est instable).

Pour faire une étude locale plus précise dans le cas d’un point régulier, ou pour déterminer la tangente en un point singulier, il faut poursuivre le développement de Taylor à un ordre plus grand. Á l’ordre 2, si xx et yy sont 3 fois continument dérivables, il existe t x,t y[t 0,t 0+h]t_x,t_y\in [t_0,t_0+h] tels que : M(t 0)M(t 0+h)=h(x(t 0),y(t 0))+h 22(x(t 0),y(t 0))+h 36(x(t x),y(t y))\overrightarrow{M(t_0)M(t_0+h)}= h (x'(t_0),y'(t_0))+\frac{h^2}{2}(x'{'}(t_0),y'{'}(t_0)) +\frac{h^3}{6}(x'{'}'(t_x),y'{'}'(t_y)) Si les vecteurs vitesse v=(x(t 0),y(t 0))\overrightarrow{v}=(x'(t_0),y'(t_0)) et accélération a=(x(t 0),y(t 0))\overrightarrow{a}=(x'{'}(t_0),y'{'}(t_0)) ne sont pas colinéaires, alors {v,a}\{\overrightarrow{v},\overrightarrow{a}\} forme une base, et dans cette base M(t 0)M(t 0+h)\overrightarrow{M(t_0)M(t_0+h)} a pour coordonnées (h,h 2/2)+(h,h^2/2)+un terme d’ordre 3 en puissances de hh, l’arc de courbe est à l’ordre 2 identique à un arc de parabole. On parle de point birégulier. Si {v,a}\{\overrightarrow{v},\overrightarrow{a}\} est une base directe, l’arc est convexe (la vitesse “tourne” dans le sens trigonométrique), sinon il est concave. On peut tester cela en calculant le déterminant des coordonnées de {v,a}\{\overrightarrow{v},\overrightarrow{a}\} ou le sens de variations de mm, la pente de la tangente m=yx,m=xyxyx 2 m=\frac{y'}{x'}, \quad m'=\frac{x'y'{'}-x'{'}y'}{x'^2}

Théorème 25   Si det(v,a)=xyxy>0(v,a)=x'y'{'}-x'{'}y'&gt;0 [resp <0&lt;0] sur un intervalle du domaine de définition, la courbe n’a que des points réguliers, la direction de la tangente en un point est donnée par le vecteur vitesse, et la courbe est convexe [resp. concave]. Si xyxy=0x'y'{'}-x'{'}y'=0, on parle de point d’inflexion analytique.

Remarque : pour un graphe de fonction, x=tx=t, on retrouve le critère usuel y>0y'{'}&gt;0.

Exemple : point d’inflexion en t=0t=0 de (t 3t 2+1,t+1t 2+2)(\frac{t^3}{t^2+1},t+\frac{1}{t^2+2}) La courbe admet deux autres points d’inflexion (t=3.16...t=-3.16... et t=1.31...t=1.31...) qu’on peut déterminer avec les commandes Xcas suivantes :






Note : on utilise comme paramètre x au lieu de t pour pouvoir utiliser la notation ' pour dériver (si on utilise t comme paramètre, il faut utiliser diff(.,t) pour calculer la dérivée par rapport à tt). L’instruction fsolve effectue une résolution numérique, pour tenter une résolution exacte, utiliser solve, mais on risque alors de manquer certaines solutions.

On observe que la convexité est (presque) une propriété géométrique, en effet si on change de paramétrage x=dxdt=dxdssx'=\frac{dx}{dt} =\frac{dx}{ds} s' on dérive par rapport à tt x=(dxdss)=d 2xds 2s 2+dxdssx'{'} = (\frac{dx}{ds} s')'=\frac{d^2x}{ds^2} s'^2 + \frac{dx}{ds} s'{'} puis : xyyx=dxdss(d 2yds 2s 2+dydss)dydss(d 2xds 2s 2+dxdss)=s 3(dxdsd 2yds 2dydsd 2xds 2)x'y'{'}- y' x'{'} = \frac{dx}{ds} s' (\frac{d^2y}{ds^2} s'^2 +\frac{dy}{ds} s'{'} ) - \frac{dy}{ds} s' (\frac{d^2x}{ds^2} s'^2 +\frac{dx}{ds} s'{'} ) = s'^3 (\frac{dx}{ds} \frac{d^2y}{ds^2} - \frac{dy}{ds} \frac{d^2x}{ds^2} ) on retrouve en facteur s 3s'^3 qui est positif si on parcourt la courbe dans le même sens ou négatif sinon.

La convexité décrit qualitativement la géométrie de la courbe (orientée) à l’ordre 1. On verra plus loin que le rayon de courbure décrit quantitativement la géométrie de la courbe à l’ordre 2 (comme la tangente décrit la géométrie de la courbe à l’ordre 1).

Dans le cas d’un point singulier (v=0\overrightarrow{v}=0), si l’accélération a0\overrightarrow{a}\neq 0, alors la tangente est portée par a\overrightarrow{a}. L’étude complète de la nature d’un point singulier ou de la convexité d’un point régulier tel que a\overrightarrow{a} est colinéaire à v\overrightarrow{v} nécessite de faire un développement de Taylor en t=t 0t=t_0 jusqu’au premier ordre qq, s’il existe, tel que :

Dans la base {T,A}\{ \overrightarrow{T},\overrightarrow{A}\}, les composantes de M(t 0)M(t)\overrightarrow{M(t_0)M(t)} sont alors respectivement équivalentes à h p/p!h^p/p! et h q/q!h^q/q!h=tt 0h=t-t_0. On en déduit que la tangente à la courbe est portée par T\overrightarrow{T}.

Exemples de points singuliers en t=0t=0 avec dans l’ordre rebroussement de 1ère puis 2ième espèce, méplat et inflexion : (t 2,t 3),(t 2+t 4,t 4+t 5),(t 3,t 4),(t 3,t 5)(t^2,t^3), \ (t^2+t^4,t^4+t^5), \ (t^3,t^4), \ (t^3,t^5)




Les deux derniers cas peuvent être reparamétrés (au prix de la perte de dérivabilité seconde) en posant t=t 1/3t'=t^{1/3}.

Pour faire l’étude d’un point singulier avec Xcas, on peut utiliser la fonction series sur x(t)x(t) et y(t)y(t) (ici c’est inutile, le développement de Taylor est déjà fait).

Remarque : il peut arriver dans des cas pathologiques que toutes les dérivées de (x,y)(x,y) s’annulent en un point sans que la fonction (x,y)(x,y) soit nulle (par exemple si xx et yy contiennent un facteur exp(1/t 2)\exp(-1/t^2) en t=0t=0, on parle de fonction plate). Il peut aussi arriver que toutes les dérivées soit colinéaires à la première dérivée non nulle, si on se déplace sur une droite ou si la tangeance est plate.

10.5  Plan d’étude d’une courbe

  1. On détermine et on restreint le domaine de définition (périodicité, symétries).
  2. On étudie les branches infinies (point exclus du domaine, ±\pm \infty) : asymptotes horizontales, verticales, directions asymptotiques, asymptotes obliques.
  3. Recherche de xx' et yy', on étudie l’annulation conjointe des deux (points singuliers).
  4. Signe de xx' et yy', double tableau de variations faisant apparaitre x,x,y,yx,x',y,y' et mise en évidence des tangentes horizontales et verticales
  5. Pour préciser le tracé, on peut chercher la convexité en étudiant le signe de xyxyx'y'{'}-x'{'}y'.
  6. Tracé des points remarquables et des asymptotes et on les relie entre eux en suivant les sens de variations du tableau de variations.

Exemple

10.6  Courbes en polaires

Une courbe en polaire est essentiellement donnée par la distance au centre OO d’un point MM de la courbe en fonction de l’angle θ\theta entre la direction OxOx et le vecteur OM\overrightarrow{OM} : OM=r(θ)OM = r(\theta) On s’autorise toutefois des valeurs négatives pour rr, si c’est le cas, on prend alors le symétrique par rapport à l’origine du point situé à distance r-r et d’angle θ\theta.

Représentation graphique : avec Xcas, on utilise la commande plotpolar, sur calculatrices graphiques, sélectionner le mode de tracé en polaire (touche Mode sur TI89/92/V200) ou l’application Polaire ou Géométrie sur les HP Prime. Par exemple





Remarque : une courbe en polaires est toujours parcourue dans le sens trigonométrique.

C’est un cas particulier de courbe en paramétriques puisque (x,y)=(r(θ)cos(θ),r(θ)sin(θ))(x,y)=(r(\theta) \cos(\theta), r(\theta) \sin(\theta)) mais on préfère souvent faire l’étude directement sur la fonction rr. Le plan d’étude est calqué sur celui d’une courbe en paramétrique, mais on n’a qu’une seule fonction rr à étudier.

  1. domaine de définition de rr, recherche de périodicités et symétries (θθ\theta \rightarrow -\theta ou ajout d’une demi ou d’un quart de période). Si la période n’est pas un multiple de 2π2\pi, cela correspond à obtenir un arc de la courbe par rotation à partir d’un autre arc de la courbe.
  2. branches infinies pour θ 0\theta_0 (non infini) où rr n’est pas défini. La branche a pour direction asymptotique la droite faisant un angle θ 0\theta_0 avec l’axe des xx. On calcule alors la limite si elle existe de rsin(θθ 0))r \sin(\theta-\theta_0)), c’est l’ordonnée dans le repère obtenu par rotation d’angle θ 0\theta_0, si la limite est finie et vaut ll on a une asymptote (d’équation Y=lY=l dans le repère tourné).
    Exemple r=1/(1+2cos(θ))r=1/(1+2\cos(\theta)). rr n’est pas défini pour cos(θ)=1/2\cos(\theta)=-1/2, donc θ=±2π/3\theta=\pm 2\pi/3. Pour θ 0=2π/3\theta_0=2\pi/3, on calcule lim θ2π/3rsin(θ2π/3)\lim_{\theta \rightarrow 2\pi/3}r\sin(\theta-2\pi/3)



    La tangente est donc l’image par la rotation de centre OO et d’angle 2π/32\pi/3 de la droite Y=3/3Y=-\sqrt{3}/3
  3. si la fonction n’est pas périodique, il y a lieu d’étudier l’existence de limites de rr en ±\pm \infty, si la limite est nulle on s’approche en spiralant de l’origine, si elle est finie, il y a un cercle asymptote, si elle est infinie une spirale.
  4. comme OM=re r,e r=(cos(θ),sin(θ))\overrightarrow{OM}=r e_r, e_r=(\cos(\theta),\sin(\theta)), la vitesse (si le temps est θ\theta) est donnée par v=re r+re θ\overrightarrow{v}= r' e_r + r e_\theta {e r,e θ}\{ e_r,e_\theta \} est une base orthonormée directe.
    Donc si r0r\neq 0 ou r0r' \neq 0, le point est régulier et l’angle VV de la tangente avec e re_r vérifie tan(V)=rr{±}\tan(V)=\frac{r}{r'} \in \mathbb{R} \cup \{ \pm \infty \} (si r0r \neq 0 et r=0r'=0, la tangente est portée par e θe_\theta). Si r=0r=0, la tangente est portée par e re_r.2
  5. On ne peut avoir un point singulier que pour r=0r=0. On ne fait pas leur étude comme en paramétriques, en effet la tangente est toujours portée par e re_r, si rr change de signe la courbe a la même allure que pour un point régulier, si rr ne change pas de signe on a un rebroussement de première espèce (puisqu’on traverse la tangente lorsque θ\theta augmente)
    Exemple :
  6. Convexité : pour avoir un point d’inflexion, il faut que 1r+(1r)=0r 2+2r 2rr=0\frac1r + \left(\frac1r\right)'{'}=0 \Leftrightarrow r^2+2r'^2-rr'{'}=0 On peut le montrer de différentes manières :
    • En calculant le déterminant de {vitesse,accélération } par rapport à θ\theta dans le repère e r,e θe_r,e_\theta, on a v=re r+re θa=re r+2re θre rv=r'e_r+re_\theta \quad a=r'{'}e_r+2r'e_\theta-re_r det(v,a)=|r rr r 2r|=2r 2rr+r 2\Rightarrow \mbox{det}(v,a)=\left| \begin{array}{cc} r' & r'{'}-r \\ r & 2r'\end{array}\right|=2r'^2-r r'{'}+r^2
    • En calculant la dérivée de l’angle fait avec l’axe Ox θ+arctan(r/r)\theta+\arctan(r/r')
    • avec Xcas en se ramenant en paramétriques
      où on a noté xx l’angle θ\theta pour pouvoir dériver avec ' et XX et YY les deux coordonnées.
  7. de même on calcule la courbure définie en section 11.2 κ=r 2+2r 2rrr 2+r 2 3\kappa = \frac{r^2+2r'^2-rr'{'}}{\sqrt{r^2+r'^2}^3}

10.7  Coniques

Les coniques sont des courbes implicites dont l’équation cartésienne est du second degré  ax 2+cy 2+bxy+dx+ey+f=0ax^2+cy^2+bxy+dx+ey+f=0 Exemples:


On va voir qu’elles sont de trois types : ellipses, hyperbole, parabole3 et on va les paramétriser, à partir de leur équation cartésienne ou à partir de leurs éléments géométriques (le calcul des éléments géométrique à partir de l’équation cartésienne fait intervenir l’étude des formes quadratiques, il ne sera pas abordé dans ce cours). Les coniques sont des courbes importantes en géométrie, ce qui a un intérêt en optique (parabole), mais aussi en cinématique (première loi de Kepler : l’orbite décrite par une planète est une ellipse dont le Soleil occupe un foyer).

10.7.1  Ellipse

Définition 26   L’ellipse EE de foyers F 1F_1 et F 2F_2 de demi-grand axe aa est l’ensemble des points MM du plan tels que MF 1+MF 2=2a MF_1+MF_2=2a

Exemple : ouvrir un niveau de géométrie 2d dans Xcas, choisir le mode ellipse cliquer 2 points (ce sont les foyers) puis un 3ème point (point de l’ellipse), passer en mode pointeur et faire bouger l’un des points, observer la forme de l’ellipse qui en résulte. Ou dans une ligne de commande normale taper la commande ellipse() avec en arguments les 2 points foyers et un point de l’ellipse ou l’équation cartésienne de l’ellipse, par exemple ellipse(-1,1,3+i) trace l’ellipse de foyers (1,0),(1,0)(-1,0), (1,0) et passant par le point (3,1)(3,1).

On note 2c=F 1F 22c=F_1F_2 la distance entre les deux foyers, qui doit être plus petite que 2a2a pour que l’ellipse soit non vide. L’excentricité de l’ellipse est définie par e=c/a<1e=c/a &lt; 1. Si e=0e=0, on obtient un cercle de centre F 1=F 2F_1=F_2 et de rayon aa. Si e0e\neq 0, on va voir qu’il s’agit d’un cercle contracté selon l’axe perpendiculaire à F 1F 2F_1F_2 dans un rapport de 1e 2\sqrt{1-e^2}. On va également calculer l’équation en coordonnées polaires de EE (c’est sous cette forme que l’on montre que la Terre décrit une ellipse dont le Soleil occupe un foyer).

Soit OO le milieu de F 1F_1 et F 2F_2, on se place dans le repère orthonormé dont le premier axe OxOx contient F 1F_1 et F 2F_2 donc les coordonnées de F 1F_1 sont (c,0)(c,0) et celles de F 2F_2 sont (c,0)(-c,0). Soit M(x,y)M(x,y) un point de l’ellipse, on a d’une part : MF 1 2MF 2 2=(xc) 2(x+c) 2=4cx MF_1^2 - MF_2^2 = (x-c)^2-(x+c)^2 = -4cx et d’autre part : MF 1 2MF 2 2=(MF 1+MF 2)(MF 1MF 2)=2a(MF 1MF 2) MF_1^2 - MF_2^2 = (MF_1 + MF_2)(MF_1 - MF_2 ) = 2a (MF_1 - MF_2 ) donc : MF 1MF 2=2cxa MF_1 - MF_2 = \frac{-2cx}{a} en additionnant avec MF 1+MF 2=2aMF_1+MF_2=2a et en appliquant c=eac=ea, on en déduit : MF 1=acxa=aex(16) MF_1 = a - \frac{cx}{a} = a-ex \qquad (16) En prenant le carré, on a : (xea) 2+y 2=(aex) 2 (x-ea)^2 + y^2 = (a-ex)^2 d’où : y 2+x 2(1e 2)=a 2(1e 2) y^2 + x^2 (1-e^2) = a^2(1-e^2) finalement : x 2+y 21e 2=a 2 x^2 + \frac{y^2}{1-e^2} = a^2 qui est bien la contraction selon OyOy de rapport 1e 2\sqrt{1-e^2} du cercle de centre OO et de rayon aa (appelé grand cercle de l’ellipse).

En coordonnées paramétriques, on peut utiliser le paramétrage suivant : (x,y)=(acos(t),bsin(t))(x,y)=(a\cos(t),b\sin(t))

En coordonnées polaires, on note ρ\rho la distance de F 1F_1 à MM, et θ\theta l’angle entre l’axe OxOx et F 1MF_1M. L’abscisse de MM est donc : x=ea+ρcos(θ) x= ea + \rho \cos(\theta) que l’on combine avec (16) pour obtenir : ρ=aex=a(1e 2)eρcos(θ) \rho = a-ex =a(1-e^2) - e \rho \cos(\theta) donc : ρ=a(1e 2)1+ecos(θ) \rho = \frac{a(1-e^2)}{1+e\cos(\theta)}

Remarques :

Exemple : faites varier la valeur de l’excentricité ci-dessous, que voit-on pour E=0.0, E un peu inférieur à 1 (par exemple 0.8) et un peu supérieur à 1 (par exemple 1.3)

10.7.2  Parabole

Si FF est un point et DD une droite ne passant pas par FF, la parabole de foyer FF et directrice DD est l’ensemble des points équidistants de FF et DD. En choisissant un repère tel que la droite DD ait pour équation y=0y=0 et en prenant F(0,1)F(0,1), M(x,y)M(x,y) appartient à la parabole si |y|=d(M,D)=d(M,F)=(y1) 2+x 2|y|=d(M,D)=d(M,F)=\sqrt{(y-1)^2+x^2} donc en passant au carré : y 2=(y1) 2+x 2y=x 2+12y^2=(y-1)^2+x^2 \Rightarrow y=\frac{x^2+1}{2} La parabole est donc (ici) un graphe de fonction, donc un cas particulier de courbe paramétrique. On peut trouver son équation en polaire, en prenant FF comme origine et la directrice verticale (donc l’équation de la droite devient par exemple y=1y=-1) sous la forme ρ=11+sin(θ)\rho=\frac{1}{1+\sin(\theta)} cf. l’exercice sur les coniques données par foyer et directrice, qui traite aussi le cas des hyperboles. On peut aussi faire à titre d’exercice l’étude de la courbe en polaire : ρ=A1+ecos(θ) \rho = \frac{A}{1+e\cos(\theta)} lorsque e=1e=1 et e>1e&gt;1.

Un intérêt majeur de la parabole en optique est que les rayons incidents perpendiculaires à la directrice se réfléchissent en passant par le foyer (on peut même montrer que cela caractérise une parabole). Illustration-démonstration avec Xcas dans un niveau de géométrie taper les commandes

P:=plotfunc(x^2/2+1/2,x=-5..5);
supposons(a=[-1.4,-5,5,0.1]);
D:=line(x=a,color=red);
M:=inter_unique(P,D);
T:=tangent(P,M);
R:=symetrie(T,D,color=red);
trace(R);

puis faire varier aa en cliquant sur les flèches. Pour tester en ligne, commencez par initialiser la trace en exécutant
puis faites varier aa en cliquant sur le bouton + ou - :

=
Not evaled
Noter la valeur
inter_unique(R,line(x=0))
elle est indépendante de aa et est le foyer. On peut montrer qu’une courbe ayant cette propriété est une parabole.

10.7.3  Hyperbole

Une hyperbole de foyers FF et FF' est définie comme l’ensemble des points MM tels que : |MFMF|=2a|MF-MF'|=2a aa est une constante telle que 2a>2c=FF2a&gt;2c=FF', avec une excentricité e=c/a>1e=c/a&gt;1.

En physique, les hyperboles interviennent dans les trajectoires non périodiques en mécanique céleste, mais aussi comme courbes de déphasage constant entre deux sources situées aux deux foyers (les figures d’interférence font apparaitre des hyperboles).

On peut faire un calcul analogue à celui de l’ellipse, MFMF=±2a,MF+MF=MF 2MF 2MFMF=±2exMF-MF'=\pm 2a, \ MF+MF'=\frac{MF^2-MF'^2}{MF-MF'}=-\pm 2ex on en déduit que MF=±(aex)MF=\pm (a-ex) l’équation cartésienne de l’hyperbole dans le repère centré au milieu des foyers, d’axe OxOx l’axe des foyers est donc : x 2a 2y 2a 2(e 21)=1\frac{x^2}{a^2}-\frac{y^2}{a^2(e^2-1)}=1 On peut paramétrer les deux branches de l’hyperbole par x(t)=±acosh(t),y(t)=ae 21sinh(t)x(t)=\pm a\cosh(t), y(t)=a\sqrt{e^2-1} \sinh(t) et en polaires ρ=a(1e 2)1+ecos(θ)\rho=\frac{a(1-e^2)}{1+e\cos(\theta)}

Exercice : faire l’étude de la courbe paramétrée et montrer que l’hyperbole admet deux asymptotes d’équation y=±baxy = \pm \frac{b}{a} x.

10.7.4  Paramétrisation rationnelle

Si on connait un point d’une conique, on peut effectuer un changement d’origine en ce point, l’équation cartésienne devient P(x,y)=ax 2+bxy+cy 2+dx+ey=0P(x,y)=ax^2+bxy+cy^2+dx+ey=0 On suppose que (d,e)(0,0)(d,e)\neq(0,0)5. On cherche alors l’intersection de la conique avec la droite y=txy=tx (de pente tt), on va voir que la droite coupe en général la conique en deux points, l’origine et un autre point dont on calcule les coordonnées en fonction de tt6. Graphiquement, par exemple


=
Not evaled
puis faire varier la valeur de tt ou d’un des coefficients de l’équation. En effet on obtient une équation du second degré en xx, qui se factorise par xx, l’autre solution donne alors xx comme fraction rationnelle en tt, puis y=txy=tx. (ax+btx+ct 2x+d+et)x=0x=0,x=detct 2+bt+a(ax+btx+ct^2x+d+et)x=0 \Rightarrow x=0, x=\frac{-d-et}{ct^2+bt+a} Comme dans le premier exemple sur le cercle trigonométrique, on n’obtient pas toujours toute la conique (s’il existe un autre point d’abscisse x=0x=0).

Si on cherche les points où le dénominateur en tt s’annule, on doit calculer (pour c0c\neq 0 et en supposant que la fraction detct 2+bt+a\frac{-d-et}{ct^2+bt+a} est irréductible7) le discriminant8 de l’équation du second degré Δ=b 24ac\Delta= b^2-4ac Il y a trois cas possibles:

Exercice : paramétrer et faire l’étude des coniques :
x 2+4y 2+2xy=4,x 23y 2+2xy=4x^2+4y^2+2xy=4, x^2-3y^2+2xy=4

Remarque : on a vu que les ellipses, paraboles, hyperboles admettent une équation réduite du second degré. On en déduit facilement que leur équation dans un repère quelconque est toujours du second degré. Réciproquement, pour une équation cartésienne on a calculé une paramétrisation rationnelle, mais pas démontré que c’était forcément une conique. Pour faire cela, l’outil adapté est l’étude des formes quadratiques. On peut toutefois le faire à la main en dimension 2, en faisant une rotation x,yX,Yx,y \rightarrow X,Y pour annuler le coefficient de XYXY. Par exemple


on voit que l’angle de la rotation à effectuer vérifie (ca)sin(2d)+bcos(2d)=0tan(2d)=bac(c-a)\sin(2d)+b\cos(2d)=0 \quad \Rightarrow \quad \tan(2d)=\frac{b}{a-c}


1
on notant X(t)X(t) et Y(t)Y(t) les deux fonctions pour pouvoir utiliser xx et yy dans droite
2
Si r0r'\neq 0, cela se lit sur l’expression de la vitesse qui est non nulle, mais c’est encore vrai si r(θ)=r(θ)=0r(\theta)=r'(\theta)=0 et rr non identiquement nul, pour le voir, on observe que M(θ)M(θ+h)=OM(θ+h)M(\theta)M(\theta+h)=OM(\theta+h) a pour direction e r(θ+h)e_r(\theta+h) qui tend vers e r(θ)e_r(\theta) lorsque hh tend vers 0.
3
En toute rigueur il faut ajouter deux autres cas ; l’ensemble vide et les paires éventuellement confondues de droites
4
en négligeant la masse de la planète devant celle du Soleil
5
Si d=e=0d=e=0, le polynôme est homogène et se factorise, on obtient l’origine ou la réunion de deux droites
6
Cette méthode fonctionne pour les coniques, mais ne fonctionne malheureusement pas pour n’importe quelle équation cartésienne
7
sinon, on aura deux droites parce que le polynôme P(x,y)P(x,y) se factorise en produit de deux facteurs de degré 1 dont dx+eydx+ey
8
On peut aussi voir ce discriminant comme le déterminant de la matrice de la forme quadratique associée

Chapitre 11  Propriétés métriques des courbes.

11.1  Longueur d’arc

La longueur dsds d’un morceau de courbe régulier parcouru pendant un petit intervalle de temps dtdt est égal au premier ordre à la longueur du segment tangent parcouru, ou encore au produit de la norme de la vitesse instantanée par dtdt ds=x 2+y 2dtds=\sqrt{x'^2+y'^2} dt On remarque que cette quantité est invariante par changement de paramétrage, si t=t(τ)t=t(\tau) alors ds = dxdt 2+dydt 2dt = (dxdτ 2+dydτ 2)(dτdt) 2|dtdτ|dτ = dxdτ 2+dydτ 2dτ \begin{matrix} ds &= & \sqrt{\frac{dx}{dt}^2+\frac{dy}{dt}^2} dt \\ &=& \sqrt{ \left(\frac{dx}{d\tau}^2+\frac{dy}{d\tau}^2\right) \left(\frac{d\tau}{dt}\right)^2} |\frac{dt}{d\tau}| d\tau \\ & = & \sqrt{ \frac{dx}{d\tau}^2+\frac{dy}{d\tau}^2} d\tau \end{matrix} On en déduit

Proposition 27   La longueur d’un arc de courbe entre les points de paramètre t 0t_0 et t 1t_1 vaut t 0 t 1x 2+y 2dt\int_{t_0}^{t_1} \sqrt{x'^2+y'^2} dt
En coordonnées polaires :
θ 0 θ 1r 2+r 2dθ\int_{\theta_0}^{\theta_1} \sqrt{r'^2+r^2} d\theta

Remarque : il est très rare que l’on puisse effectuer le calcul explicite d’une primitive de x 2+y 2\sqrt{x'^2+y'^2}, il faut alors se contenter d’une valeur approchée de l’intégrale lorsque t 0t_0 et t 1t_1 ont des valeurs numériques, calculée par des méthodes numériques qui généralisent la méthode des rectangles (cf. le cours de mat249). Ce calcul se fait avec Xcas (ou une calculatrice formelle) en donnant une valeur approchée à l’une des bornes. Il y a quelques exceptions  par exemple la longueur d’un arc de parabole se calcule avec une formule explicite (essayez la commande int(sqrt(1+4t^2),t,t0,t1) ou



La cycloïde1 x(t)=R(tsin(t)),y(t)=R(1cos(t))x(t)=R(t-\sin(t)), y(t)=R(1-\cos(t))
admet aussi une formule simple pour sa longueur

Par contre, la longueur d’un arc d’ellipse ne se calcule pas avec les fonctions usuelles (pour pouvoir le faire, il faut introduire des fonctions spéciales adaptées, appelées intégrales elliptiques) :

11.2  Courbure, repère de Frenet, accélération normale et tangentielle.

Si on choisit ss, la longueur d’arc, comme nouveau paramètre de temps, la longueur parcourue est égale au temps, donc la vitesse instantannée par rapport à ss est de norme 1. On peut aussi le voir en notant M(t)=(x,y)M(t)=(x,y) : dMdt=dMdsdsdtdMdt=dMds|dsdt|v=dMdsv\frac{dM}{dt} =\frac{dM}{ds} \frac{ds}{dt} \ \Rightarrow \ \| \frac{dM}{dt} \| = \| \frac{dM}{ds} \| |\frac{ds}{dt}| \ \Rightarrow \ v = \| \frac{dM}{ds} \| v vv est la norme de la vitesse avec tt comme paramètre, donc dMds\| \frac{dM}{ds} \| est bien égal à 1.

Calculons maintenant l’accélération avec ce nouveau paramètre ss. Comme la vitesse est de norme constante égale à 1, donc de carré 1, en dérivant (dM/ds) 2(dM/ds)^2 par rapport à ss, on vérifie que l’accélération est perpendiculaire à la vitesse pour ce paramétrage par la longueur d’arc ss. L’accélération par rapport à ss est donc portée par la normale à la trajectoire, et sa mesure algébrique est appelé courbure (signée), notée κ\kappa, la valeur absolue de l’inverse de κ\kappa est appelé le rayon de courbure (la direction de l’accélération pointe vers le centre de courbure). d 2Mds 2v,d 2Mds 2=|κ|=1R\frac{d^2M}{ds^2} \perp \vec{v}, \quad \| \frac{d^2M}{ds^2}\| = |\kappa| = \frac{1}{R} Si on se déplace sur un cercle de centre OO et de rayon RR à vitesse 1, alors x(t)+iy(t)=Re it/Rx(t)+iy(t)=Re^{it/R}, la vitesse est donnée par x+iy=ie it/Rx'+iy'=ie^{it/R} donc de norme 1, et l’accélération par x+iy=1Re it/Rx''+iy''=-\frac1R e^{it/R}, sa norme vaut 1/R1/R et sa direction pointe vers le centre du cercle. Donc la courbe est, à l’ordre 2 au point considéré, identique à un cercle de rayon RR.

Revenons au paramètrage initial tt. Dérivons par rapport à tt la vitesse dMdt=vdMds\frac{dM}{dt} = v \frac{dM}{ds}, on obtient : a=d 2Mdt 2 = dvdtdMds+vddt(dMds) = dvdtdMds+vdsdtd 2Mds 2 = dvdtdMds+v 2d 2Mds 2 \begin{matrix} \vec{a} =\frac{d^2M}{dt^2} &=&\frac{dv}{dt} \frac{dM}{ds} + v \frac{d}{dt} \left( \frac{dM}{ds} \right)\\ &=&\frac{dv}{dt} \frac{dM}{ds} + v \frac{ds}{dt} \frac{d^2M}{ds^2}\\ &=& \frac{dv}{dt} \frac{dM}{ds} + v^2 \frac{d^2M}{ds^2} \end{matrix} L’accélération se décompose donc en deux parties 

Autre formule de calcul du rayon de courbure : l’accélération normale a na_n vaut v 2/Rv^2/R donc av=a nv=v 3RR=v 3/av=x 2+y 2 3|xyyx|\| \vec{a} \wedge \vec{v} \|= a_n \|\vec{v}\|=\frac{v^3}{R} \ \Rightarrow \ R =v^3/\|\vec{a} \wedge \vec{v}\| =\frac{\sqrt{x'^2+y'^2}^3}{|x'y'{'}-y'x'{'}|}

Proposition 28   On appelle repère de Frenet en un point MM régulier d’une courbe, le repère orthonormé direct formé par le point de la courbe, le vecteur tangent T\vec{T} et le vecteur normal N\vec{N}. On a alors v=vT=dsdtT,ddsT=κN,ddsN=κT,R=±1κ,\vec{v}=v \vec{T}=\frac{ds}{dt}\vec{T}, \quad \frac{d}{ds}\vec{T}=\kappa \vec{N}, \frac{d}{ds}\vec{N}=-\kappa \vec{T}, \quad R=\pm\frac1\kappa, (l’avant-dernière formule vient du fait que {T,N}\{ \vec{T} ,\vec{N} \} est une base orthonormée directe, le signe ±\pm est déterminé par la convexité de la courbe), et : a=ddtv=dvdtT±v 2RN,R=x 2+y 2 3|xyyx|\vec{a}=\frac{d}{dt}\vec{v}=\frac{dv}{dt} \vec{T} \pm \frac{v^2}{R} \vec{N}, \quad R=\frac{\sqrt{x'^2+y'^2}^3}{|x'y'{'}-y'x'{'}|} On appelle centre de courbure le point Ω=M+1κN\Omega=M+\frac1\kappa \vec{N}. Le cercle de centre Ω\Omega passant par MM (de rayon RR) est appelé cercle osculateur en MM à la courbe.

Exemple : calcul du cercle osculateur en un point d’une parabole (t,t 2)(t,t^2). x=1,y=2t,T=(11+4t 2,2t1+4t 2),y=2R=1+4t 2 32x'=1, y'=2t, \ \vec{T}=(\frac1{\sqrt{1+4t^2}},\frac{2t}{\sqrt{1+4t^2}}), \quad y'{'}=2\quad R=\frac{\sqrt{1+4t^2}^3}{2}

=
Not evaled
Avec Xcas version 1.1.1-18 ou supérieure, on peut taper directement :
C:=cercle_osculateur(G,M)

Remarques :


1
qui tire son nom de la trajectoire d’un point fixé à un cercle roulant sans glisser sur une droite, par exemple l’extrémité d’un rayon sur une roue de vélo.
2
On peut montrer qu’une courbe convexe admet au moins 4 sommets (théorème des quatre sommets), sa développée admet donc au moins 4 points de rebroussements.
3
L’enveloppe d’une famille de droites est une courbe dont l’ensemble des tangentes est la famille de droite
4
Ce type de courbe, appelé spirale d’Euler ou de Fresnel ou clothoïde, est utilisée pour faire des raccordements de chemin de fer (ou de route) entre une portion rectiligne, où l’accélération normale est nulle, et un arc de cercle, où l’accélération normale est constante, en effet si Rs=b 2Rs=b^2 est constant alors l’accélération normale varie linéairement en fonction de l’abscisse curviligne donc du temps à vitesse constante. C’est plus agréable pour les passagers qui passent d’une accélération nulle à une accélération constante progressivement, mais aussi pour créer une pente progressive latérale sur les rails pour compenser la force centrifuge par la gravité et éviter une usure prématurée du rail.

Chapitre 12  Représentation des courbes implicites.

Certaines représentations graphiques nécessitent peu d’outillage mathématique, ainsi les fonctions, les courbes paramétrique et polaires peuvent être représentées en échantillonant une ou plusieurs expressions selon une discrétisation donnée explicitement par l’utilisateur ou par des paramètres par défaut, les points obtenus étant ensuite reliés par des segments. On pourrait bien sur automatiser avec le calcul formel l’étude de la courbe (tableaux de variations, asymptotes, points singuliers, etc.).

Par contre les courbes données par une équation implicite font intervenir des algorithmes et des mathématiques plus intéressantes. En dimension 2, on se donne donc une équation f(x,y)=0f(x,y)=0 et on suppose ff suffisamment régulière. Supposons la courbe non vide, soit (x 0,y 0)(x_0,y_0) un point de cette courbe, si ( xf, yf)(x 0,y 0)0(\partial_x f,\partial_y f)(x_0,y_0) \neq 0 on peut appliquer le théorème des fonctions implicites et la courbe est localement comme une courbe de fonction (en xx ou en yy). On en calcule la tangente et on peut suivre cette tangente un pas de discrétisation puis utiliser une méthode numérique de recherche de solution près de la tangente. Ces points sont appelés points réguliers

Les points où ( xf, yf)=0(\partial_x f,\partial_y f)=0 sont les points singuliers. Génériquement, il n’y en a pas puisque cela donne 3 équations à 2 inconnues, par contre si on s’intéresse à une famille de courbes dépendant d’un paramètre, il en apparait. En ces points, on calcule le développement de Taylor et on recherche le premier terme homogène non nul (homogène après translation bien sur), par exemple P 2=x 2y 2P_2=x^2-y^2 pour x 3+x 2y 2x^3+x^2-y^2 en (0,0)(0,0). Supposons que le polynôme correspondant P mP_m est sans racines multiples, et (quitte à faire une rotation) que le coefficient de y my^m est non nul. P mP_m est un polynôme homogène donc se factorise au moins numériquement (en remplaçant une des variables par 1, on est ramené en dimension 1), et on montre qu’il y a mm arcs de courbe complexes tangents aux droites d’équations ces mm facteurs (et au plus mm arcs de courbe réels si on ne garde que les racines réelles). En effet, on pose y=xYy=xY et on est amené à résoudre f(x,xY)=0=x mP m(1,Y)+x m+1g(x,Y)f(x,xY)=0=x^mP_m(1,Y) + x^{m+1} g(x,Y) gg est un polynôme si ff est un polynôme (plus généralement a la même régularité que ff). Après simplification par x mx^m, on peut appliquer le théorème des fonctions implicites pour déterminer YY en fonction de xx au voisinage de x=0x=0 et de chacune des racines de P m(1,Y)P_m(1,Y) en YY (puisque les racines sont simples). Le point est dit singulier-régulier ou singulier ordinaire. C’est ce que fait la commande implicitplot de Xcas (affichage des informations intermédiaires).

Si le point singulier n’est pas ordinaire, l’équation devient (Yt) k i(Yt i)+xg(x,Y)=0,k>1(Y-t)^k \prod_i (Y-t_i) + xg(x,Y)=0, \quad k&gt;1 et il faut faire intervenir des puissances fractionnaires en xx (dépendant de termes supérieurs du développement de Taylor de ff en (0,0)(0,0)) pour désingulariser les kk arcs de courbes ayant même tangente y=txy=tx en (0,0)(0,0). Par exemple si g(0,t)0g(0,t) \neq 0, on pose X=x 1/k,Y=t+XZX=x^{1/k}, Y=t+XZ qui donne Z k i(tt i+XZ)+g(X k,t+XZ)=0Z^k \prod_i (t-t_i+XZ) + g(X^k,t+XZ)=0 pour X=0X=0 on a alors kk solutions non nulles ZZ qui se prolongent au voisinage de X=0X=0 par le théorème des fonctions implicites.

Certains cas particuliers peuvent être traités en transformant la courbe implicite en courbe paramétrique, c’est le cas des courbes algébriques de degré 2, qui sont des coniques. On peut les paramétrer rationnellement si on en connait un point (en prenant la droite passant par ce point de pente mm et en cherchant l’autre point d’intersection avec la conique (il y en a forcément un et un seul autre, parce que l’équation correspondant aux points d’intersection est de degré 2 et on connait déjà une solution), cette paramétrisation est intéressante pour faire du calcul formel, mais moins pour des représentations graphiques, on lui préferera une paramétrisation trigonométrique pour une conique ou exponentielle pour une hypebole, par exemple (cos(t),sin(t))(\cos(t),\sin(t)) plutot que 1+it1it\frac{1+it}{1-it} pour le cercle unité, paramétrisation obtenue en calculant les éléments propres de la conique (conique_reduite). Pour les courbes algébriques de degré plus grand, on commence par factoriser le polynôme, c’est une factorisation absolue (section 18.7) qui est nécessaire (ou au moins numérique dans [x,y]\mathbb{C}[x,y]). Pour le moment, Xcas fait simplement une factorisation sur le corps des coefficients, et repère les équations de coniques.

Chapitre 13  Formes différentielles et intégrales curvilignes

Il s’agit dans cette section de calculer des intégrales le long de l’arc. Cela intervient par exemple pour calculer le travail d’une force au cours d’un déplacement le long d’une courbe ou la quantité de chaleur/travail pendant un cycle en thermodynamique (le long d’une courbe dans le plan défini par deux coordonnées indépendantes comme par exemple pression-température ou pression-volume). Dans les cas favorables, on a un analogue des primitives, on peut calculer un potentiel et faire la différence de potentiel entre les deux extrémités du chemin pour calculer l’intégrale curviligne. On va d’abord définir ce qu’on peut intégrer le long d’une courbe, à savoir une forme différentielle (aussi appelée 1-forme), puis on donnera quelques résultats sur les formes fermées et exactes (c’est le cas favorable, il correspond aux forces conservatives en mécanique ou aux différentielles totales de fonctions d’état en thermodynamique).

13.1  Forme différentielle

Soit V(x,y)V(x,y) une fonction de deux variables continument dérivable. On s’intéresse aux variations de VV lorsqu’on se déplace dans le plan depuis le point M(x,y)M(x,y) dans une direction donnée à la vitesse ww. On a alors une formule équivalente à celle de la dérivée d’une fonction d’une variable :

Proposition 29   Pour tout vecteur w=(w 1,w 2)w=(w_1,w_2), la dérivée de VV en (x,y)(x,y) dans la direction ww est donnée par : lim h0V((x,y)+wh)V(x,y)h= xVw 1+ yVw 2\lim_{h\rightarrow 0} \frac{V((x,y)+wh)-V(x,y)}{h}= \partial_xVw_1+\partial_yV w_2 On appelle différentielle de VV et on note dVdV l’application qui en un point (x,y)(x,y) associe au vecteur ww la valeur de la dérivée directionnelle de VV en (x,y)(x,y) selon ww dV(w)= xVw 1+ yVw 2dV(w)=\partial_xV w_1+\partial_yV w_2 Cette application est linéaire par rapport à ww.

En effet : V(x+w 1h,y+w 2h) = V(x+w 1h,y)+ yV(x+w 1h,y)w 2h+o(h) = V(x,y)+ xV(x,y)w 1h+ yV(x+w 1h,y)w 2h+o(h) \begin{matrix} V(x+w_1h,y+w_2h)&=&V(x+w_1h,y)+\partial_yV(x+w_1h,y) w_2h + o(h)\\ &=&V(x,y)+\partial_xV(x,y) w_1 h + \partial_yV(x+w_1h,y) w_2h + o(h) \end{matrix} donc V(x+w 1h,y+w 2h)V(x,y)h = xV(x,y)w 1+ yV(x+w 1h,y)w 2+o(1) h0 xV(x,y)w 1+ yV(x,y)w 2 \begin{matrix} \frac{V(x+w_1h,y+w_2h)-V(x,y)}{h} & = & \partial_xV(x,y) w_1 + \partial_yV(x+w_1h,y) w_2 +o(1) \\ &\rightarrow_{h\rightarrow 0} & \partial_xV(x,y) w_1 + \partial_yV(x,y) w_2 \end{matrix}

Exemples :

Remarque : Différentielle et gradient
La différentielle dVdV a les mêmes composantes que le gradient de VV (gradient(V,[x,y]) avec Xcas), mais ce ne sont pas les mêmes objets : en un point donné dVdV est une application linéaire (qui a un sens indépendamment de la définition d’un produit scalaire) alors que V\nabla V est un vecteur (dont la relation avec la dérivée directionnelle dépend du produit scalaire), on a pour tout vecteur ww la relation dV(w)=V.wdV(w)=\nabla V. w On a la même relation entre le travail d’une force (qui est une forme linéaire qui s’applique sur les vecteurs déplacement) et la force correspondante (qui est un vecteur défini à l’aide du produit scalaire). On parle parfois de vecteur covariant pour la différentielle (et vecteur contravariant pour le gradient).

Applications :

On note donc dxdx [resp. dydy] la différentielle de V(x,y)=xV(x,y)=x [resp. V(x,y)=yV(x,y)=y]1 on a : dV= xVdx+ yVdydV=\partial_xV dx + \partial_yV dy

Une forme différentielle ω\omega est la généralisation de la différentielle d’une fonction, elle s’écrit sous la forme ω=M(x,y)dx+N(x,y)dy\omega=M(x,y) dx + N(x,y) dy MM et NN sont des fonctions des deux variables x,yx,y, mais pas forcément les dérivées partielles d’une fonction VV.

La définition géométrique d’une forme différentielle ω\omega est la donnée en tout point du plan (ou d’un domaine ouvert du plan) d’une application linéaire de 2\mathbb{R}^2 à valeur dans \mathbb{R} 2 (ou en tout point de l’espace d’une application linéraire de 3\mathbb{R}^3 à valeurs dans \mathbb{R} pour une courbe de 3\mathbb{R}^3). Si on prend la base canonique de 2\mathbb{R}^2, une application linéaire de 2\mathbb{R}^2 dans \mathbb{R} est caractérisée par sa matrice qui possède une ligne et deux colonnes et a donc deux coefficients MM et NN, une forme différentielle équivaut donc bien à la donnée d’un couple de fonction M(x,y),N(x,y)M(x,y),N(x,y).

13.2  Intégrale curviligne

Ceci permet de donner la :

Définition 30   Pour calculer l’intégrale curviligne d’une forme différentielle le long d’un arc de courbe orienté, on choisit un paramétrage de l’arc continument dérivable par morceaux (on suppose qu’il en existe un), et on calcule l’intégrale usuelle par rapport au paramètre de la forme différentielle appliquée au vecteur tangent entre les deux valeurs du paramètre correspondant à l’origine et extrémité de l’arc de courbe : γω= t 0 t 1ω(dγ(t)dt)dt\int_\gamma \omega = \int_{t_0}^{t_1} \omega\left(\frac{d\gamma(t)}{dt}\right) dt En coordonnées, γω= t 0 t 1(M(x(t),y(t))dxdt+N(x(t),y(t)dydt)dt\int_\gamma \omega =\int_{t_0}^{t_1} (M(x(t),y(t)) \frac{dx}{dt} + N(x(t),y(t) \frac{dy}{dt}) \ dt

Exemple: on prend ω=ydx\omega=ydx et on calcule l’intégrale curviligne le long de l’arc de parabole (t,t 2)(t,t^2) pour t[0,1]t\in[0,1], on obtient 0 1t 2dt=13\int_0^1 t^2 \ dt =\frac{1}{3} En paramétrant par (u 2,u 4)(u^2,u^4) avec u[0,1]u\in[0,1] 0 1u 4(2udu)=[2u 66] 0 1=13\int_0^1 u^4 (2u \ du) = \left[2\frac{u^6}{6}\right]_0^1=\frac{1}{3} on retrouve le même résultat.

La valeur de l’intégrale est bien définie indépendamment du paramétrage, en effet si on change de paramétrage avec une bijection tu(t)t \rightarrow u(t) envoyant [t 0,t 1][t_0,t_1] sur [u 0,u 1][u_0,u_1], on a (en utilisant la linéarité de ω\omega à la deuxième ligne) : u 0 u 1ω(dγ(u)du)du = t 0 t 1ω(dtdudγ(t)dt)dudtdt = t 0 t 1dtduω(dγ(t)dt)dudtdt = t 0 t 1ω(dγ(t)dt)dt \begin{matrix} \int_{u_0}^{u_1} \omega\left(\frac{d\gamma(u)}{du}\right) du &= &\int_{t_0}^{t_1} \omega\left( \frac{dt}{du} \frac{d\gamma(t)}{dt} \right) \frac{du}{dt} dt \\ &=& \int_{t_0}^{t_1} \frac{dt}{du} \omega\left( \frac{d\gamma(t)}{dt} \right) \frac{du}{dt} dt \\ &=& \int_{t_0}^{t_1} \omega\left( \frac{d\gamma(t)}{dt} \right) dt \end{matrix}

Attention à l’orientation, si on change d’orientation, on change le signe, par exemple si on parcourt l’arc de parabole de (1,1)(1,1) vers (0,0)(0,0), en utilisant le paramétrage (1t,(1t) 2),t[0,1](1-t,(1-t)^2), t \in [0,1], on obtient l’opposé : 0 1(1t)(dt)=[(t1) 23] 0 1=13\int_0^1 (1-t) (-dt) = \left[\frac{(t-1)^2}{3}\right]_0^1 = -\frac{1}{3}

Remarque : le travail d’une force F=(F x,F y)\overrightarrow{F}=(F_x,F_y) le long d’un arc de courbe est donné par l’intégrale curviligne de la forme différentielle F xdx+F ydyF_x dx+F_ydy.

13.3  Forme différentielle exacte

Voyons maintenant à quelle condition il existe un analogue du calcul avec une primitive. On a: γdV=V(γ(t 1))V(γ(t 0)),\int_\gamma dV=V(\gamma(t_1))-V(\gamma(t_0)), En effet, si on est sur un morceau d’arc où on peut paramétrer par xx alors γdV= x 0 x 1 xVdx=V(γ(t 1))V(γ(t 0))\int_\gamma dV=\int_{x_0}^{x_1} \partial_x V \ dx = V(\gamma(t_1))-V(\gamma(t_0)) De même si on peut paramétrer par yy. On recolle alors les morceaux d’arcs (on peut paramétrer par xx ou par yy en tout point régulier de γ\gamma).

Pour une force qui dérive d’un potentiel, on a donc montré que le travail de la force se calcule en faisant la différence de potentiel entre les deux extrémités. Cette propriété, analogue au calcul d’intégrale classique en utilisant une primitive n’est pas automatique, car elle implique que l’intégrale curviligne ne dépend pas du chemin choisi pour relier les deux points. Or en thermodynamique, la chaleur est modélisée par une forme différentielle, mais la chaleur échangée dépend du chemin suivi (c’est vrai aussi en mécanique pour le travail de forces non conservatives comme les forces de frottement). En mathématiques, on parle de forme différentielle exacte ou non exacte.

Définition 31   Une forme différentielle ω\omega est exacte s’il existe une fonction VV telle que sur tout arc de courbe γ\gamma d’origine AA et extrémité BB γω=V(B)V(A)\int_\gamma \omega = V(B)-V(A) Attention la convention de signe est opposée à celle utilisée pour le potentiel d’une force en physique.

Si on choisit comme chemin un segment entre deux points AA et BB d’ordonnées identiques yy et d’abscisses xx et x+hx+h, alors x x+hMdx+Ndy=V(x+h,y)V(x,y)\int_x^{x+h} M dx+Ndy = V(x+h,y)-V(x,y) en faisant tendre hh vers 0, on a M=lim h0V(x+h,y)V(x)h= xVM=\lim_{h\rightarrow 0} \frac{V(x+h,y)-V(x)}{h} = \partial_x V De même N= yVN=\partial_y V. Réciproquement, si M= xVM=\partial_x V et N= yVN=\partial_y V alors ω=dV\omega=dV donc γω=V(B)V(A)\int_\gamma \omega=V(B)-V(A)

Proposition 32   Une forme différentielle ω\omega est exacte si et seulement si il existe une fonction VV telle que : ω= xVdx+ yVdy=dV\omega=\partial_x V dx + \partial_y V dy=dV

Si VV est deux fois continument différentiable alors yxV= xyV\partial_{yx} V = \partial_{xy} V. D’où une condition nécessaire pour que ω\omega soit exacte : yM= yxV= xyV= xN\partial_y M = \partial_{yx} V = \partial_{xy} V = \partial_x N

Définition 33   On appelle forme différentielle fermée une forme différentielle ω=Mdx+Ndy\omega=Mdx+Ndy telle que yM= xN\partial_y M=\partial_x N

Une forme exacte est toujours fermée, mais la réciproque n’est pas toujours vraie, une forme fermée n’est pas forcément exacte, cela dépend où elle est définie. Si elle est définie dans un domaine ouvert de 2\mathbb{R}^2 sans trou ( 2\mathbb{R}^2 tout entier, un rectangle, un disque, etc.), on peut montrer qu’une forme fermée est une forme exacte, en appliquant le théorème de Stokes (voir section suivante). Sinon, il existe des contre-exemples, comme sur le cercle unité ω=ydxxdyx 2+y 2\omega=\frac{ydx-xdy}{x^2+y^2} La forme est fermée :
simplify(diff(y/(x^2+y^2),y)-diff(-x/(x^2+y^2),x))
mais elle n’est pas exacte :
x:=cos(t); y:=sin(t);
int((y*diff(x,t)-x*diff(y,t))/(x^2+y^2),t,0,2*pi)

Pour trouver le potentiel VV dont une forme différentielle fermée ω=Mdx+Ndy\omega=M dx+Ndy est la différentielle, on résoud d’abord par exemple M= xV M = \partial_x V en intégrant MM par rapport à xx, yy étant considéré comme un paramètre, on obtient VV à une constante d’intégration près, cette constante d’intégration en xx peut dépendre de yy, c’est donc une fonction C(y)C(y), on remplace dans N= yVN=\partial_y V et on intègre en yy pour trouver la valeur de C(y)C(y) (à une constante près). Cette opération est executée par la commande potential() de Xcas.

Si une forme n’est pas fermée, elle n’est pas exacte, et on ne peut pas calculer une intégrale curviligne par différence de potentiel. Il peut arriver qu’en multipliant la forme par une fonction, on trouve une nouvelle forme qui elle est fermée, on parle alors de facteur intégrant. Par exemple en thermodynamique, la forme chaleur n’est pas fermée, mais en divisant par la température on obtient une forme fermée dont le potentiel est l’entropie. Cela peut aussi servir à trouver des constantes du mouvement pour certaines équations différentielles. En effet, si on se déplace le long d’une courbe de niveau du potentiel d’une forme exacte, alors le long de cette courbe le potentiel est constant, donc la forme appliquée au vecteur tangent est nulle, on dit que la courbe de niveau est une courbe intégrale de la forme différentielle (exacte).

13.4  Intégrale curviligne et intégrales doubles.

Terminons ce chapitre par le lien entre intégrale curviligne sur un lacet (chemin fermé) et intégrale double à l’intérieur du lacet. C’est évidemment surtout intéressant pour les formes non exactes, car si γ\gamma est un lacet et ω\omega une forme exacte, alors γω=0\int_\gamma \omega=0. On a le théorème de Stokes, aussi appelé en dimension 2 formule de Green-Riemann :

Théorème 34   Si UU est un domaine de frontière orientée γ\gamma continument dérivable (γ\gamma est donc un chemin fermé parcouru une fois que l’on oriente dans le sens trigonométrique), et si ω=Mdx+Ndy\omega=Mdx + N dy est une forme différentielle continument dérivable alors : γω= Udω:= U( xN yM)dxdy\int_\gamma \omega = \int\int_U d\omega := \int \int_U (\partial_x N -\partial_y M) \ dx dy

Idée de la preuve : on commence par le cas où UU est un rectangle [a,b]×[α,β][a,b] \times [\alpha,\beta], on peut alors calculer U xNdxdy= α β( a b xNdx)dy= α β(N(b,y)N(a,y))dy\int \int_U \partial_x N \ dx dy = \int_\alpha^\beta (\int_a^b \partial_x N \ dx) dy = \int_\alpha^\beta (N(b,y)-N(a,y)) dy on compare avec les intégrales curvilignes sur les segments verticaux {(a,y),y[α,β]}\{(a,y), y \in [\alpha,\beta]\} et {(b,y),y[β,α]}\{(b,y), y \in [\beta,\alpha]\}. De même pour MM et les segments horizontaux.

Pour le cas d’un domaine d’intégration UU plus général, on approche UU par une réunion disjointe de petits rectangles.

Application : pour calculer l’aire d’un domaine UU de frontière γ\gamma, il suffit de calculer l’une des intégrales curvilignes : γydx= γxdy= γydxxdy2\int_\gamma y dx= \int_\gamma -x dy = \int_\gamma \frac{y dx - x dy}{2} Par exemple, l’aire à l’intérieur de l’ellipse x=acos(t),y=bsin(t)x=a\cos(t), y=b\sin(t) vaut 0 2πbsin(t)d(acos(t))acos(t)d(bsin(t))2=abπ\int_0^{2\pi} \frac{b \sin(t) d(a\cos(t)) - a\cos(t) d(b\sin(t))}{2} = ab\pi

On peut aussi calculer des moments d’inertie ou la position d’un centre de gravité en se ramenant à une intégrale curviligne.
Exemple : Calculer la position du centre d’inertie d’un quart de cercle C={(cos(t),sin(t)),t[0,π/2]}C=\{(\cos(t),\sin(t)), \ t \in [0,\pi/2]\}.
On a donc UU délimité par γ\gamma, réunion de {(x,0),x[0,1]}\{(x,0), \ x \in [0,1]\} , CC et {(0,y),y[1,0]}\{(0,y), y \in [1,0]\}. Pour trouver la position du centre d’inertie en xx (en yy c’est identique), on doit calculer Uxdxdy= γ12x 2dy=0+12 0 π2cos(t) 2cos(t)dt+0=13\int \int_U x \ dx dy = \int_\gamma \frac{1}{2} x^2 \ dy = 0 + \frac{1}{2} \int_0^{\frac{\pi}{2}} \cos(t)^2 \cos(t) \ dt + 0= \frac{1}{3} et on divise par π/4\pi/4 l’aire du quart de cercle, on trouve donc (43π,43π)(\frac{4}{3\pi},\frac{4}{3\pi}), on peut visualiser avec la commande cercle(0,1); G:=point(4/(3*pi),4/(3*pi))


1
Géométriquement, dxdx [resp. dydy] est la forme linéaire constante (i.e. indépendante du point du plan choisi) qui a tout vecteur de 2\mathbb{R}^2 associe sa première [resp. deuxième] coordonnée : dx(v 1,v 2)=v 1,dy(v 1,v 2)=v 2dx(v_1,v_2)=v_1, \quad dy(v_1,v_2)=v_2
2
Pour être complet, on suppose de plus que cette application linéaire qui dépend du point du plan en dépend de manière continue voire différentiable

Chapitre 14  Équations et systèmes différentiels.

14.1  Introduction et représentation graphique.

On s’intéresse à l’équation différentielle y=dydt=f(y,t)(17) y'=\frac{dy}{dt}=f(y,t) \qquad (17) y(t) ny(t) \in \mathbb{R}^n et f: n× nf: \mathbb{R}^n \times \mathbb{R} \rightarrow \mathbb{R}^n. Si n=1n=1, c’est une équation différentielle, si n>1n&gt;1 c’est un système différentiel.

Exemple : en dimension n=1n=1, y=f(y,t)=ayy'=f(y,t)=ay. On sait résoudre cette équation, les solutions sont de la forme y(t)=Ce aty(t)=Ce^{at}. Si on trace la courbe représentative de ces solutions (appelée courbe intégrale), on observe que par tout point du plan, il passe une solution unique. La tangente à une courbe intégrale a pour pente y=ayy'=ay donc pour vecteur directeur le vecteur de composantes (1,ay)(1,ay).

C’est vrai de manière plus générale, le vecteur directeur de la tangente à une courbe intégrale est (1,f(y,t))(1,f(y,t)). Si on représente dans le plan selon un quadrillage régulier les vecteurs (1,f(y,t))(1,f(y,t)), une courbe intégrale doit être tangente à ces vecteurs chaque fois qu’elle passe en un point du quadrillage, (et à peu près tangente si elle passe à proximité). Un tel quadrillage est appelé champ des tangentes (commande plotfield en Xcas, mode également disponible sur certaines calculatrices).

Exercice : tracer le champ des tangentes et quelques solutions pour quelques exemples de fonction f(y,t)f(y,t), avec Xcas créer une figure 2d, puis choisir le mode Champ des tangentes du menu Geo, Graphe, entrer la fonction, puis cliquer en quelques points pour faire tracer la solution passant par ces points.
Par exemple pour y=y+cos(t)y'=-y+\cos(t)

=
Not evaled

L’équation (17) est d’ordre 1, or certaines équations différentielles se présentent naturellement comme des équations d’ordre 2, par exemple l’équation fondementale de la dynamique (accélération=somme des forces divisée par la masse). Mais on peut facilement se ramener à un système différentiel d’ordre 1, en augmentant la dimension de yy. Par exemple, si on pose y=(x(t),v(t))y=(x(t),v(t)), où x(t)x(t) est la position et v(t)v(t) la vitesse, alors l’équation devient un système d’ordre 1 ddt(x(t) v(t))=(v(t) Fm)\frac{d}{dt} \left(\begin{array}{c} x(t) \\ v(t) \end{array} \right) = \left(\begin{array}{c} v(t) \\ \frac{F}{m} \end{array} \right) FF est la force, qui dépend de la position x(t)x(t) (champ électrique, gravitation...) et éventuellement de la vitesse (force de frottement, champ magnétique...). On utilise aussi assez fréquemment y=(q(t),p(t))y=(q(t),p(t))q(t)q(t) est la position, et p(t)p(t) la quantité de mouvement (qui dépend de la vitesse, linéairement en mécanique classique).

Représentation graphique : comme précédemment, on peut se placer dans l’espace des (t,x,v)(t,x,v) (si xx est en dimension 1), mais il est souvent plus difficile d’observer des phénomènes sur un graphe en 3-d que dans le plan, on préfère ne pas représenter explicitement le temps tt, mais uniquement (x,v)(x,v), on est donc naturellement ramené à représenter une solution (une courbe intégrale) par une courbe paramétrique en (x,v)(x,v) (ou en position impulsion). On a encore la notion de champ des tangentes si f(y,t)=f(y)f(y,t)=f(y) ne dépend pas explicitement du temps (on dit que le système est autonome), dans ce cas une courbe intégrale a pour tangente en y 2y\in \mathbb{R}^2 de direction portée par le vecteur f(y) 2f(y) \in \mathbb{R}^2.
Exemple : (x,v)=5(v,x)(x,v)'=5(-v,x). La commande

permet d’en représenter le champ des tangentes et d’avoir une idée approximative de l’allure des solutions (normalize affiche des vecteur tangents de norme 1, si on n’utilise pas cette option, la taille des vecteurs tangents donne la “vitesse” de déplacement). On sait résoudre ce système différentiel, soit en appliquant une technique matricielle présentée ci-dessous, soit en se ramenant à une équation linéaire d’ordre 2 à coefficients constants: x=5v=25xx'{'}=-5v'=-25x donc x(t)=Acos(5t)+Bsin(5t)x(t)=A\cos(5t)+B\sin(5t), A,BA, B étant déterminés par les conditions initiales sur (x,v)(x,v).

Une équation donnée sous la forme (17) est appelée une équation résolue en yy, car on a exprimé la dérivée en fonction de yy et de tt. Il existe (plus fréquemment en mathématiques) d’autres formes d’équations différentielles (non résolues) où le premier travail de résolution peut consister à exprimer yy' en fonction de yy et tt (ce qui n’est pas toujours possible explicitement).

Exemple : en dimension 1, ty=yty'=y, on sait résoudre exactement cette équation à variables séparables, les solutions sont de la forme CtCt.

On observe que contrairement à y=ayy'=ay où passe une solution et une seule par chaque point du plan, ici toutes les solutions valent 0 en t=0t=0 : il passe une infinité de solutions par le point (0,0)(0,0) et il n’en passe aucune par (0,a),a0(0,a), \ a \neq 0. Ce phénomène de non unicité/non existence vient de la mise sous forme résolue y=y/ty'=y/t qui fait apparaitre une singularité de f(y,t)f(y,t) en t=0t=0.

On présente dans la suite de cette section des résultats qualitatifs sur les équations sous forme résolue lorsqu’on ne sait pas les résoudre, ainsi que quelques méthodes explicites pour certaines équations différentielles que l’on sait résoudre.

14.2  Existence et unicité

Il s’agit ici de préciser dans quelles conditions le résultat intuitif suivant est vrai : étant donné une condition initiale y(t 0)=y 0y(t_0)=y_0, il y a une et une seule évolution possible, donc une solution unique y(t)y(t) de l’équation ou du système (17).

On a le :

Théorème 35   (Cauchy-Lipschitz) Si ff est continument dérivable en yy et tt sur n×\mathbb{R}^n \times \mathbb{R} ou sur un domaine ouvert DD inclus dans n×\mathbb{R}^n \times \mathbb{R}, alors l’équation (ou le système) résolu (17) admet pour toute condition initiale y(t 0)=y 0y(t_0)=y_0 une solution unique sur un intervalle maximal ouvert en temps contenant t 0t_0.

Remarques

On admettra ce théorème, voici quelques idées heuristiques de la preuve. L’équation y=f(y,t)y'=f(y,t) peut se réécrire sous la forme intégrale équivalente y(t)=y(t 0)+ t 0 ty(u)du=y(t 0)+ t 0 tf(y(u),u)duy(t)=y(t_0)+\int_{t_0}^t y'(u) \ du = y(t_0)+\int_{t_0}^t f(y(u),u)\ du Si tt est assez proche de t 0t_0, on peut approcher l’intégrale par y(t)=y(t 0)+(tt 0)f(y(t 0),t 0)+petite erreury(t) = y(t_0) + (t-t_0) f(y(t_0),t_0) + \mbox{petite erreur} C’est exactement ce qu’on fait en suivant le champ des tangentes pour approcher une courbe intégrale graphiquement, et si on discrétise le temps avec un pas petit, cette méthode d’approximation est appelée méthode d’Euler. On peut bien sur utiliser d’autres approximations (meilleures) de l’intégrale pour avoir une meilleure approximation de la solution, et les méthodes dites de Runge-Kutta utilisent cette idée. D’un point de vue théorique, la preuve repose plutôt sur ce qu’on appelle le théorème du point fixe, on met la valeur approchée de y(t)y(t) trouvée dans l’équation intégrale pour avoir une nouvelle valeur approchée de y(t)y(t), on recommence, ainsi de suite, et on montre que le processus converge (il s’agit mathématiquement parlant d’une suite récurrente de fonctions, la preuve rigoureuse de la convergence nécessite des outils mathématiques de niveau L3-M1 de maths, c’est l’analogue des suites récurrentes de réels qui permettent de résoudre numériquement des équations comme x=cos(x)x=\cos(x) abordées en mat249).

Conséquence du théorème 35 : deux courbes intégrales de la même équation différentielle ne peuvent se couper dans DD. Donc si on connait une courbe intégrale CC de DD et qu’on prend une condition initiale en-dehors de cette courbe, la courbe intégrale unique passant par cette condition initiale restera du même coté de DD. Si on connait deux courbes intégrales de DD, une courbe intégrale passant par une condition initiale entre les deux courbes restera entre les deux courbes.

Exemple : y=y(1y)y'=y(1-y) (équation logistique).

=
Not evaled
Cette équation autonome admet deux solutions évidentes y=0y=0 et y=1y=1. Donc pour toute condition initiale y(t 0)]0,1[y(t_0) \in ]0,1[, on a y(t)]0,1[y(t) \in ]0,1[1. On en déduit que y=y(1y)>0y'=y(1-y)&gt;0 donc la solution yy est strictement croissante, comme elle est bornée par 0 et 1, elle admet une limite pour t±t \rightarrow \pm \infty, donc yy' tend vers 0 pour t±t \rightarrow \pm \infty, donc yy tend vers 0 ou 1, et comme yy croit, y0y \rightarrow 0 en t=t=-\infty et y1y \rightarrow 1 en t=+t=+\infty. Le comportement à l’infini est donc indépendant de la valeur précise de la condition initiale, pourvu qu’elle soit dans ]0,1[]0,1[.

Exercice : toujours pour y=y(1y)y'=y(1-y) que se passe-t-il pour une condition initiale y(t 0)>1y(t_0)&gt;1 ?

14.3  Quelques méthodes de résolution explicite.

14.3.1  Équations à variables séparables

Si on peut factoriser f(y,t)f(y,t) en termes ne dépendant que de yy ou ne dépendant que de tt, on dit que l’équation est à variable séparable y=f(y,t)=g(t)h(y)y'=f(y,t)=g(t)h(y) Cette équation admet des solutions constantes y=y 0y=y_0 lorsque h(y 0)=0h(y_0)=0. Si h(y(t 0))0h(y(t_0)) \neq 0, par le théorème de Cauchy-Lipschitz h(y(t))h(y(t)) ne s’annule nulle part sur son domaine de définition. On peut donc diviser par h(y)h(y) et intégrer : dyh(y)=g(t)dt\Rightarrow \int \frac{dy}{h(y)} = \int g(t) \ dt On obtient une équation implicite de la forme H(y)=G(t)+CH(y)=G(t)+CGG est une primitive de gg, HH de 1/h1/h et CC une constante arbitraire. Dans les cas favorables, on peut exprimer yy en fonction de tt (par exemple si l’équation est linéaire sans second membre, on a h(y)=yh(y)=y donc HH est le log que l’on sait inverser). Dans les cas moins favorables, on peut exprimer yy et tt en fonction d’un paramètre uu : la courbe intégrale est une courbe paramétrée. Dans les cas défavorables, on reste sous forme implicite.

Exercice : résoudre explicitement l’équation y=y(1y)y'=y(1-y) et retrouver les résultats qualitatifs de la section précédente.

14.3.2  Équations linéaires

On commence par résoudre l’équation sans second membre (aussi appelée homogène) a n(t)y [n]+...+a 1(t)y+a 0(t)y=0a_n(t) y^{[n]} +...+a_1(t)y'+a_0(t)y=0 sur un intervalle ouvert sur lequel a n(t)0a_n(t) \neq 0. L’ensemble des solutions est un espace vectoriel (car l’équation est linéaire) et de dimension l’ordre de l’équation : pour le prouver on peut appliquer le théorème de Cauchy-Lipschitz au système d’ordre 1 équivalent, ce système est tel que yy est un vecteur de n\mathbb{R}^n, on a ensuite un isomorphisme entre les solutions et la condition initiale.

Si l’ordre est 1, on a une équation à variables séparables y/y=a 0(t)/a 1(t) y'/y=-a_0(t)/a_1(t) et la solution est une exponentielle : y(t)=Ce a 0a 1dty(t)=Ce^{-\int \frac{a_0}{a_1} \ dt} Exemple : yty=0y'-ty=0, on a y(t)=Ce tdt=Ce t 2/2y(t)=Ce^{\int t \ dt}=Ce^{t^2/2}

Si l’ordre est plus grand que 1, on n’a en général pas de solution explicitable avec les fonctions usuelles et des primitives2, pour certaines équations importantes en physique, des fonctions spéciales ont été créées pour exprimer les solutions, par exemple les fonctions de Bessel. Il existe quelques cas particuliers où le calcul explicite est possible, dont le cas où les coefficients sont constants (section suivante). Si on connait une solution ww d’une équation linéaire, alors en posant y=wzy=wz, la fonction zz' vérifie une équation linéaire d’ordre un de moins, ainsi si on connait une solution d’une équation linéaire d’ordre 2, on peut la résoudre complètement.

Le calcul d’une solution particulière d’une équation linéaire avec second membre se fait en faisant varier les constantes d’intégration : on prend la forme générale de la solution de l’équation homogène, on remplace les constantes d’intégration par des fonctions inconnues, on remplace dans l’équation avec second membre et on résoud en les fonctions inconnues, la méthode détaillée dans le cas des coefficients constants s’applique à l’identique. La solution générale est la somme d’une solution particulière et de la solution générale de l’équation sans second membre.

Exemple : yty=ty'-ty=-t, solution générale de l’équation homogène y(t)=Ce t 2/2y(t)=Ce^{t^2/2}, variation de la constante on remplace y(t)=C(t)e t 2/2y(t)=C(t)e^{t^2/2} dans yty=ty'-ty=-t et on obtient Ce t 2/2=tC' e^{t^2/2}=-t, donc C=te t 2/2C'=-te^{-t^2/2} et C=e t 2/2+KC=e^{-t^2/2}+K, d’où la solution générale y(t)=(e t 2/2+K)e t 2/2=1+Ke t 2/2y(t)=(e^{-t^2/2}+K)e^{t^2/2}=1+Ke^{t^2/2}.

14.3.3  Équations linéaires à coefficients constants

On peut chercher des solutions de l’équation sans second membre sous la forme d’exponentielles e rte^{rt}, rr doit alors vérifier une équation polynomiale P(r)=0P(r)=0 appelée équation caractéristique, de degré le degré de l’équation différentielle. Plus précisément, si on remplace e rte^{rt} dans a ny [n]+...+a 1y+a 0y=0a_n y^{[n]}+...+a_1 y'+a_0y=0 alors a nr n+...+a 1r+a 0=P(r)=0a_n r^n +...+a_1r +a_0=P(r)=0

Théorème 36   Si PP n’a que des racines simples r 1,...,r nr_1,...,r_n \in \mathbb{C}, l’ensemble des solutions est alors l’espace vectoriel engendré par {e r 1t,...,e r nt}\{ e^{r_1t}, ... , e^{r_nt} \}

En effet, on a le bon nombre d’éléments (nn), il suffit donc de montrer qu’il s’agit d’une famille libre.

Pour cela, il suffit de faire tendre tt vers l’infini si toutes les parties réelles des r jr_j sont distinctes. Si certaines sont égales, on peut faire tendre tt vers l’infini sur une demi-droite du plan complexe, on pose t=Te iα,T +t=Te^{i\alpha}, T \in \mathbb{R}^+α\alpha est un petit angle choisi pour que les parties réelles de r je iαr_je^{i\alpha} soient toutes distinctes (ceci revient à choisir α\alpha tel que les projections des racines r jr_j sur l’axe OxOx tourné de α-\alpha soient toutes distinctes, on brise ainsi une symétrie sur les racines de PP).

On peut aussi faire une récurrence. Au rang n=1n=1 c’est évident. Si n>1n&gt;1 et si (λ 1,...,λ n)(\lambda_1,...,\lambda_n) vérifient : j=1 nλ je r jt=0\sum_{j=1}^n \lambda_j e^{r_jt} = 0 on factorise e r nte^{r_n t} et on dérive, on a j=1 n1λ j(r jr n)e (r jr n)t=0\sum_{j=1}^{n-1} \lambda_j (r_j-r_n) e^{(r_j-r_n)t} =0 on est ramené à l’identité précédente au rang n1n-1 donc par récurrence, λ j(r jr n)=0\lambda_j (r_j-r_n)=0 et λ j=0\lambda_j=0 si jnj \neq n, puis λ n=0\lambda_n=0 avec la relation du départ.

Dans le cas général, on a :

Théorème 37   Si PP a des racines multiples, il faut modifier la base de l’énoncé précédent : pour chaque racine r kr_k de multiplicité m>1m&gt;1, on remplace e r kte^{r_kt} répété mm fois par {e r kt,te r kt,...,t m1e r kt}\{ e^{r_kt}, te^{r_kt}, ..., t^{m-1} e^{r_kt} \}

En effet, on a : (ty) [j]=ty [j]+jy [j1](ty)^{[j]} = t y^{[j]} + j y^{[j-1]} Supposons que yy est solution de l’équation, alors tyty est encore solution si : na ny [n1]+(n1)a n1y [n2]+...+a 1y=0na_n y^{[n-1]} + (n-1)a_{n-1} y^{[n-2]}+...+a_1y=0 et on reconnait une équation différentielle linéaire à coefficients constants dont l’équation caractéristique est P=0P'=0, on a donc montré la :

Proposition 38   Si yy est solution des deux équations différentielles à coefficients constants de polynomes caractéristiques respectifs PP et PP' alors tyty est solution de l’équation différentielle à coefficients constants de polynome caractéristique PP.

Pour prouver le théorème, il faut encore se convaincre que la famille est une base, ce qui revient à prouver l’indépendance linéaire de ces fonctions. Cela se fait comme précédemment. Si toutes les parties réelles des racines sont distinctes, en faisant tendre tt vers l’infini on se ramène à un équivalent polynômial nul. Si certaines parties réelles sont égales, on peut à nouveau faire tendre tt vers l’infini dans le plan complexe en tournant d’un petit angle. On peut aussi adapter la récurrence, sur le nombre de racines. S’il y en a une, on a un polynôme. Sinon, on factorise e r nte^{r_nt}, et on dérive la multiplicité de r nr_n pour appliquer le résultat au cran n1n-1, on a alors un système triangulaire sur le groupe d’inconnues de la même exponentielle. On peut aussi se ramener à des polynômes en posant comme ci-dessus t=Te iαt=Te^{i\alpha} et en faisant tendre TT vers l’infini.

Si PP est à coefficients réels et admet une racine non réelle zz alors z¯\overline{z} est encore racine, on peut réécrire la base d’exponentielles complexes en une base de fonctions réelles en utilisant des fonctions trigonométriques. En effet les combinaisons linéaires réelles de e zte^{zt} et e z¯te^{\overline{z}t} ont des coefficients conjugués : (α+iβ)e (a+ib)t+(αiβ)e (aib)t=e at(2αcos(bt)2βsin(bt))(\alpha + i \beta) e^{(a+ib)t} + (\alpha - i \beta) e^{(a-ib)t} = e^{at} ( 2 \alpha \cos(bt) - 2 \beta \sin(bt) )

Exemples :

On peut trouver une solution particulière de l’équation avec second membre s(t)s(t) par la méthode de variation des constantes, qui s’applique d’ailleurs également lorsque l’équation est linéaire à coefficients variables. Si la solution générale est engendrée par y 1,...,y ny_1,...,y_n, on pose : y= i=1 nλ iy iy=\sum_{i=1}^n \lambda_i y_i On pose i=1 nλ iy i=0y= i=1 nλ iy i\sum_{i=1}^n \lambda_i' y_i=0 \ \Rightarrow \ y'=\sum_{i=1}^n \lambda_i y_i' et ainsi de suite jusqu’à la dérivée d’ordre nn de yy, ces n1n-1 équations et l’équation différentielle donnent alors un système linéaire n,nn,n en les λ i\lambda_i'. { i=1 nλ iy i = 0 i=1 nλ iy i = 0 ... i=1 nλ iy i [n2] = 0 i=1 nλ iy i [n1] = s(t)a n \left\{ \begin{array}{ccc} \sum_{i=1}^n \lambda_i' y_i &=&0\\ \sum_{i=1}^n \lambda_i' y_i' &=&0\\ ...\\ \sum_{i=1}^n \lambda_i' y_i^{[n-2]} &=&0\\ \sum_{i=1}^n \lambda_i' y_i^{[n-1]} &=& \frac{s(t)}{a_n}\\ \end{array} \right. Ce système a pour déterminant dd la matrice de ii-ième ligne la dérivée d’ordre i1i-1 de y 1,...,y ny_1,...,y_n. Si on calcule la dérivée de dd, il faut faire porter la dérivée sur la dernière ligne pour avoir une contribution non nulle, on peut alors utiliser l’équation différentielle pour montrer que dd vérifie une équation linéaire d’ordre 1 a nd=(1) na n1da_nd'=(-1)^na_{n-1}d donc il est soit identiquement nul soit jamais nul. On montre alors par récurrence que l’indépendance linéaire de y 1,...,y ny_1,...,y_n entraine alors que le déterminant est non nul. En effet s’il est nul au rang nn, alors l’une des colonnes est combinaison linéaire des autres, par exemple la dernière, on a donc : y n= j=1 n1c jy j,y n= j=1 n1c jy j,...y n [k]= j=1 n1c jy j [k],...y_n= \sum_{j=1}^{n-1} c_j y_j, \quad y_n'=\sum_{j=1}^{n-1} c_j y_j', ... \quad y_n^{[k]}=\sum_{j=1}^{n-1} c_j y_j^{[k]}, ... en dérivant on en déduit que j=1 n1c jy j=0,..., j=1 n1c jy j [k1]=0,...\sum_{j=1}^{n-1} c_j' y_j=0, ..., \sum_{j=1}^{n-1} c_j' y_j^{[k-1]}=0,... on est ramené à un système linéaire homogène en n1n-1 inconnues (les c jc_j') à qui on applique l’hypothèse de récurrence, on en déduit que les c jc_j' sont nuls donc les c jc_j sont des constantes ce qui contredit l’indépendance linéaire des y jy_j.

Pour des second membre combinaison linéaire de termes b(t)e rtb(t)e^{rt} avec bb polynôme, il est plus simple de chercher directement une solution particulière combinaison linéaire de a(t)e rta(t)e^{rt}aa est de même degré que bb si rr n’est pas racine de PP, ou de degré le degré de bb plus la multiplicité de rr comme racine de PP. On peut aussi utiliser la transformation de Laplace et son inverse.

14.3.4  Systèmes différentiels linéaires à coefficients constants d’ordre 1.

Il s’agit donc de systèmes de la forme y=Ay+b(t)y'=Ay+b(t) y(t) ny(t)\in \mathbb{R}^n, AA est une matrice carrée de taille nn indépendante du temps, et b(t) nb(t) \in \mathbb{R}^n.

On commence par résoudre l’équation homogène y=Ayy'=Ay. Si la matrice AA est diagonalisable, alors A=PDP 1A=PDP^{-1}DD=diag(d 1,...,d n)(d_1,...,d_n) est diagonale et PP inversible, le système devient : y=PDP 1yy'=PDP^{-1} y donc en posant y=Pzy=Pz, on a (puisque PP est indépendant du temps) : z=Dzz k=d kz k,k=1..nz'=Dz \quad \Leftrightarrow \quad z_k'=d_kz_k, \ k=1..n donc z k=c ke d ktz_k=c_k e^{d_kt}, puis la solution générale y(t)=P(c 1e d 1t ... c ne d nt)y(t)=P\left( \begin{array}{c} c_1 e^{d_1t} \\ ... \\c_n e^{d_nt} \end{array} \right) Le calcul avec Xcas se fait en utilisant la commande desolve, par exemple
desolve(y'=[[1,2],[2,1]]*y)


ou avec conditions initiales
desolve(y'=[[1,2],[2,1]]*y and y(0)=[1,2])

On peut aussi utiliser la fonction exp avec comme argument AtAt (on généralise ainsi la notation e ate^{at} de la dimension 1), multiplié par la condition initiale :
exp([[1,2],[2,1]]*t)*[1,2]
Les calculs intermédiaires pour diagonaliser la matrice AA sont exécutés par les commandes eigenvals, eigenvects, jordan.

On peut ensuite calculer une solution particulière par la méthode de variation des constantes, ou encore en résolvant z=Dz+P 1b(t)z'=Dz+P^{-1}b(t) composante par composante (ou par transformation de Laplace). Avec Xcas, il suffit d’ajouter le second membre dans la commande desolve
desolve(y'=[[1,2],[2,1]]*y+[x,x+1])

Si la matrice AA n’est pas diagonalisable (ce qui entraine qu’elle a au moins une valeur propre de multiplicité plus grande que 1), on peut alors la trigonaliser, on se ramene à résoudre un système triangulaire, ce qui revient à résoudre pour chaque composante une équation différentielle linéaire d’ordre 1 avec un éventuel second membre.

14.3.5  Systèmes et équations

Il y a un lien entre systèmes différentiels linéaires et équations linéaires. En effet une équation d’ordre nn peut s’écrire comme un système différentiel d’ordre 1, on peut calculer le polynôme caractéristique de la matrice on retrouve alors l’équation caractéristique. Inversement, toute matrice AA admet un polynôme PP annulateur tel que P(A)=0P(A)=03, le polynôme caractéristique de AA est un polynôme annulateur (théorème de Cayley-Hamilton). Les composantes des solutions du système différentiel sont des solutions de l’équation différentielle dont l’équation caractéristique est P(x)=0P(x)=0. En effet : 0=P(A)y= k=0 np kA ky= k=0 np ky [k]0=P(A)y=\sum_{k=0}^n p_k A^k y = \sum_{k=0}^n p_k y^{[k]}

Exemple en dimension 2. Soit A=(a b c d)A=\left(\begin{array}{cc} a & b \\ c & d \end{array}\right) Si b=0b=0 alors y 1=ay 1y_1'=ay_1 on en déduit y 1y_1 puis y 2y_2. Supposons donc b0b\neq 0, alors P(x)=x 2x(a+d)+adbcP(x)=x^{2} - x (a+d) +a d-b c (on peut vérifier que P(A)=0P(A)=0) donc si y=Ayy'=Ay alors y 1(a+d)y 1+adbc=0y_1'{'}-(a+d)y_1'+ad-bc=0 et y 2y_2 s’en déduit avec y 1ay 1=by 2y_1'-ay_1=by_2 (on peut du reste partir de cette relation pour établir l’équation d’ordre 2 vérifiée par y 1y_1). On peut ainsi résoudre tous les systèmes de dimension 2, même si la matrice AA n’est pas diagonalisable.

Exercice : Résoudre de cette manière le système
desolve(y'=[[1,2],[2,1]]*y and y(0)=[1,2])

Autre exemple : système d’ordre 2 se ramenant à une équation d’ordre 2 à coefficients complexes. Les équations pour une particule chargée dans un champ magnétique constant porté par l’axe OzOz et un champ électrique constant perpendiculaire (donc dans le plan OxyOxy), avec vitesse initiale nulle ou contenue dans le plan OxyOxy donnent une trajectoire plane {mx¨ = qBy˙+qE x my¨ = qBx˙+qE y\left\{ \begin{array}{ccc} m\ddot{x}&=&qB\dot{y} +qE_x\\ m\ddot{y}&=& -qB\dot{x} +qE_y \end{array} \right. Si on pose z=x+iyz=x+iy alors zz vérifie l’équation z¨=iqBmz˙+qEm,E=E x+iE y\ddot{z}=-i\frac{qB}{m} \dot{z}+\frac{qE}{m}, \quad E=E_x+iE_y Le polynôme caractéristique de cette équation r 2=iqBmrr^2=-i\frac{qB}{m}r possède deux racines distinctes 0 et iqBm-i\frac{qB}{m} (mais pas le conjugué, l’équation n’est pas à coefficients réels!) donc la solution homogène est z=α+βe iqBmt,α,βz=\alpha + \beta e^{-i\frac{qB}{m}t}, \quad \alpha,\beta \in \mathbb{C} Le champ électrique joue ici le rôle de second membre, comme 0 est solution de l’équation caractéristique, la forme de la solution particulière est z=Atz=At, en remplaçant on obtient A=iE/B A=iE/B donc z=α+βe iqBmt+iEBtz=\alpha + \beta e^{-i\frac{qB}{m}t}+i\frac{E}{B}t La forme générale des solutions est un cercle si E=0E=0 parcouru une infinité de fois, qui se déforme sous l’effet du champ électrique en une sorte de spirale de ressort, pour une vitesse initialle nulle, on obtient une cycloïde.

14.3.6  Allure des courbes en dimension 2.

Si on se place dans le repère propre (en prenant les vecteurs propres comme vecteurs de base), et si AA a deux valeurs propres distinctes (AA est alors diagonalisable), alors chaque coordonnée suit une exponentielle, dans ce repère y(t)=(αe at,βe bt)y(t)=(\alpha e^{at}, \beta e^{bt}) avec aba \neq b. Si aa et bb sont réels, l’une des exponentielles domine l’autre lorsque t+t\rightarrow +\infty et c’est l’inverse lorsque tt\rightarrow -\infty, la courbe est donc asymptote aux directions propres. Si aa et bb sont complexes conjugués de partie réelle non nulle, on a une spirale qui tend vers 0 d’un coté et vers l’infini de l’autre (selon le signe de la partie réelle). Si AA est symétrique, alors aa et bb sont réels, ce cas ne peut pas se produire, de plus on peut choisir un repère propre orthonormé, les courbes ressemblent à des hyperboles. Ce sont des hyperboles si trace(A)=0(A)=0 (la somme des valeurs propres vaut 0 donc le produit des coordonnées dans le repère propre vaut une constante), ces hyperboles sont équilatères si AA est symétrique. Quelques exemples :




Remarque :pour un système différentiel à coefficients non constants, il n’existe pas de méthode générale de résolution. Il arrive que dans certains cas particuliers, on puisse résoudre le système, par exemple si on trouve une matrice de passage indépendante du temps ramenant le système à un système diagonal ou triangulaire : un exemple avec A=(1+t t t 1+t)A=\left(\begin{array}{cc} 1+t & -t \\ -t & 1+t\end{array}\right) Ou si A(t)dt\int A(t) \ dt commute avec AA, on peut prendre exp(A(t))\exp(\int A(t)) comme solution.

14.3.7  Systèmes d’ordre plus grand que 1

On se ramène à un système d’ordre 1. Par exemple deux ressorts couplés {x 1¨ = 2ω 2x 1+ω 2x 2 x 2¨ = ω 2x 12ω 2x 2\left\{ \begin{array}{ccc} \ddot{x_1}&=&-2\omega^2 x_1+\omega^2 x_2\\ \ddot{x_2}&=&\omega^2 x_1-2\omega^2x_2 \end{array} \right. on pose Y=(x 1,x 2,x 1˙,x 2˙)Y=(x_1,x_2,\dot{x_1},\dot{x_2}), on a Y˙=(x 1˙ x 2˙ x 1¨ x 2¨)=(0 0 1 0 0 0 0 1 2ω 2 ω 2 0 0 ω 2 2ω 2 0 0)(x 1 x 2 x 1˙ x 2˙)\dot{Y}=\left( \begin{array}{c}\dot{x_1}\\\dot{x_2}\\\ddot{x_1}\\\ddot{x_2}\end{array} \right) =\left(\begin{array}{cccc} 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ -2\cdot \omega^{2} & \omega^{2} & 0 & 0 \\ \omega^{2} & -2\cdot \omega^{2} & 0 & 0 \end{array}\right) \left( \begin{array}{c}x_1\\x_2\\\dot{x_1}\\\dot{x_2}\end{array} \right) On délègue le calcul des valeurs propres à la machine :

Les valeurs propres sont ±iω,±i3ω\pm i \omega, \pm i\sqrt{3} \omega imaginaires pures, donc les solutions du système sont périodiques de fréquence ω\omega et 3ω\sqrt{3}\omega, qui sont des fréquences intrinsèques du système. Si on ajoute un second membre périodique de période Ω\Omega, lorsque Ωω\Omega \neq \omega et Ω3ω\Omega \neq \sqrt{3}\omega, il y a une solution particulière de fréquence Ω\Omega et les solutions sont bornées (3 fréquences), par contre si Ω=ω\Omega=\omega ou Ω=3ω\Omega=\sqrt{3}\omega, il y a résonance.

14.3.8  Intégrales premières.

Lorsqu’on ne sait pas résoudre explicitement une équation ou un système différentiel, il peut arriver qu’on connaisse une ou des constantes du mouvement en cinématique, appelées aussi intégrales premières.

C’est le cas par exemple de l’énergie totale (mécanique plus cinétique) pour des forces conservatives. En dimension un, la connaissance de l’intégrale première énergie totale permet de ramener l’équation fondamentale de la dynamique d’ordre 2 à une équation du premier ordre à variables séparables : 12mx 2+V(x)=E\frac{1}{2} m x'^2+ V(x) = E soit dxdt=2(EV(x))m\frac{dx}{dt} = \sqrt{\frac{2(E-V(x))}{m}} donc dx2(EV(x))m=dt\frac{dx}{\sqrt{\frac{2(E-V(x))}{m}}}=dt on peut ainsi calculer le temps en fonction de xx et tracer le graphe de tt en fonction de xx puis le graphe de xx en fonction de tt par symétrie par rapport à la première bissectrice.

Exemple : calcul de la période d’un pendule, on repère une masse reliée à un fil de longueur ll à un point fixe par l’angle θ\theta formé avec la verticale (orienté vers le bas), de sorte que l’énergie potentielle de la masse est mglcos(θ)-mgl\cos(\theta) on a donc 12ml 2θ˙ 2mglcos(θ)=E\frac{1}{2} m l^2\dot{\theta}^2-mgl\cos(\theta)=E puis θ˙=2(E+mglcos(θ))ml 2\dot{\theta}=\sqrt{\frac{2(E+mgl\cos(\theta))}{ml^2}} Si on lache sans vitesse initiale la masse avec un angle θ 0]π,π[\theta_0 \in ]-\pi,\pi[ alors E=mglcos(θ 0)E=-mgl\cos(\theta_0) donc θ˙=2gl(cos(θ)cos(θ 0))\dot{\theta}=\sqrt{2\frac{g}{l}(\cos(\theta)-\cos(\theta_0))} puis dθ2gl(cos(θ)cos(θ 0))=dt\frac{d\theta}{\sqrt{2\frac{g}{l}(\cos(\theta)-\cos(\theta_0))}} = dt Pour des raisons de symétrie, la période du pendule est donc T=4 t/θ(t)=0 t/θ(t)=θ 0dt=4 0 θ 0dθ2gl(cos(θ)cos(θ 0))T=4\int_{t/\theta(t)=0}^{t/\theta(t)=\theta_0} dt =4 \int_0^{\theta_0} \frac{d\theta}{\sqrt{2\frac{g}{l}(\cos(\theta)-\cos(\theta_0))}} L’expression à intégrer n’admet pas de primitive avec les fonctions usuelles, on l’appelle intégrale elliptique (il y a un lien avec la longueur d’un arc d’ellipse). On peut calculer une valeur numérique approchée de cette intégrale si θ 0\theta_0 est donné.

Pour de petites valeurs de θ 0\theta_0, on peut approcher cos(θ)\cos(\theta) par 1θ 2/21-\theta^2/2 et calculer l’intégrale

qui ne dépend pas de θ 0\theta_0. On observe que cette approximation est encore assez bonne pour θ 0<π/4\theta_0&lt;\pi/4 (erreur<4%).

En dimension plus grande, l’existence d’intégrales premières peut permettre de connaitre la forme de la courbe intégrale et même parfois de résoudre complètement l’équation (cas du problème à deux corps ci-dessous).

Autre exemple, la découverte d’un facteur intégrant pour la forme différentielle Mdx+NdyMdx+Ndy donne une intégrale première pour l’équation dy/dx=M/Ndy/dx=M/N, en effet ω=ϕ(Mdx+Ndy)=dV(x,y)\omega=\phi(Mdx+Ndy)=dV(x,y) est nul sur une courbe intégrale, donc V(x,y)V(x,y) est constant, les courbes intégrales sont donc les courbes de niveau de V(x,y)V(x,y). Une équation à variables séparables est un cas particulier, avec MM ne dépendant que de xx et NN de yy.

Pour un système autonome, EE est une intégrale première si grad(E).f=0(E).f=0, en effet ddtE(y(t))= j=1 nEy jf j\frac{d}{dt} E(y(t))= \sum_{j=1}^n \frac{\partial E}{\partial y_j} f_j

Problème à deux corps  Cas d’un point de 3\mathbb{R}^3 soumis à une force centrale comme la gravité ou la force coulombienne : d 2rdt 2=μrr 3\frac{d^2 {\mathbf r}}{dt^2}=-\mu \frac{{\mathbf r}}{r^3} on montre

Si on prend l’axe des xx porté par E{\mathbf E}, en faisant le produit scalaire avec r{\mathbf r} : rEcos(θ)=r.E=1μ(drdtL).rrrE \cos(\theta)={\mathbf r}.{\mathbf E} = \frac{1}{\mu} (\frac{d{\mathbf r}}{dt} \wedge {\mathbf L}) . {\mathbf r} - r on obtient en appliquant les propriétés du produit mixte et la définition de L{\mathbf L} : r=L 2μ(1+Ecos(θ)) r = \frac{L^2}{\mu(1+E \cos(\theta))} la courbe intégrale est donc une conique d’excentricité EE ayant l’origine pour foyer et parcourue selon la loi des aires (l’aire balayée par le segment origine-point mobile est proportionnelle au temps).

14.3.9  Le modèle proie-prédateur

C’est un système autonome en dimension 2 pour lequel on sait calculer une intégrale première. Il se présente sous la forme x˙ = x(aby) y˙ = y(cdx) \begin{matrix} \dot{x}&=&x(a-by)\\ \dot{y}&=&-y(c-dx) \end{matrix} avec a,b,c,da,b,c,d des constantes positives, xx l’effectif des proies, yy celui des prédateurs, aa correspond à la reproduction naturelle des proies, bb à la mortalité par rencontre d’un prédateur, cc à la mortalité naturelle des prédateurs et dd à la natalité dépendant du nombre de proies. On peut déterminer les points d’équilibre et leur stabilité comme pour n’importe quel système autonome (exercice), on trouve (0,0)(0,0) qui est instable et (c/d,a/b)(c/d,a/b), les valeurs propres du linéarisé sont 2 imaginaires purs conjugués, donc on ne peut pas conclure sur la stabilité à ce stade.

On peut déterminer une intégrale première en faisant apparaitre des dérivées logarthmiques ddt(ln(x))=aby,ddt(ln(y))=c+dx\frac{d}{dt}(\ln(x))=a-by, \quad \frac{d}{dt}(\ln(y))=-c+dx donc en posant X=ln(x),Y=ln(y)X=\ln(x), Y=\ln(y) on a X˙=abe Y,Y˙=c+de X\dot{X}=a-be^Y, \quad \dot{Y}=-c+de^X d’où : X˙(de Xc)+Y˙(be Ya)=0\dot{X} (de^X-c) + \dot{Y}(be^Y-a)=0 donc : f(X,Y)=de XcX+be YaYf(X,Y)=de^X-cX+be^Y-aY est une intégrale première du mouvement, qui se passe donc sur les courbes de niveau de ff en (X,Y)(X,Y) ou de dxcln(x)+byaln(y)dx-c\ln(x)+by-a\ln(y) en (x,y)(x,y). On observe que ces courbes de niveau sont fermées, impliquant un mouvement périodique, si on exprime yy en fonction de xx par le théorème des fonctions implicites donc sur toute la courbe à l’exception des deux points x ±x_\pm où la tangente est verticale dxcln(x)+byaln(y)=Ky=y ±(x)dx-c\ln(x)+by-a\ln(y)=K \Rightarrow y=y_{\pm}(x) alors on peut calculer la période du mouvement en appliquant : dxx(aby(x))=dt\frac{dx}{x(a-by(x))}=dt donc T=dt= x x +dxx(aby +(x))+ x + x dxx(aby (x))T=\int dt = \int_{x_-}^{x_+} \frac{dx}{x(a-by_+(x))} + \int_{x_+}^{x_-} \frac{dx}{x(a-by_-(x))}

14.3.10  Quelques autres méthodes

On peut encore citer : changement de fonction, changement de variables, équation homogène, équations de Bernoulli, de Clairault, de Ricatti, développements en séries entières..., certaines de ces méthodes sont implémentées par les logiciels de calcul formel.

14.4  Comportement asymptotique des solutions

Les équations de la physique sont souvent des équations autonomes sans second membre (pas de dépendance explicite en temps) ou avec un second membre qui est le seul terme de l’équation dépendant du temps (il s’agit d’un forçage extérieur). Dans le premier cas, les solutions doivent rester bornées (par exemple en énergie), donc ne peuvent pas tendre vers l’infini. Dans le second cas, une question naturelle est alors la suivante : le système atteint-il un équilibre, peut-on décomposer la solution en deux parties : un régime permanent et un régime transitoire ?

On a déjà fait une étude de comportement asymptotique pour l’équation y=y(1y)y'=y(1-y), la solution y=0y=0 se comporte comme un point déquilibre instable, si on en dévie même légèrement, on s’en éloigne définitivement, alors que y=1y=1 se comporte comme un point déquilibre stable. Nous allons généraliser cette étude, pour les équations linéaires à coefficients constants (avec ou sans second membre, perturbation dépendant du temps), les équations autonomes sans second membre, et dans le cas de systèmes différentiels linéaires à coefficients constants.

14.4.1  Équations linéaires à coefficients constants d’ordre 1 et 2

Pour les équations homogènes d’ordre 1 y+ay=0y'+ay=0, la solution générale est y(t)=Ce aty(t)=Ce^{-at}, le comportement asymptotique lorsque t+t \rightarrow +\infty dépend du signe de aa, si a>0a&gt;0 la limite est 0 et la solution décroit exponentiellement vite. Donc si a>0a&gt;0, quelle que soit la condition initiale, toutes les solutions de l’équation avec second membre y+ay=f(t)y'+ay=f(t) ont le même comportement asymptotique, celui d’une solution particulière de l’équation :on a donc un régime transitoire exponentiellement décroissant et un régime permanent.

Pour les équations homogènes d’ordre 2 ay+by+cy=0ay'{'}+by'+cy=0, la solution générale est y(t)=Ae r 1t+Be r 2ty(t)=Ae^{r_1t}+Be^{r_2t} si r 1r_1 et r 2r_2 sont les deux racines simples de ar 2+br+c=0ar^2+br+c=0 ou y(t)=e r 1t(A+Bt)y(t)=e^{r_1t}(A+Bt) si l’équation caractéristique admet une racine double. Le comportement à l’infini dépend du signe de la partie réelle de r 1r_1 et r 2r_2. Il faut que les deux parties réelles soient strictement négatives pour que la solution tende vers 0, à vitesse exponentielle, si l’une au moins des parties réelles est positive ou nulle, alors il n’y a pas convergence vers 0. Plus précisément

Exemples 

On peut généraliser à un ordre quelconque. Si toutes les racines de l’équation caractéristique sont de partie réelle négative, la solution générale de l’équation homogène tend vers 0 à l’infini, elle est appelée régime transitoire. Quelle que soit la condition initiale, on tend vers la solution particulière appelée régime permanent.

14.4.2  Forçage périodique

Il arrive souvent qu’un système physique soit soumis à un forçage extérieur périodique, par exemple pour la température à échelle fine, l’alternance jour-nuit, ou à grande échelle, l’alternance des saisons, ou circuit RCL soumis à un courant périodique. Il est donc utile de déterminer les caractéristiques de la solution en régime permanent.

Exemple : ordre 1 y+ay=Ae iωt,a>0y'+ay=A e^{i\omega t}, \quad a&gt;0 On sait qu’une solution particulière est donnée par Be iωt B e^{i \omega t}, on remplace et on obtient B(iω+a)=AB=Aa+iωB(i\omega +a)=A \Rightarrow B=\frac{A}{a+i\omega} L’amplitude de la solution particulière est donc l’amplitude du second membre divisée par le module |a+iω|=a 2+ω 2|a+i\omega|=\sqrt{a^2+\omega^2}, et l’exponentielle subit un déphasage donné par l’argument de BB soit arctan(ω/a)]π/2,0[-\arctan(\omega/a) \in ]-\pi/2,0[. La solution particulière suit donc le second membre, avec un déphasage compris entre 0 et un quart de période, selon la valeur de aa. Si le système a une forte inertie intrinsèque (aa petit pour avoir une exponentielle décroissant lentement), on s’approche du quart de période, c’est pour cette raison que la température près de la mer atteint son maximum en été environ 2 mois après le solstice, alors que dans les terres, c’est plutot 3 semaines après (le maximum d’un quart de période étant presque réalisé par la banquise qui atteint son minimum d’extend presque 3 mois après le solstice).

À l’ordre 2, on peut faire la même étude, cette fois l’amplitude est divisée par |aω 2+ibω+c|=b 2ω 2+(aω 2c) 2=ω 2b 2+(aωcω) 2|-a\omega^2+ib\omega+c| =\sqrt{ b^2\omega^2+(a\omega^2-c)^2} =\omega^2 \sqrt{ b^2+(a\omega-\frac{c}{\omega})^2} Si b=0b=0 (pas de frottements) et si iωi\omega est solution de l’équation caractéristique, la solution particulière est en Ate iωt A t e^{i\omega t}, il y a résonance (c’est pour éviter d’entrer en résonance avec une fréquence propre d’un pont qu’on ne doit pas le traverser à plusieurs en marchant au même pas cadencé).

14.4.3  Équation autonome sans second membre

Il s’agit d’une équation de la forme y=f(y)y'=f(y) où on suppose ff continument dérivable. Les solutions stationnaires sont données par les racines de ff (les rr telles que f(r)=0f(r)=0). Pour toute condition initiale entre deux racines consécutive de ff, la solution va rester entre ces deux racines consécutives. Comme ff ne s’annule pas entre deux racines consécutives, ff est de signe constant donc la solution est monotone, et tend vers une des racines lorsque t±t \rightarrow \pm \infty 4. Si f>0f&gt;0, on tend vers la plus grande des racines lorsque t+t \rightarrow +\infty, sinon vers la plus petite. Si la condition initiale est au-delà de la plus grande racine ou en-deça de la plus petite racine, on tend soit vers l’infini, soit vers la racines.

On peut préciser la vitesse de convergence. Si f(y)=c(yr),c<0f(y)=c(y-r), c&lt;0, (ff linéaire) la convergence vers rr se fait comme e cte^{ct} pour t+t \rightarrow +\infty. Dans le cas général, si f(r)0f'(r) \neq 0, ce résultat est encore valable, heuristiquement : f(y)=(yr)(f(r)+o(1))1f(y)=1f(r)(yr)11+o(1)=1f(r)(yr)(1+o(1))f(y)=(y-r)(f'(r)+o(1)) \Rightarrow \frac{1}{f(y)}= \frac{1}{f'(r)(y-r)} \frac{1}{1+o(1)} =\frac{1}{f'(r)(y-r)}(1 + o(1)) o(1)o(1) est une fonction qui tend vers 0 lorsque yy tend vers rr, donc : dyf(y)=dyf(r)(yr)(1+o(1))dy=ln|yr|f(r)(1+o(1))=dt=t+K\int \frac{dy}{f(y)} = \int \frac{dy}{f'(r)(y-r)}(1 + o(1)) dy = \frac{\ln|y-r|}{f'(r)} (1 + o(1)) = \int \ dt = t+K d’où le résultat (pour une justification plus rigoureuse il faut appliquer le théorème des fonctions implicites pour déterminer yy et vérifier que o(1)o(1) s’intègre).

Théorème 39   On considère l’équation différentielle y=f(y)y'=f(y)ff est continument dérivable, et a des racines réelles classées par ordre croissant ...,r k,......,r_k,.... Si la condition initiale y(t 0)y(t_0) est située entre deux racines, la solution est monotone entre ces deux racines et tend vers une des racines lorsque t±t\rightarrow \pm \infty. Si y(t 0)y(t_0) est situé au-delà de la dernière racine ou en-decà de la première racine (si elles existent), la solution est monotone et tend vers cette racine lorsque t±t\rightarrow \pm \infty ou diverge (en temps fini ou infini).

Si f(r k)<0f'(r_k) &lt; 0, la solution y=r ky=r_k est appelée équilibre stable : pour toute condition initiale situé entre r k1r_{k-1} et r k+1r_{k+1} la solution tend vers r kr_k lorsque t+t \rightarrow +\infty et la convergence se fait à vitesse exponentielle, comme Ce f(r k)t(1+o(1))Ce^{f'(r_k)t(1+o(1))}.

Exemple : pour l’équation logistique y=y(1y)y'=y(1-y), f(r)=r(1r)=rr 2,f(r)=12rf(r)=r(1-r)=r-r^2, f'(r)=1-2r, il y a deux équilibres r 0=0r_0=0 et r 1=1r_1=1, avec f(r 0)=1>0f'(r_0)=1&gt;0 et f(r 1)=1<0f'(r_1)=-1&lt;0 donc un équilibre stable en 1, et un équilibre instable en 0.

14.4.4  Systèmes linéaires

Cas linéaire
L’évolution du système est gouvernée par les valeurs propres de la matrice AA du système, exactement comme pour les équations linéaires où ce sont les racines de l’équation caractéristique. La solution générale tend vers 0 si toutes les valeurs propres ont une partie réelle strictement négative. S’il y a des paires de valeurs propres conjuguées de partie réelle négative, des phénomènes cycliques amortis apparaissent. Si les valeurs propres sont négatives ou nulles mais distinctes, la solution reste bornée (avec des composantes qui peuvent être périodiques). Si une des valeurs propres a une partie réelle strictement positive, alors pour une condition initiale générique, la solution tend vers l’infini.

Exemples

Cas autonome
On ne sait pas intégrer un système y=f(y)y'=f(y) sans plus de précision sur ff (ce n’est plus une équation à variables séparables et il n’y a pas d’ordre dans n\mathbb{R}^n, donc pas de monotonie des solutions à attendre). On ne peut donc espérer un résultat général que si la condition initiale est proche d’un point d’équilibre (une solution de f(r)=0f(r)=0). Dans la plupart des cas, on peut conclure sur la stabilité ou l’instabilité du point déquilibre en fonction de la partie réelle des valeurs propres de f(r)f'(r), un peu comme en dimension 1. Si toutes les valeurs propres ont des parties strictement négative on peut montrer que le système revient à l’équilibre exponentiellement vite, si l’une des parties réelles est strictement positive, pour une condition initiale générique, le système s’en éloigne, et s’il y a des parties réelles nulles, on ne peut pas conclure/

14.4.5  Forçage près d’un point d’équilibre de système.

Si on ajoute un terme dépendant du temps y=f(y)+g(t)y'=f(y)+g(t), on ne sait plus résoudre l’équation ni décrire son comportement qualitatif en toute généralité. Si la condition initiale est proche d’un équilibre stable, et si la perturbation est “petite” (en tenant compte de l’échelle de temps des exponentielles du système linéarisé) on peut alors linéariser et espérer que la solution se comporte comme la solution de y=f(r k)(yr k)+g(t)y'=f'(r_k)(y-r_k) + g(t) au moins pendant un certain intervalle de temps. Si g(t)=gg(t)=g est petit et constant, le point d’équilibre est déplacé au premier ordre de yr k=f(r k) 1gy-r_k=-f'(r_k)^{-1}g

Exemple : modèle d’évolution température puis température-CO2.

Le modèle le plus simple ne tient compte que des radiations venues du Soleil et réémises par la Terre, considérée comme un corps noir dTdt=k(SσT 4) \frac{dT}{dt} = k \left( S - \sigma T^4 \right) kk modélise l’inertie thermique, SS est la constante solaire (environ 1364/4W/m 2W/m^2) et σ\sigma est relié à la constante de Stefan-Boltzmann (5.67e-8 S.I.). On a alors un équilibre pour T e=S 1/4T_e=S^{1/4}, et cet équilibre est stable.

Si on perturbe par un effet de serre additionnel du CO2, on modélise l’évolution de la température TT de la Terre par dTdt=k(6ln(CO2280)σ(T 4T e 4)) \frac{dT}{dt} = k \left( 6 \ln (\frac{CO2}{280}) - \sigma (T^4-T_e^4) \right) T e=288KT_e=288K est la température d’équiibre de la Terre et CO2(t)CO2(t) la concentration en ppm de gaz carbonique, kk modélise la capacité calorifique de la Terre (on peut estimer k=0.0025K/yrk=0.0025K/yr), σ\sigma la constante de Stefan-Boltzmann (5.67e-8 S.I.). Par exemple avec un taux de CO2 stabilisé à 450ppm, le nouvel équilibre est donné à l’ordre 1 par TT e=(4σT e 3) 1(6ln(450280))T-T_e=(4\sigma T_e^3)^{-1}(6 \ln (\frac{450}{280}))

Le taux de CO2 de l’atmosphère peut être considéré comme un forçage extérieur (dépendant de scénarios d’émissions de CO2) mais il dépend aussi de la température de l’océan, on peut donc modéliser l’évolution conjointe des deux variables par un système différentiel autonome auquel on ajoute une composante dépendant du temps (émissions anthropiques). Par exemple un système 2 par 2 avec un second membre constant dans un scénario avec émissions de CO2 constantes. ddt(T C)=F(T,C)=(k(σ(T 0 4T 4)+6ln(C280)) g(T,C)+a) \frac{d}{dt} \left(\begin{array}{c} T \\ C \end{array}\right) = F(T,C) = \left(\begin{array}{c} k (\sigma(T_0^4-T^4)+6 \ln(\frac{C}{280}) ) \\ g(T,C) + a \end{array}\right) Cg\partial_C g est négatif (l’océan absorbe l’excédent de CO2 émis par rapport à la valeur avec laquelle il est en équilibre, on peut estimer Cg=2.5/120\partial_C g=-2.5/120 par les observations : émissions 4.5 ppm par an, hausse de CO2 2ppm/an, donc g(400)=2.5= Cg(400280)g(400)=-2.5=\partial_Cg(400-280)), et aa représente la perturbation anthropique (par exemple a=5ppm/ana=5ppm/an si stabilisation des émissions de CO2 à ce niveau). Dans un modèle simplifié gg ne dépend que de CC, la dérivée FF' a des coefficients négatifs sur la diagonale et un coefficient nul sous la diagonale, donc les valeurs propres de FF' sont négatives, le climat est stable. On atteint alors un nouvel équilibre avec une température TT et un taux de CO2 CC donnés par (ΔT e ΔC e)=F(T e,C e) 1(0 a),F=(4kσT e 3 6k/C e 0 Cg)\left(\begin{array}{c} \Delta T_e\\ \Delta C_e \end{array}\right)= -F'(T_e,C_e)^{-1}\left(\begin{array}{c}0\\ a \end{array}\right), \quad F'=\left(\begin{array}{cc}-4k\sigma T_e^3 & 6k/C_e\\ 0 & \partial_C g \end{array}\right) La valeur de la constante de couplage entre CO2 et T affecte évidemment le calcul de F 1F'^{-1} donc des valeurs à l’équilibre. Ici avec nos estimations :

on obtient une hausse de température de 1 degré et de CO2 de 240ppm. Cela semble inférieur à la hausse de température observée, car on n’a pas tenu compte d’autres rétroactions, en particulier la glace et l’eau. De plus dans un modèle plus réaliste, gg dépend aussi de TT, en effet si l’océan se réchauffe il dégaze du CO2. La matrice FF' n’est plus triangulaire supérieure, mais a 2 coefficients négatifs sur la diagonale et 2 positifs en-dehors. Si les valeurs propres restent négatives, le climat est stable, mais si le couplage était suffisamment fort pour que l’une des valeurs propres dépasse 0, le climat pourrait devenir instable! Ici on peut estimer grossièrement Tg=0.42\partial_T g=0.42 en tenant compte des cycles climatiques du passé, pour une hausse de 5 degrés on observe une hausse de 100ppm à l’équilibre (on doit avoir F*[5,100]=[x,0]F'*[5,100]=[x,0], xx correspondant au forçage astronomique sur la température). Cette estimation laisse les valeurs propres négatives, augmente de 10% environ la hausse de température et de CO2 à l’équilibre.

On peut raffiner ce modèle en ajoutant par exemple la glace et ses interactions avec la température (si la température monte, la glace fond, si la glace fond, l’albédo de la Terre diminue ce qui va faire monter la température), ce qui amène à un système différentiel en dimension 3 ddt(T G C)=F(T,G,C)=(k(σ(T 0 4T 4)+6ln(C280)βG 2/3) f(T) g(T,C)+a(t)) \frac{d}{dt} \left(\begin{array}{c} T \\ G \\ C \end{array}\right) = F(T,G,C) = \left(\begin{array}{c} k (\sigma(T_0^4-T^4)+6 \ln(\frac{C}{280}) - \beta G^{2/3} ) \\ f(T) \\ g(T,C) + a(t) \end{array}\right) ff est une fonction décroissante, Tg\partial_T g est positif, et a(t)a(t) représente la perturbation anthropique (la puissance deux tiers appliquée à la masse de glace sert à passer d’un volume à une surface pour représenter l’effet de la variation de volume de glace sur l’albédo).

14.5  Résolution numérique

14.5.1  Méthodes à un pas

On considère l’équation différentielle y=f(t,y),t,y(t) d,y(0)=y 0y'=f(t,y), \quad t \in \mathbb{R}, \quad y(t) \in \mathbb{R}^d, y(0)=y_0 y(t)y(t) est la fonction inconnue cherchée et où ff est une fonction régulière de tt et yy (par exemple C 1C^1 sur un domaine pour avoir existence et non recoupement des courbes intégrales dans ce domaine). On cherche à approcher numériquement y(t)y(t) pour t>0t&gt;0. On présente ici des méthodes de résolution numérique à un pas, dont le principe consiste à discrétiser l’intervalle [0,t][0,t] en des subdivisions en temps de petite taille [0,t 1],[t 1,t 2],...,[t n1,t n=t][0,t_1], [t_1,t_2], ..., [t_{n-1},t_n=t]. Si y iy_i est une valeur approchée de y(t i)y(t_i) la méthode à un pas se traduit par une relation de récurrence entre y iy_i et y i+1y_{i+1} qui reflète une méthode d’intégration approchée de y(t i+1)=y(t i)+ t i t i+1f(t,y(t))dty(t_{i+1})=y(t_i)+\int_{t_i}^{t_{i+1}} f(t,y(t)) \ dt Par exemple, la méthode d’Euler explicite utilise la méthode des rectangles à gauche y i+1=y i+(t i+1t i)f(t i,y i)=y i+hf(t i,y i)y_{i+1} = y_i + (t_{i+1}-t_i) f(t_i,y_i)=y_i+hf(t_i,y_i) h=t i+1t ih=t_{i+1}-t_i5 alors que la méthode d’Euler implicite utilise la méthode des rectangles à droite y i+1=y i+(t i+1t i)f(t i+1,y i+1)=y i+hf(t i+h,y i+1)y_{i+1} = y_i + (t_{i+1}-t_i) f(t_{i+1},y_{i+1})=y_i+hf(t_{i}+h,y_{i+1}) cette dernière relation nécéssite de résoudre une équation pour déterminer y i+1y_{i+1} d’où son nom de méthode implicite. Plus généralement, la méthode de résolution revient à se donner une fonction Φ(t,y,h)\Phi(t,y,h) et à poser : y i+1=y i+hΦ(t i,y i,h)y_{i+1}=y_i+h\Phi(t_i,y_i,h) pour la méthode d’Euler explicite, Φ(t,y,h)=f(t,y)\Phi(t,y,h)=f(t,y), pour la méthode d’Euler implicite, Φ\Phi s’obtient en résolvant une équation (par exemple avec la méthode du point fixe, pour hh suffisamment petit).

fonction Euler(f,t0,t1,N,y0)
  // y'=f(t,y) avec f(t0)=y0, calcul de f(t1)
  local h,y,j;
  h:=(t1-t0)/N; // pas
  y:=evalf(y0);
  pour j de 0 jusque N-1 faire
    y += h*f(t0+j*h,y); // y(t+h)=y(t)+h*y'
  fpour;
  return y;
ffonction:;



Lorsqu’on compare la solution de l’équation et une valeur approchée obtenue par une méthode à un pas, il faut distinguer

Plus précisément, on a le résultat suivant :

Théorème 40   Soit y(t)y(t) la solution de y=f(t,y),y(t 0)=y 0y'=f(t,y), y(t_0)=y_0 sur [t 0,T][t_0,T]. On considére une méthode de résolution à un pas : y i+1=y i+h iΦ(t i,y i,h i)y_{i+1}=y_i+h_i\Phi(t_i,y_i,h_i) Si la méthode est d’ordre pp, i.e. si pour h=max(h i)h=max(h_i) l’erreur locale satisfait |y(t)+hΦ(t,y(t),h)y(t+h)|C ph p+1,t[t 0,T],hH|y(t) + h\Phi(t,y(t),h)-y(t+h)|\leq C_p h^{p+1}, \quad \forall t \in [t_0,T], h \leq H et si la fonction Φ\Phi est lipschitzienne en yy de constante Λ\Lambda pour hHh\leq H et yy dans un voisinage de la solution y(t)y(t), i.e. si |Φ(t,z,h)Φ(t,y,h)|Λ|zy||\Phi(t,z,h)-\Phi(t,y,h)| \leq \Lambda |z-y| alors l’erreur globale vérifie |y(t n)y n|h pC pΛ(e Λ(t nt 0)1)|y(t_n)-y_n| \leq h^p \frac{C_p}{\Lambda} (e^{\Lambda(t_n-t_0)}-1)

Par exemple, pour Euler explicite, Φ(t,y,h)=f(t,y)\Phi(t,y,h)=f(t,y), la constante Λ\Lambda est la constante de Lipschitz de ff, et on prendra pour C 1C_1 un majorant de 12| yf(t,y)|\frac{1}{2}|\partial_y f(t,y)| dans un voisinage de la solution y(t)y(t) pour t[t 0,t n]t \in [t_0,t_n].

Pour prouver ce résultat, il faut déterminer comment se propagent les erreurs locales introduites à chaque pas. Par exemple, on a une erreur locale au pas 1 y(t 1)y 1y(t_1)-y_1 donc une condition initiale modifiée pour le pas 2 y 1y_1 au lieu de y(t 1)y(t_1). Cette erreur se propage au pas 2 en une erreur |y 1y(t 1)+h 1(Φ(t 1,y 1,h 1)Φ(t 1,y(t 1),h 1)|(1+h 1Λ)|y 1y(t 1)|e h 1Λ|y 1y(t 1)|| y_1-y(t_1)+h_1(\Phi(t_1,y_1,h_1)-\Phi(t_1,y(t_1),h_1)| \leq (1+h_1 \Lambda)|y_1-y(t_1)| \leq e^{h_1 \Lambda} |y_1-y(t_1)| De même aux pas suivants, donc au pas nn l’erreur locale au pas 1 s’est propagée en une erreur inférieure ou égale à  e h n1Λ...e h 2Λe h 1Λ|y 1y(t 1)|=e Λ(t nt 0)|y 1y(t 1)|C ph 0 p+1e Λ(t nt 0)e^{h_{n-1} \Lambda}... e^{h_2 \Lambda} e^{h_1 \Lambda} |y_1-y(t_1)| = e^{\Lambda (t_n-t_0)} |y_1-y(t_1)| \leq C_ph_0^{p+1} e^{\Lambda (t_n-t_0)} Il faut ensuite sommer les erreurs locales propagées de chaque pas i=0 n1C ph i p+1e Λ(t nt i)C ph p i=0 n1h ie Λ(t nt i)\sum_{i=0}^{n-1} C_p h_i^{p+1} e^{\Lambda (t_n-t_i)} \leq C_p h^p \sum_{i=0}^{n-1} h_i e^{\Lambda (t_n-t_i)} Comme e Λ(t nt)e^{\Lambda(t_n-t)} est positive décroissante sur [t 0,t n][t_0,t_n], on peut majorer la somme par l’intégrale C ph p t 0 t ne Λ(t nt)dtC_p h^p \int_{t_0}^{t_n} e^{\Lambda (t_n-t)} \ dt d’où le résultat.

On observe qu’on peut atteindre n’importe quelle précision pourvu que hh soit suffisamment petit. Mais en pratique, ce n’est pas le cas. En effet, le théorème ne tient pas compte des erreurs d’arrondis. Si le pas est trop petit, les erreurs d’arrondi ne sont plus négligeables, elles s’ajoutent aux erreurs locales et se propagent comme les erreurs locales avec amplification exponentielle. Il y a donc un pas optimal, et une précision maximale que l’on peut atteindre.

Références : Hairer, Demailly.

14.5.2  Méthodes de Runge-Kutta (explicites)

Ce sont des méthodes explicites qui utilisent une méthode de Newton-Cotes pour approcher f(t,y(t))dt\int f(t,y(t)) \ dt sur [t i,t i+1][t_i,t_{i+1}]. Pour simplifier les notations, notons t i=α,t i+1=βt_i=\alpha, t_{i+1}=\beta, on a alors α βf(t,y(t)) k=0 Nω kf(α k,y(α k)))\int_{\alpha}^{\beta} f(t,y(t)) \equiv \sum_{k=0}^N \omega_k f(\alpha_k,y(\alpha_k))) Pour estimer la valeur de f(α k,y(α k))f(\alpha_k,y(\alpha_k)), il est nécessaire d’approcher y(α k)y(\alpha_k) ce qui se fait par une méthode de Newton-Cotes, en utilisant les estimations des valeurs des y(α j),j<ky(\alpha_j), j&lt;k. On a donc des méthodes de Newton-Cotes avec un sous-ensemble croissant de points d’interpolation, donc pour chaque valeur de kk une suite de coefficients ω j,k,j<k\omega_{j,k}, j&lt;k correspondant à la méthode de Newton-Cotes utilisée. Il faut aussi indiquer la valeur de α k\alpha_k en donnant un coefficient c k[0,1]c_k \in [0,1] tel que α k=t i+c k(t i+1t i)=t i+c kh\alpha_k = t_i + c_k (t_{i+1}-t_i) = t_i+c_k h

En pratique on stocke un tableau dont les lignes donnent c kc_k et les c kω j,k,j<kc_k\omega_{j,k}, j&lt;k, et le calcul de y(α k)y(\alpha_k) se fait ligne par ligne y(α k)Y k=y(α 0)+h j=0 k1c kω j,kf(α j,y(α j))y(\alpha_{k}) \approx Y_{k}=y(\alpha_0) + h \sum_{j=0}^{k-1} c_k\omega_{j,k} f(\alpha_j,y(\alpha_j)) . Par exemple pour la méthode d’Euler explicite, il y a deux lignes contenant 0 et un seul coefficient : 0 : 1 : 1\begin{array}{ccc} 0 &:& \\ 1 &:& 1 \end{array} . Pour la méthode du point milieu, il y a trois lignes, la deuxière ligne exprime comment on estime y(t i+h/2)y(t_i+h/2), la troisième y(t i+1)=y(t i+h)y(t_{i+1})=y(t_i+h) : 0 : 12 : 12 1 : 0 1\begin{array}{cccc} 0 & : & \\ \frac{1}{2} & : & \frac{1}{2} \\ 1 & : & 0 & 1 \end{array} on a donc y(t i+12h)Y 1=y(t i)+12hf(t i,y(t i))y(t_i+\frac{1}{2}h) \approx Y_1=y(t_i)+\frac{1}{2}hf(t_i,y(t_i)) y(t i+h)Y 2=y(t i)+hf(t i+h2,Y 1)=y(t i)+hf(t i+h2,y(t i)+h2f(t i,y(t i)))y(t_i+h) \approx Y_2=y(t_i)+hf(t_i+\frac{h}{2},Y_1)=y(t_i)+hf(t_i+\frac{h}{2},y(t_i)+\frac{h}{2}f(t_i,y(t_i)))

La suite des temps α k\alpha_k est croissante, mais pas forcément de manière stricte, on peut avoir α k=α k+1\alpha_k=\alpha_{k+1}, la valeur de y(α k)y(\alpha_k) n’étant pas estimée par la même méthode de Newton-Cotes que y(α k+1)y(\alpha_{k+1}). La valeur des coefficients est ensuite déterminée pour obtenir un ordre le plus grand possible pour l’erreur locale (ce qui peut nécessiter la résolution de systèmes avec pas mal d’inconnues).

Ainsi, la méthode RK4 utilise le tableau suivant 0 : 12 : 12 12 : 0 12 1 : 0 0 1 1 : 16 13 13 16\begin{array}{cccccc} 0 & : & \\ \frac{1}{2} & : & \frac{1}{2} \\ \frac{1}{2} & : & 0 & \frac{1}{2} \\ 1 & : & 0 & 0 & 1 \\ 1 & : & \frac{1}{6} & \frac{1}{3} & \frac{1}{3} & \frac{1}{6} \end{array} Ce qui se traduit par Y 1 = y(t 0)+h2f(t 0,y 0) Y 2 = y(t 0)+h2f(t 0+h2,Y 1) Y 3 = y(t 0)+hf(t 0+h,Y 2) Y 4 = y(t 0)+h6(f(t 0,y(t 0))+2f(t 0+h2,Y 1)+2f(t 0+h2,Y 2)+f(t 0+h,Y 3)) \begin{matrix} Y_1&=&y(t_0)+\frac{h}{2}f(t_0,y_0) \\ Y_2&=&y(t_0)+\frac{h}{2}f(t_0+\frac{h}{2},Y_1) \\ Y_3 &=& y(t_0)+h f(t_0+h,Y_2) \\ Y_4 &=& y(t_0) + \frac{h}{6} \left(f(t_0,y(t_0))+ 2f(t_0+\frac{h}{2},Y_1)+2f(t_0+\frac{h}{2},Y_2)+f(t_0+h,Y_3)\right) \end{matrix} Les méthodes de Newton-Cotes utilisées sont les rectangles à gauche puis à droite pour estimer le point milieu, et la méthode de Simpson (en prenant la moyenne des deux estimations pour le point milieu). On peut montrer qu’elle est d’ordre 4 (erreur locale en O(h 5)O(h^5))

Les méthodes de résolution numériques implémentées dans Xcas sont des méthodes explicites de Runge-Kutta emboitées avec pas adaptatif, (le pas adaptatif est calculé en estimant l’erreur avec 2 méthodes emboitées RK4 et Prince-Dormand, cf. Hairer).


1
En toute rigueur, il faut prouver que la solution maximale est bien définie sur \mathbb{R} tout entier. Soit ]t m,t M[]t_m,t_M[ l’intervalle maximal de définition de la solution. Si t M+t_M \neq +\infty, alors en intégrant yy' qui est borné sur [t 0,t M[[t_0,t_M[ on obtient une valeur finie pour la limite en t Mt_M de y(t)y(t), on peut alors prolonger y(t)y(t) autour de t Mt_M en appliquant le théorème de Cauchy-Lipschitz en t=t Mt=t_M, ce qui est contradictoire avec l’hypothèse de maximalité. Donc t M=+t_M=+\infty et de même t m=t_m=-\infty
2
On peut d’ailleurs démontrer que certaines équations ne sont pas résolubles de cette manière, cf. la théorie de Galois différentielle
3
Cela vient du fait que les puissances de AA forment une famille d’un espace vectoriel de dimension finie n 2n^2, donc la famille est liée à partir de n 2+1n^2+1 éléments, en fait on peut montrer que c’est le cas si on considère I,A,...,A nI,A,...,A^n.
4
On peut prouver l’existence globale de la solution exactement comme pour l’exemple y=y(1y)y'=y(1-y) de la section 14.2
5
Pour une méthode à pas variable, le pas hh peut dépendre de ii

Chapitre 15  Introduction au calcul variationnel

La recherche de minimas/maximas est une des application du calcul différentiel : en dimension 1, la dérivée s’annule lorsque la fonction est maximale ou minimale, en dimension plus grande c’est le gradient qui s’annule. Le calcul variationnel est une généralisation du principe précédent lorsque l’inconnue n’est pas l’endroit xx où l’extrêmum est atteint (un réel ou un point), mais une fonction γ(t)\gamma(t). Par exemple, si on recherche le plus court chemin entre 2 points de l’espace, ou entre 2 points situé sur une sphère ou une surface : dans ce cas l’inconnue est le chemin, que l’on peut représenter par une courbe paramétrée. On obtient alors une équation différentielle qui permet de déterminer le chemin, de même que l’équation f(x)=0f'(x)=0 ou f=0\nabla f=0 permettait de trouver la position d’un extrêmum. Réciproquement, certaines équations différentielles de la physique peuvent se mettre sous la forme minimiser une fonction dépendant d’un chemin, le chemin étant la courbe intégrale de l’équation différentielle. C’est le cas par exemple des équations de la dynamique en mécanique classique aussi bien qu’en relativité. Un des intérêts d’une formulation variationnelle de ces équations, c’est que ce type de formulation est plus intrinsèque (plus géométrique) elle ne dépend pas des coordonnées.

Dans le cas général on se donne :

et on cherche parmi les courbes paramétrées deux fois continument dérivables γ(t)\gamma(t) d’origine γ(t 0)=A\gamma(t_0)=A et extrémité γ(t 1)=B\gamma(t_1)=B le(s) chemin(s) réalisant le minimum (s’il existe) de l’action2 : S= t 0 t 1L(γ(t),dγ(t)dt,t)dtS=\int_{t_0}^{t_1} L(\gamma(t),\frac{d\gamma(t)}{dt},t) dt En coordonnées cartésiennes, γ(t)\gamma(t) est une courbe paramétrique (mais en coordonnées polaires, (r(t),θ(t))(r(t),\theta(t)) n’est pas une courbe en polaires).

Exemples :

Proposition 41   Équations d’Euler-Lagrange : ce sont des conditions nécessaires pour que γ(t)\gamma(t) soit un extrêmum, si x=(x 1,...,x n)x=(x_1,...,x_n) est un système de coordonnées (pas forcément cartésiennes), elles sont données par : ddtLx i˙=Lx ipour i=1,...,n\frac{d}{dt} \frac{\partial L}{\partial \dot{x_i}} = \frac{\partial L}{\partial x_i} \quad \mbox{pour } i=1,...,n (On vérifie que cette équation a la bonne homogénéité.)

Sur les exemples, on obtient

Démonstration (idée) :
On fait varier le chemin en ajoutant à γ(t)=(x 1(t),...,x n(t))\gamma(t)=(x_1(t),...,x_n(t)) un vecteur uΔ(t)u \Delta(t) avec Δ(t 0)=Δ(t 1)=0\Delta(t_0)=\Delta(t_1)=0, on obtient une action S(u)S(u), on calcule la dérivée en u=0u=0 de S(u)S(u), elle doit s’annuler pour avoir un extrêmum, et ce quel que soit la valeur de la fonction Δ\Delta telle que Δ(t 0)=Δ(t 1)=0\Delta(t_0)=\Delta(t_1)=0. Prenons pour commencer Δ\Delta uniquement sur la première composante Δ(t)=(δ(t),0,...,0)\Delta(t)=(\delta(t),0,...,0), on a : S(u)= t 0 t 1L(x 1(t)+uδ(t),x 2(t),...,x n,x 1˙+uδ˙,x 2˙,...,x n,t)dtS(u) = \int_{t_0}^{t_1} L(x_1(t)+u\delta(t),x_2(t),...,x_n,\dot{x_1}+u\dot{\delta},\dot{x_2},...,x_n',t) \ dt on dérive par rapport à uu sous le signe intégrale (on peut intervertir dérivée et intégrale car γ,δ,L\gamma, \delta, L sont deux fois continument dérivables). Comme uu intervient dans deux composantes de LL, il y a deux dérivées partielles qui interviennent : S(0)= t 0 t 1(Lx 1δ+Lx 1˙δ˙)dtS'(0) =\int_{t_0}^{t_1} \left(\frac{\partial L}{\partial x_1} \delta + \frac{\partial L}{\partial \dot{x_1}} \dot{\delta} \right) \ dt On intègre par parties le deuxième terme (δ˙=dδdt\dot{\delta}=\frac{d \delta}{dt}), le terme tout intégré est nul car δ(t 0)=δ(t 1)=0\delta(t_0)=\delta(t_1)=0, d’où : 0=S(0)= t 0 t 1(Lx 1δddtLx 1˙δ)dt= t 0 t 1(Lx 1ddtLx 1˙)δdt0=S'(0)=\int_{t_0}^{t_1} \left( \frac{\partial L}{\partial x_1} \delta -\frac{d}{dt} \frac{\partial L}{\partial \dot{x_1}} \delta \right) \ dt =\int_{t_0}^{t_1} \left( \frac{\partial L}{\partial x_1} -\frac{d}{dt} \frac{\partial L}{\partial \dot{x_1}} \right) \delta \ dt Comme le résultat doit être nul pour toute valeur de δ\delta, on en déduit la première équation d’Euler-Lagrange (en prenant δ=(tt 0)(t 1t)(Lx 1ddtLx 1˙)\delta=(t-t_0)(t_1-t) (\frac{\partial L}{\partial x_1} -\frac{d}{dt} \frac{\partial L}{\partial \dot{x_1}}) si la régularité est suffisante, ou sinon en raisonnant par l’absurde : si l’équation n’est pas vérifiée en un point, alors on prend δ\delta non nulle seulement au voisinage de ce point et nulle ailleurs, et on choisit δ\delta de même signe que l’autre facteur, l’intégrale est alors strictement positive, absurde).

Un des intérêts de cette écriture des équations de la mécanique, c’est de pouvoir effectuer un changement de coordonnées plus facilement, car la propriété de rendre l’action extrêmale pour un chemin est indépendant du choix des coordonnées. Exemple : si n=2n=2, on peut utiliser les coordonnées polaires (r,θ)(r,\theta), on a alors L=12m(r˙ 2+r 2θ˙ 2)V(r,θ)L=\frac{1}{2}m(\dot{r}^2+r^2 \dot{\theta}^2) - V(r,\theta) Si le potentiel dépend seulement de rr (en dimension 2), alors LL ne dépend pas de θ\theta (seulement de θ˙\dot{\theta}) donc ddtLθ˙=0\frac{d}{dt} \frac{\partial L}{\partial \dot{\theta}} = 0 on a donc une intégrale première, qui est le moment cinétique mr 2θ˙=mr^2 \dot{\theta}=\mathcal{L}. L’autre équation est ddtLr˙=mr¨=Lr=mrθ˙ 2V(r)\frac{d}{dt} \frac{\partial L}{\partial \dot{r}} = m\ddot{r} = \frac{\partial L}{\partial r} = m r \dot{\theta}^2 - V'(r) et s’exprime uniquement en fonction de rr mr¨= 2mr 3V(r)m\ddot{r} = \frac{\mathcal{L}^2}{mr^3} - V'(r) tout se passe comme si on était en dimension 1 avec un potentiel effectif V(r)+ 22mr 2V(r)+ \frac{\mathcal{L}^2}{2mr^2}.

Exercice : Calculer le lagrangien en coordonnées sphériques et donner les équations d’Euler-Lagrange si le potentiel VV est radial (V=V(r)V=V(r)).
Solution abrégée L=12m(r˙ 2+r 2θ˙ 2+r 2sin(θ) 2ϕ˙ 2)VL=\frac{1}{2}m(\dot{r}^2+r^2\dot{\theta}^2+r^2\sin(\theta)^2 \dot{\phi}^2)-V LL ne dépend pas explicitement de ϕ\phi, il y a donc une constante du mouvement p ϕ=L/ϕ˙=mr 2sin(θ) 2ϕ˙,p ϕ˙=0p_\phi=\partial L/\partial{\dot{\phi}} = m r^2 \sin(\theta)^2 \dot{\phi}, \quad \dot{p_\phi}=0 c’est le moment cinétique par rapport à OzOz. VV ne dépend pas de θ\theta mais LL en dépend, donc p θ=L/θ˙p_\theta=\partial L/\partial{\dot{\theta}} n’est pas conservé : p θ=mr 2θ˙,p θ˙=mr 2sin(θ)cos(θ)ϕ˙ 2p_\theta=mr^2\dot{\theta}, \quad \dot{p_\theta}=mr^2\sin(\theta)\cos(\theta)\dot{\phi}^2 Toutefois, pour des raisons de symétrie, les moments par rapport à OxOx et OyOy sont aussi conservés, on a donc d’autres constantes du mouvement. On peut continuer de deux manières, soit choisir le repère pour avoir ϕ˙=0\dot{\phi}=0 à la condition initiale, alors ϕ˙\dot{\phi} reste nul pendant tout le mouvement qui se passe dans le plan ϕ\phi constant, on est ramené à un lagrangien en coordonnées polaires, qui ne dépend plus de θ\theta. Ou bien on montre que p θ 2+p ϕ 2/sin 2(θ)p_\theta^2+p_\phi^2/\sin^2(\theta) est constant.

Plus généralement, si LL ne dépend pas explicitement du temps, alors le hamiltonien défini par : H= ix˙ iLx˙ iLH = \sum_i \dot{x}_i \frac{\partial L}{\partial \dot{x}_i} - L est une intégrale première, en effet dHdt = ix¨ iLx˙ i+ ix˙ iddtLx˙ i( iLx idx idt+ iLx˙ idx˙ idt) = ix¨ iLx˙ i+ ix˙ iLx i( iLx ix˙ i+ iLx˙ ix¨ i) = 0 \begin{matrix} \frac{dH}{dt} &= &\sum_i \ddot{x}_i \frac{\partial L}{\partial \dot{x}_i} + \sum_i \dot{x}_i \frac{d}{dt}\frac{\partial L}{\partial \dot{x}_i} - \left(\sum_i \frac{\partial L}{\partial x_i} \frac{dx_i}{dt} +\sum_i \frac{\partial L}{\partial \dot{x}_i} \frac{d\dot{x}_i}{dt} \right)\\ & =& \sum_i \ddot{x}_i \frac{\partial L}{\partial \dot{x}_i} + \sum_i \dot{x}_i \frac{\partial L}{\partial x_i} - \left(\sum_i \frac{\partial L}{\partial x_i} \dot{x}_i +\sum_i \frac{\partial L}{\partial \dot{x}_i} \ddot{x}_i \right) \\ &=&0 \end{matrix}

Exercice : calculer HH pour le lagrangien de la mécanique classique et de la relativité restreinte.

Exemple : On cherche la forme d’un toboggan qui permette de se rendre le plus rapidement possible d’un point AA (origine du repère) à un point BB situé à une altitude plus basse sous l’action de la gravité (en négligeant les frottements). Si cette courbe est un graphe de fonction y(x)y(x) alors la vitesse est donnée par v=(dxdt,dydt)=dxdt(1,y)\overrightarrow{v}=(\frac{dx}{dt},\frac{dy}{dt})=\frac{dx}{dt}(1,y'). D’autre part v=2gyv=\sqrt{-2gy}. Donc dxdt1+y 2=2gy\frac{dx}{dt}\sqrt{1+y'^2}=\sqrt{-2gy} on en déduit : dt=dx1+y 22gydt = dx \frac{\sqrt{1+y'^2}}{\sqrt{-2gy}} donc le temps à minimiser est x A=0 x Bdt= 0 x B1+y 22gydx\int_{x_A=0}^{x_B} dt = \int_0^{x_B} \frac{\sqrt{1+y'^2}}{\sqrt{-2gy}} dx Pour se ramener au problème précédent, on change de notations, xx devient un “temps virtuel” τ\tau et y=y˙y'=\dot{y} est la dérivée de yy par rapport à ce temps virtuel, il faut minimiser 0 τ BL(y,y˙,τ)dτ,L(y,y˙,τ)=1+y˙ 22gy\int_0^{\tau_B} L(y,\dot{y},\tau) d\tau, \quad L(y,\dot{y},\tau)=\frac{\sqrt{1+\dot{y}^2}}{\sqrt{-2gy}} le lagrangien ne dépend pas explicitement de τ\tau, donc le hamiltonient correspondant H=y˙Ly˙LH=\dot{y} \frac{\partial L}{\partial\dot{y}} - L est conservé, donc indépendant de τ\tau donc en revenant à la notation xx pour l’abscisse on a H = y(1+y 22gy)y1+y 22gy = 12gy(yy1+y 21+y 2) = 12gy1+y 2 \begin{matrix} H&=&y' \frac{ \partial{ \left( \frac{\sqrt{1+y'^2}}{\sqrt{-2gy}} \right)} }{\partial y'}- \frac{\sqrt{1+y'^2}}{\sqrt{-2gy}}\\ &=& \frac1 {\sqrt{-2gy}} \left( y' \frac{y'}{\sqrt{1+y'^2}} - \sqrt{1+y'^2} \right)\\ &=&\frac1 {\sqrt{-2gy} \sqrt{1+y'^2}} \end{matrix} Après simplification, on obtient l’équation différentielle : 2gH 2y(1+y 2)=1-2gH^2y (1+y'^2) = 1 soit y 2=2cy1,c=gH 2y'^2=\frac{-2c}{y}-1, \quad c=gH^2\quad Comme y0y\leq 0 et y(0)=0y'(0)=0, on en déduit que yy' est négatif : dy=2cy1dx-dy = \sqrt{\frac{-2c}{y}-1} \ dx Il s’agit d’une équation à variables séparables. En posant y=c+cY,x=cXy=-c+cY, x=cX on obtient une équation indépendante de cc : dY=21Y1dX=1+Y1YdX-dY=\sqrt{\frac{2}{1-Y}-1} \ dX=\sqrt{\frac{1+Y}{1-Y}} dX Donc 1Y1+YdY=dX-\int \sqrt{\frac{1-Y}{1+Y}} dY = \int dX puis (pour trouver la constante d’intégration, on observe que Y=1Y=1 pour X=0X=0) : 1Y 2+arccos(Y)=X-\sqrt{1-Y^2}+\arccos(Y)=X Si on pose Y=cos(t),t[0,π]Y=\cos(t), t \in [0,\pi], on a X=tsin(t)X=t - \sin(t), la solution est donc une cycloïde renversée. On peut aussi le vérifier directement en remplaçant dans l’équation xx et yy par les équations paramétriques de la cycloïde renversée x=c(tsin(t)),y=c+ccos(t),t[0,π]x=c(t-\sin(t)), \ y=-c+c\cos(t), \ t \in [0,\pi] on trouve pour le membre de droite : 2cy1dx = c21cos(t)1(1cos(t))dt = c1+cos(t)1cos(t)(1cos(t))dt = c1cos(t) 2dt = csin(t)dt = dy \begin{matrix} \sqrt{\frac{-2c}{y}-1} \ dx &=& c \sqrt{\frac{2}{1-\cos(t)}-1} \ (1-\cos(t)) \ dt\\ &=& c \sqrt{\frac{1+\cos(t)}{1-\cos(t)}} \ (1-\cos(t)) \ dt \\ &=& c \sqrt{1-\cos(t)^2} \ dt\\ &=& c \sin(t) \ dt \\ &=& -dy \end{matrix}

Pour aller plus loin :


1
on appelle espace des configurations l’espace des positions, vitesses, (x,x˙) n× n(x,\dot{x}) \in \mathbb{R}^n \times \mathbb{R}^n en coordonnées cartésiennes, espace que l’on a déjà utilisé implicitement pour passer d’une équation différentielle d’ordre 2 à un système différentiel d’ordre 1
2
On pourrait bien sur avoir une action dépendant de dérivées d’ordre supérieur de γ(t)\gamma(t)
3
Le signe moins vient de la convention adoptée en physique pour le lien entre potentiel et force

Chapitre 16  Corps finis.

16.1  Rappels

Soit KK un corps fini. Le plus petit entier pp tel que p.1=0p.1=0 est la caractéristique du corps, c’est un nombre premier (car xy=0x=0xy=0 \Rightarrow x=0 ou y=0y=0), et KK est un /p\mathbb{Z}/p\mathbb{Z} espace vectoriel de dimension finie nn, donc son cardinal est p np^n.

Les inversibles pour la multiplication forment un groupe de cardinal p n1p^n-1 et ce groupe est cyclique (sinon on construit un élément d’ordre dd le PPCM des ordres des éléments de K *K^*, cet ordre est donc un diviseur strict de p n1p^n-1, mais c’est impossible car le polynôme x dxx^d-x a alors p n1>dp^n-1&gt;d racines).

L’application ϕ:xx p\phi:x \rightarrow x^p est une application linéaire et le noyau de ϕ\phi-id est /p\mathbb{Z}/p\mathbb{Z}. Si PP est un polynôme irréductible à coefficients dans /p\mathbb{Z}/p\mathbb{Z} de degré divisant nn, alors PP se décompose en produit de facteurs de degré 1 et on passe d’une racine de PP dans KK à une autre en appliquant ϕ\phi (en effet PP divise x p nxx^{p^n}-x modulo pp et x p nx= αK(xα)x^{p^n}-x=\prod_{\alpha \in K} (x-\alpha)). Exemple : faire GF(3,5) pour créer le corps KK de cardinal 3 53^5, puis P:=randpoly(5) % 3; factor(P) et exécuter à niveau la commande jusqu’à ce que PP soit irréductible, puis tester factor(P,g). Evidemment, ce résultat n’est plus vrai si PP a des coefficients dans KK au lieu de /p\mathbb{Z}/p\mathbb{Z} (essayer avec P:=randpoly(5,g)).

16.2  Représentation des corps non premiers.

16.2.1  Cas général.

Pour représenter KK, on utilise généralement la représentation dite additive, c’est-à-dire que KK est isomorphe à /p[X]/P(X)\mathbb{Z}/p\mathbb{Z}[X]/P(X) avec PP un polynôme irréductible de /p[X]\mathbb{Z}/p\mathbb{Z}[X] de degré nn. Si la classe de XX est d’ordre p n1p^n-1 dans K *K^* on dit que PP est primitif. Dans Xcas, c’est cette représentation qui est utilisée, l’instruction GF(p,n) génère aléatoirement un polynôme irréductible de degré nn sur /p\mathbb{Z}/p\mathbb{Z}, puis cherche un élément cyclique, calcule son polynôme minimal (qui est donc primitif), et affiche le nom d’un générateur (par défaut g), il suffit alors d’écrire n’importe quelle expression symbolique polynomiale en ce générateur pour créer un élément de KK. En interne, Xcas stocke les éléments de KK comme des polynômes-listes à coefficients dans /p\mathbb{Z}/p\mathbb{Z}, et les affiche comme polynôme symbolique en fonction du générateur. On peut aussi utiliser un entier entre 0 et p n1p^n-1 dont l’écriture en base pp représente les coefficients du polynôme.

Pour générer un polynôme irréductible, on utilise un génerateur aléatoire d’entiers dans [0,p[[0,p[, on crée un polynôme unitaire de degré nn, et on teste son irréductibilité en calculant le PGCD de PP avec les x p kxx^{p^k}-x pour kk de 1 jusque n/2n/2. En pratique, on calcule les powmod(x,p^k,p,P) (en prenant la puissance modulaire pp-ième du précédent), on retire xx et on calcule le pgcd avec PP, si on trouve un résultat différent de 1, on passe au polynôme suivant (généré aléatoirement). On peut calculer la probabilité de réussir en dénombrant les polynômes irréductibles de degré nn à l’aide de la formule x p nx= P irréductible unitaire /deg(P) divise nPx^{p^n}-x=\prod_{P \mbox{ irréductible unitaire }/ \mbox{deg}(P)\mbox{ divise } n} P.

Trouver un élément cyclique se fait aussi au hasard (rand(g) en Xcas si g est le générateur d’un corps fini), la probabilité se calcule à l’aide de l’indicatrice d’Euler de p n1p^n-1. Déterminer le polynome minimal d’un élément est alors un problème d’algèbre linéaire, il se résoud en calculant le noyau de la matrice dont les colonnes sont les coefficients des puissances de l’élément (instruction pmin en Xcas).

La représentation additive est pratique pour additionner ou soustraire des éléments de KK, multiplier nécessite de faire une division euclidienne par PP et prendre le reste, inverser nécessite de faire une identité de Bézout avec PP. Il existe une représentation alternative, dite multiplicative, on représente alors un élément g kg^k de K *K^* par la puissance k[0,p 2]k \in [0,p^-2] du générateur gg, et on représente 0 K0_K par -1 ou par p n1p^n-1. Mais l’addition est alors difficile sauf si on dispose d’une table passant de la représentation additive à la représentation multiplicative.

16.2.2  Corps de petit cardinal, cas de la caractéristique 2

Si le cardinal du corps n’est pas trop grand (par exemple moins que quelques milliers), il est intéressant de construire une table de passage entre représentation additive et multiplicative, c’est-à-dire une permutation de [0,p n1][0,p^n-1] si on utilise des entiers pour la représentation additive. On calcule donc une fois pour toutes la représentation additive de toutes les puissances de gg ce qui fournit la table de passage multiplicatif vers additif, puis la permutation inverse, on peut alors effectuer toutes les opérations sur le corps KK très rapidement : la multiplication devient un test si l’un des éléments vaut p n1p^n-1 suivi d’une addition modulo p n1p^n-1 si ce n’est pas le cas, l’addition une écriture en base pp et nn additions dans /p\mathbb{Z}/p\mathbb{Z}.

En caractéristique 2, l’addition est encore plus simple, il s’agit d’un ou exclusif bit à bit (sur un type entier court 8 ou 16 ou 32 bits). De plus le calcul de la permutation de passage est très rapide, pour trouver g k+1g^{k+1} en fonction de g kg^k il faut multiplier par gg ce qui est un décalage de bit vers la gauche, tester si l’entier est supérieur à 2 n2^n et si oui faire un ou exclusif avec l’entier représentant le polynôme minimal de gg. Si le cardinal du corps est assez petit (par exemple 2 82^8, ou disons moins que 2 132^{13}), la permutation et son inverse tiennent dans le cache du microprocesseur et les opérations sur le corps KK se font en une dizaine de cycles du microprocesseur.

16.3  Exercices

Dans Xcas, pour travailler dans /p\mathbb{Z}/p\mathbb{Z}, on utilise l’opérateur infixé mod (ou % en syntaxe Xcas). Attention à bien laisser un espace avant ou/et après % si vous utilisez des noms de variables. Par exemple p:=7; t:=3 % p représente la classe de 3 dans /7\mathbb{Z}/7\mathbb{Z}. Pour revenir à un entier depuis un élément tt de /p\mathbb{Z}/p\mathbb{Z}, utiliser t mod 0 (ou t % 0).

Pour travailler dans un corps fini non premier de caractéristique pp et de cardinal p np^n, on crée le corps avec la commande GF(p,n) ou une variante, et on exprime les éléments du corps comme polynômes en une racine d’un polynôme irréductible de degré nn (par défaut gg). Les variantes permettent de préciser le nom de variable pour générer les éléments du corps comme polynômes en cette variable, ou pour préciser le polynôme minimal ou pour indiquer si on ne souhaite pas que le polynôme minimal soit primitif (i.e. que les puissances de la variable engendrent le corps moins 0). Par exemple

Exercices :

  1. Construire un corps KK à 81 éléments avec la commande GF. Chercher un polynôme irréductible de degré 4 sur Z/3Z\Z/3\Z, puis le factoriser sur le corps KK.
  2. Trouver un polynôme irréductible PP de degré 5 sur /7\mathbb{Z}/7\mathbb{Z}. En déduire une représentation de GF(7,5). Factoriser le polynôme PP sur votre représentation de GF(7,5) (on pourra utiliser l’application xx 7x \rightarrow x^7).
  3. Déterminer le polynôme minimal de quelques éléments de GF(7,5) en utilisant votre représentation ou celle de Xcas. Même question mais en degré 4 avec la représentation de Xcas.
  4. Factoriser avec Xcas x 16xx^{16}-x modulo 2 (on pourra utiliser factors(), % 2 et % 0). En déduire les polynômes irréductibles de degré 4 sur /2\mathbb{Z}/2\mathbb{Z}, déterminez les polynômes irréductibles primitif de degré 4, pour l’un d’entre eux construire une table entre représentation multiplicative et additive de GF(2,4).
  5. Écrire une fonction permettant de déterminer si un polynôme AA est irréductible modulo pp, en utilisant le PGCD avec les x p kxx^{p^k}-x modulo pp. Quelle est sa complexité si AA est irréductible de degré dd ?
  6. Créer une matrice carrée MM d’ordre 3 à coefficients dans un corps de cardinal 25, déterminer son polynome minimal et son ordre. Quels sont les ordres possibles ?

16.4  Rappels de quelques complexités de base

nn désigne un majorant commun de la taille des arguments, ou bien n 1n_1 et n 2n_2 désignent la taille des 2 arguments.

16.4.1  Polynomes denses et entiers

Pour un polynôme en une variable à coefficients dans un corps fini, la taille est le degré du polynôme, on prend comme convention que la somme et le produit des coefficients se fait en temps O(1)O(1).

Pour un entier, la taille est le nombre de chiffres dans l’écriture dans une base quelconque, nn est donc un majorant de log b(N)\log_b(N).

Remarques

16.4.2  Algèbre linéaire dense

Pour une matrice carrée n,nn,n à coefficients dans un corps fini où les opérations se font en temps O(1)O(1).

Remarques

16.5  Codes linéaires et polynomiaux.

Les corps finis premiers servent dans tous les algorithmes modulaires, on en a vu par exemple l’intérêt pour le PGCD, la factorisation...

Les corps finis premiers et non premiers servent aussi dans le domaine de la cryptographie et des codes correcteurs d’erreurs, on présente ici ce dernier point.

Références : Demazure, G. Zémor, wikipedia (pour les codes de Hamming binaires).

On appellera symbole d’information l’unité de base transmise, qu’on supposera appartenir à un corps fini KK, par exemple pour un bit un élément de K=/2K=\mathbb{Z}/2\mathbb{Z}, ou pour un octet un élément du corps à 256 éléments K=F 256=F dK=F_{256}=F_d.

On veut coder un message de longueur kk avec des possibilités de détection et de correction d’erreurs, pour cela on rajoute des symboles calculés à partir des précédents, on envoie un élément d’un code ayant nn symboles.

16.5.1  Le bit de parité.

On prend k=7k=7 bits et n=8n=8 bits. On compte le nombre de 1 parmi les 7 bits envoyés, si ce nombre est pair, on envoie 0 comme 8ième bit, sinon 1. Au final le nombre de bits à 1 de l’octet (1 octet=8 bits) est pair. On peut ainsi détecter une erreur de transmission si à la réception le nombre de bits d’un octet est impair, mais on ne peut pas corriger d’erreurs. On peut aussi dire que l’octet représente un polynôme à coefficients dans /2\mathbb{Z}/2\mathbb{Z} divisible par X+1X+1.

Exercice : Écrire un programme Xcas permettant de rajouter un bit de parité à une liste composée de 7 bits. Puis un programme de vérification qui accepte ou non un octet selon sa parité. Vous représenterez l’octet par une liste de bits, avec le délimiteur poly1[ pour pouvoir effectuer des opérations arithmétiques polynomiales, et vous effectuerez la vérification de deux manières, en comptant le nombre de 1 ou avec l’instruction rem.

16.5.2  Codes linéaires

Définition : On multiplie le vecteur des kk symboles par une matrice MM à coefficients dans KK de taille n×kn \times k et on transmet l’image. Pour assurer qu’on peut identifier un antécédent unique à partir d’une image, il faut que MM corresponde à une application linéaire injective, ce qui entraine nkn\geq k. On dit qu’un vecteur de nn symboles est un mot du code s’il est dans l’image de l’application linéaire.

Pour assurer l’injectivité tout en facilitant le décodage, on utilise très souvent une matrice identité k,kk,k comme sous-bloc de la matrice n,kn,k, par exemple on prend l’identité pour les kk premières lignes de MM, on ajoute ensuite nkn-k lignes. On parle de code systématique.

Pour savoir si un vecteur est un mot de code, il faut vérifier qu’il est dans l’image de MM. On peut par exemple vérifier qu’en ajoutant la colonne de ses coordonnées à MM, on ne change pas le rang de MM (qui doit être kk) mais c’est assez couteux. On préfère utiliser une matrice de controle HH xIm(M)Hx=0x \in \mbox{Im}(M) \Leftrightarrow Hx=0 Pour un code systématique, la matrice MM est composée de l’identité I kI_{k} et d’une matrice CC sur ses nkn-k dernières lignes, alors H=(C,I nk)H=(-C,I_{n-k}).

Exercice : créez une matrice MM de taille 7,4 injective. Puis un programme qui teste si un vecteur est un mot de code et en extrait alors la partie avant codage. Vérifiez votre programme avec un vecteur MvMv, on doit obtenir un mot de code.
Instructions utiles : idn (matrice identité) ker (noyau d’une application linéaire), rank (rang), tran (tranposée), ... Pour créer une matrice, on peut coller les lignes de 2 matrices AA et BB par [op(A),op(B)] ou avec blockmatrix.

16.5.3  Codes polynomiaux

Il s’agit d’un cas particulier de codes linéaires. Définition : On se donne un polynôme g(x)g(x) de degré nkn-k, On représente le message de longueur kk à coder par un polynôme PP de degré k1k-1. On envoie alors PgPg. Le récepteur peut controler que le reste de la division euclidienne du polynôme reçu par gg est nul, et extraire l’information qui est le quotient de la division euclidienne par gg. Ce code n’est pas systématique, mais on peut facilement l’adapter pour le rendre systématique. On multiplie PP par x nkx^{n-k}, on calcule le reste RR de la division de Px nkP x^{n-k} par gg. On émet alors Px nkRP x^{n-k}-R qui est divisible par gg. Les mots de code sont les polynômes divisibles par gg.

Exercice : écrire de cette façon le codage du bit de parité. Puis une procédure Xcas de codage utilisant g=X 7+X 3+1g=X^7+X^3+1 (ce polynôme était utilisé par le Minitel). N.B. on obtient le polynôme X nkX^{n-k} sous forme de polynome-liste dans Xcas par poly1[1,0$(n-k)].

16.5.4  Détection et correction d’erreur

Si le mot recu n’est pas dans l’image de l’application linéaire il y a eu erreur de transmission. Sinon, il n’y a pas eu d’erreur détectable (il pourrait y avoir eu plusieurs erreurs qui se “compensent”).

Plutôt que de demander la réémission du mot mal transmis (ce qui serait par exemple impossible en temps réel depuis un robot en orbite autour de Mars), on essaie d’ajouter suffisamment d’information pour pouvoir corriger des erreurs en supposant que leur nombre est majoré par NN. Si les erreurs de transmissions sont indépendantes, la probabilité d’avoir au moins t+1t+1 erreurs dans un message de longueur nn est j=t+1 n(nj)ε j(1ε) nj\sum_{j=t+1}^n \left( ^n_{j} \right) \epsilon^{j} (1-\epsilon)^{n-j}, où ε\epsilon est la probabilité d’une erreur de transmission, c’est aussi 1-binomial_cdf(n,epsilon,t). Par exemple, pour un message de 10 310^3 caractères, chacun ayant une probabilité d’erreur de transmission de 10 310^{-3}, si on prend t=3t=3, alors la probabilité d’avoir au moins 4 erreurs est de 0.019 (arrondi par excès) :




ou directement
.

Exemple : On ne peut pas corriger d’erreur avec le bit de parité.

16.5.5  Distances

La distance de Hamming de 2 mots est le nombre de symboles qui diffèrent. (il s’agit bien d’une distance au sens mathématique, elle vérifie l’inégalité triangulaire).

Exercice : écrire une procédure de calcul de la distance de Hamming de 2 mots. En Xcas, la fonction s’appelle hamdist.

La distance d’un code est la distance de Hamming minimale de 2 mots différents du code. Pour un code linéaire, la distance est aussi le nombre minimal de coefficients non nuls d’un vecteur non nul de l’image. Pour un code polynomial, la distance du code est le nombre minimal de coefficients non nuls d’un multiple de gg de degré inférieur à nn.

Exercice : quelle est la distance du code linéaire que vous avez créé plus haut ?

Majoration de la distance du code:
La distance minimale d’un code linéaire est inférieure ou égale à nk+1n-k+1 : en effet on écrit en ligne les coordonnées des images de la base canonique (ce qui revient à transposer la matrice) et on réduit par le pivot de Gauss, comme l’application linéaire est injective, le rang de la matrice est kk, donc la réduction de Gauss crée k1k-1 zéros dans chaque ligne, donc le nombre de coefficients non nuls de ces kk lignes (qui sont toujours des mots de code) est au plus de nk+1n-k+1.

Exercice : si votre code linéaire n’est pas de distance 3, modifiez les 3 dernières lignes pour réaliser un code de distance 3. On ne peut pas obtenir une distance nk+1=4n-k+1=4 avec n=7n=7 et k=4k=4 dans /2\mathbb{Z}/2\mathbb{Z}, essayez! Essayez sur /3\mathbb{Z}/3\mathbb{Z} et /5\mathbb{Z}/5\mathbb{Z}.

N.B. : Pour les codes non polynomiaux, par exemple convolutifs, la distance n’est pas forcément le paramètre le mieux adapté à la correction d’erreurs.

16.5.6  Correction au mot le plus proche

Une stratégie de correction basée sur la distance consiste à trouver le mot de code le plus proche d’un mot donné. Si la distance d’un code est supérieure ou égale à 2t+12t+1, et s’il existe un mot de code de distance inférieure à tt au mot donné, alors ce mot de code est unique. On corrige alors le mot transmis en le remplaçant par le mot de code le plus proche.

Exercice : écrivez un programme permettant de corriger une erreur dans un mot dans votre code linéaire.

On dit qu’un code tt-correcteur est parfait si la réunion des boules de centre un mot de code et de rayon tt (pour la distance de Hamming) est disjointe et recouvre l’ensemble des mots (K nK^n).

Exercice : votre code linéaire sur /2\mathbb{Z}/2\mathbb{Z} (celui de distance 3) est-il un code 1-correcteur parfait ?

16.5.7  Codes de Hamming

Soit un code de longueur nn, de dimension kk, le nombre d’informations supplémentaires est noté m=nkm=n-k. Un code de Hamming permet une correction, donc la distance du code δ\delta est (au moins) 3. Si le code est parfait sur K=F dK=F_d, on a (1+n(d1))d k=d nn=d m1d1(1+n(d-1))d^k=d^{n} \Rightarrow n=\frac{d^m-1}{d-1}

Par exemple si d=2d=2 et m=4m=4 alors n=15n=15. Les codes possibles pour d=2d=2 sont :

Le cas m=4m=4 : il n’y a qu’une matrice de controle possible de taille (15,4)(15,4) telle que HxHx donne la position de l’erreur (en base 2), elle est obtenue en écrivant les entiers de 1 à 15 en base 2 H=(0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1)H=\left( \begin{array}{ccccccccccccccc} 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 & 1 & 1 & 1 & 1 \\ 0 & 0 & 0 & 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 \\ 0 & 1 & 1 & 0 & 0 & 1 & 1 & 0 & 0 & 1 & 1 & 0 & 0 & 1 & 1 \\ 1 & 0 & 1 & 0 & 1 & 0 & 1 & 0 & 1 & 0 & 1 & 0 & 1 & 0 & 1 \end{array} \right) on déplace les colonnes de la matrice identité (colonnes 1, 2, 4, 8) en fin pour écrire K=(C,I 4)K=(-C,I_4), le code correspondant est (I 11C)\left( ^{I_{11}} _C \right), il permet de corriger une erreur, on calcule HxHx et si le résultat est non nul, on change le bit d’indice HxHx en tenant compte de la permutation d’indices sur les colonnes de HH.

On peut aussi générer le code systématique comme suit :

  1. On repère les indices de bit en commençant à 1
  2. On écrit les indices de bit en base 2
  3. Les bits dont les indices sont des puissance de 2 sont des bits de parité
  4. Les autres bits sont des bits de donnée
  5. Les bits de parité sont calculés pour avoir parité paire selon les bits d’indice respectifs 1 mod 2 pour le bit de parité p1, selon les bits d’indice divisé par 2 valant 1 mod 2 pour le bit de parité p2, etc.
  6. Pour corriger une erreur, on corrige le bit dont la position écrite en base 2 a des 1 là où la parité est fausse.
Indice123456789101112131415
p1x x x x x x x x
p2 xx  xx  xx  xx
p4   xxxx    xxxx
p8       xxxxxxxx
 p1p2d1p4d2d3d4p8d5d6d7d8d9d10d11

Remarque
On peut aussi générer des codes de Hamming binaire comme codes polynomiaux associés à un polynôme irréductible primitif PP de Z/2Z[X]\Z/2\Z[X] de degré mm. En effet, on obtient ainsi un code de distance 3 au moins, puisque si un polynome QQ est multiple de PP et n’a que 2 monomes non nuls d’indice plus petits que n=2 m1n=2^m-1, en appliquant Q(α)=0Q(\alpha)=0 pour α\alpha un générateur de K=F 2 mK=F_{2^m} (puisque P(α)=0P(\alpha)=0), on en déduirait un ordre trop petit pour α\alpha. Et on a un code parfait 1-correcteur: si on a un mot de code, il n’y a rien à faire, si on est à distance 1, on prend le reste de la division du polynôme QQ par PP, on l’applique à α\alpha, on obtient un élément de K *K^* qui peut s’écrire comme une puissance de α\alpha. Il suffit donc de corriger le bit correspondant pour obtenir un mot de code. En pratique, on calcule Q(α)Q(\alpha) en reprśentation additive, si on n’obtient pas 0, on passe en représentation multiplicative et on corrige.

Exemple : le minitel utilisait d=2,m=7,n=2 m1=127,k=120d=2, m=7, n=2^m-1=127, k=120 avec P=x 7+x 3+1P=x^7+x^3+1, qui est un polynôme irréductible primitif (car 127 est premier).

Exercices
Écrire un programme codant et décodant avec correction d’au plus une erreur avec le code de Hamming binaire (7,3).

Écrire un programme codant et décodant avec correction d’au plus une erreur avec le code polynomial du Minitel.

16.6  Les codes de Reed-Solomon

Il s’agit de codes polynomiaux qui réalisent la distance maximale possible nk+1n-k+1. De plus la recherche du mot de code le plus proche peut se faire par un algorithme de Bézout avec arrêt prématuré.

16.6.1  Théorie

On se donne un générateur aa de F q *F_q^* et le polynôme g(x)=(xa)...(xa 2t)g(x)=(x-a)...(x-a^{2t}) (donc nk=2tn-k=2t). Typiquement q=2 mq=2^m avec m=8m=8, aa est une racine d’un polynôme irréductible de degré mm à coefficients dans /2\mathbb{Z}/2 qui ne divise pas x l1x^l-1 pour ll diviseur strict de 2 m12^m-1 (pour en construire, cf. le chapitre corps finis 16).

Distance du code
Si la longueur nn d’un mot vérifie n2 m1n \leq 2^m-1, alors la distance entre 2 mots du code est au moins de 2t+12t+1. En effet, si un polynome PP de degré <n&lt;n est un multiple de gg ayant moins de 2t+12t+1 coefficients non nuls, P(x)= k=1 2tp i kx i k,i k<n P(x)=\sum_{k=1}^{2t} p_{i_k} x^{i_k}, \quad i_k&lt;n en écrivant P(a)=...=P(a 2t)=0P(a)=...=P(a^{2t})=0, on obtient un déterminant de Van der Monde, on prouve qu’il est non nul en utilisant la condition i k<ni_k&lt;n et le fait que la première puissance de aa telle que a x=1a^x=1 est x=2 m1x=2^m-1.

Correction des erreurs
Soit c(x)c(x) le polynome envoyé, d(x)d(x) le polynôme recu, on suppose qu’il y a moins de tt erreurs d(x)c(x)=e(x)= k=1 να kx i k,νtd(x)-c(x)=e(x)= \sum_{k=1}^\nu \alpha_k x^{i_k}, \quad \nu \leq t On calcule le polynome syndrome : s(x)= i=0 2t1d(a i+1)x i= i=0 2t1e(a i+1)x i s(x)= \sum_{i=0}^{2t-1}d(a^{i+1}) x^i= \sum_{i=0}^{2t-1}e(a^{i+1}) x^i on a donc : s(x) = i=0 2t1 k=1 να k(a i+1) i kx i = k=1 να k i=0 2t1(a i+1) i kx i = k=1 να ka i k(a i kx) 2t1a i kx1 \begin{matrix} s(x) &= &\sum_{i=0}^{2t-1}\sum_{k=1}^\nu \alpha_k (a^{i+1})^{i_k} x^i \\ &=& \sum_{k=1}^\nu \alpha_k \sum_{i=0}^{2t-1}(a^{i+1})^{i_k} x^i\\ &=& \sum_{k=1}^\nu \alpha_k a^{i_k} \frac{(a^{i_k}x)^{2t}-1}{a^{i_k}x-1} \end{matrix} On pose l(x)l(x) le produit des dénominateurs (que l’on appelle polynôme localisateur, car ses racines permettent de trouver la position des symboles à corriger), on a alors l(x)s(x)= k=1 να ka i k((a i kx) 2t1) jk,j[1,ν](a i jx1)(18) l(x) s(x) = \sum_{k=1}^\nu \alpha_k a^{i_k} ( (a^{i_k}x)^{2t} -1 ) \prod_{j\neq k, j \in [1,\nu]} (a^{i_j}x -1) \qquad (18) Modulo x 2tx^{2t}, l(x)s(x)l(x)s(x) est donc un polynôme ww de degré inférieur ou égal à ν1\nu -1, donc strictement inférieur à tt. Pour le calculer, on applique l’algorithme de Bézout à s(x)s(x) et x 2tx^{2t} (dans F qF_q), en s’arrêtant au premier reste w(x)w(x) dont le degré est strictement inférieur à tt (au lieu d’aller jusqu’au calcul du PGCD de s(x)s(x) et x 2tx^{2t}). Les relations sur les degrés (cf. approximants de Padé et la preuve ci-dessous) donnent alors en coefficient de s(x)s(x) le polynôme l(x)l(x) de degré inférieur ou égal à tt. On en calcule les racines (en testant tous les éléments du corps avec Horner), donc la place des symboles erronés.

Pour calculer les valeurs α k\alpha_k, on reprend la définition de ww, c’est le terme de droite de l’équation (18) modulo x 2tx^{2t}, donc : w(x)= k=1 να ka i k(1) jk,j[1,ν](a i jx1) w(x)=\sum_{k=1}^\nu \alpha_k a^{i_k} (-1) \prod_{j\neq k, j \in [1,\nu]} (a^{i_j}x-1) Donc : w(a i k)=α ka i k jk,j[1,ν](a i ja i k1) w(a^{-i_k}) = - \alpha_k a^{i_k} \prod_{j\neq k, j \in [1,\nu]} (a^{i_j} a^{-i_k} -1) Comme : l(x)=(a i kx1) jk,j[1,ν](a i jx1) l(x)=(a^{i_k}x-1)\prod_{j\neq k, j \in [1,\nu]} (a^{i_j}x-1) on a : l(a i k)=a i k jk,j[1,ν](a i ja i k1) l'(a^{-i_k})=a^{i_k}\prod_{j\neq k, j \in [1,\nu]} (a^{i_j}a^{-i_k}-1) Finalement : α k=w(a i k)l(a i k) \alpha_k = -\frac{w(a^{-i_k})}{l'(a^{-i_k})}

16.6.2  Preuve du calcul de ll

On avait s(x)s(x) avec deg(s)<=2t1(s)&lt;=2t-1, il s’agissait de voir comment la solution u,v,ru,v,r calculee par Bezout u(x)x 2t+v(x)s(x)=r(x)(19) u(x) x^{2t}+ v(x) s(x) = r(x) \qquad (19) avec arrêt prématuré au 1er reste r(x)r(x) de degré <=t1&lt;=t-1 correspondait à l’équation l(x)s(x)=w(x)modx 2t l(x) s(x) = w(x) mod x^{2t} avec deg(l)<=t(l)&lt;=t et deg(w)<=t1(w)&lt;=t-1

On a vu que deg(v)<=t(v)&lt;=t. On commence par factoriser la puissance de xx de degré maximal pp dans v(x)v(x), et on simplifie (19) par x px^p. Quitte à changer vv et rr, on se ramene donc à: u(x)x 2tp+v(x)s(x)=r(x) u(x) x^{2t-p}+ v(x) s(x) = r(x) avec v(x)v(x) premier avec xx, deg(v)<=tp(v)&lt;= t-p et deg(r)<=t1p(r)&lt;= t-1-p. On simplifie ensuite par le pgcd de v(x)v(x) et de r(x)r(x) (qui divise u(x)u(x) car premier avec xx puisqu’on a déjà traité les puissances de xx). On a donc, quitte à changer de notation u,v,ru,v,r tels que u(x)x 2tp+v(x)s(x)=r(x) u(x) x^{2t-p}+ v(x) s(x) = r(x) avec vv et rr premiers entre eux, vv premier avec xx, deg(v)<=tp(v)&lt;=t-p et deg(r)<=t1p(r)&lt;=t-1-p (N.B.: p=0p=0 en general)

On observe que l(x)l(x) est premier avec xx (00 n’est pas racine de ll). On raisonne modulo x 2tpx^{2t-p}, ll et vv sont inversibles modulo x 2tpx^{2t-p}, donc s(x)=w(x)*inv(l)(modx 2tp),s(x)=r(x)*inv(v)(modx 2tp) s(x) = w(x)*inv(l) \pmod{ x^{2t-p}}, \quad s(x) = r(x)*inv(v) \pmod {x^{2t-p}} donc w(x)*inv(l)=r(x)*inv(v)(modx 2tp)w(x)*v(x)=r(x)*l(x)(modx 2tp) w(x)*inv(l)=r(x)*inv(v) \pmod{x^{2t-p}} \quad \Rightarrow \quad w(x)*v(x)=r(x)*l(x) \pmod {x^{2t-p}} donc w(x)*v(x)=r(x)*l(x)w(x)*v(x)=r(x)*l(x) à cause des majorations de degres

D’autre part par construction w(x)w(x) est premier avec l(x)l(x) (car chacun des facteurs de l(x)l(x) divise tous les éléments de la somme définissant w(x)w(x) sauf un), donc l(x)l(x) divise v(x)v(x), et comme v(x)v(x) est premier avec r(x)r(x), on en déduit que v(x)=Cl(x)v(x)=C l(x)CC est une constante non nulle, puis r(x)=Cw(x)r(x) = C w(x).

Bezout donne donc (après simplifications du couple v(x),r(x)v(x), r(x) par son pgcd) le polynome localisateur à une constante près (donc les racines et les positions des erreurs), et on peut calculer les valeurs des erreurs avec vv et rr car la constante CC se simplifie.

16.6.3  Avec Xcas

Ouvrir la session Aide->Exemples->crypto->reed_s

Chapitre 17  Factorisation des entiers et primalité.

Les principaux algorithmes utilisés dans Xcas sont les suivants :

crible(n):={
  local tab,prem,p;
  tab:=seq(j,j,0,n);
  prem:=[];
  tab[0]=<0; tab[1]=<0;
  p:=2;
  while (p*p<=n) {
    for (j:=p*p;j<=n;j+=p){
      tab[j]=<0;
    }
    p:=p+1;
    //afficher(tab);
    while ((p*p<=n) and (tab[p]==0)) {
      p:=p+1;
    } 
  }
  for (j:=2;j<=n;j++) {
    if (tab[j]!=0) { 
      prem:=append(prem,j);
    }
  } 
  return(prem);
}:;



17.1  Le test de primalité de Pocklington.

Théorème 42   Soit N>1N&gt;1 entier. S’il existe deux entiers aa et qq tels que
  • qq est un facteur premier de N1N-1 plus grand que N1\sqrt{N}-1,
  • a N1=1(modN)a^{N-1}=1 \pmod N
  • a (N1)/q1a^{(N-1)/q}-1 est premier avec NN
alors NN est premier.

Preuve : Si NN n’est pas premier, alors il a un facteur premier pNp\leq \sqrt{N}. Donc qq et p1p-1 sont premiers entre eux (car qq est premier et q>p1q&gt;p-1). Soit uu l’inverse de qq modulo p1p-1. Alors 1=a N1(modp)1=a^{N-1} \pmod p car pp divise NN. Donc 1=a u(N1)(modp)=(a uq) (N1)/q(modp)=a (N1)/q(modp)1=a^{u(N-1)} \pmod p = \left(a^{uq}\right)^{(N-1)/q} \pmod p = a^{(N-1)/q} \pmod p d’après le petit théorème de Fermat. Ceci contredit le fait que a (N1)/q1a^{(N-1)/q}-1 soit premier avec NN.

Le couple (a,q)(a,q) est alors un certificat de primalité pour NN. Le problème c’est que trouver a,qa,q peut être très difficile voire impossible. Mais il existe une généralisation de ce théorème qui est plus facile à réaliser

Théorème 43   Supposons que l’on sache factoriser N1=ABN-1=AB comme produit de deux entiers premiers entre eux avec A>NA&gt;\sqrt{N} dont la factorisation en produit de facteurs premiers est connue. Si pour tout facteur pp de AA il existe un entier a pa_p tel que a p N1=1(modN)a_p^{N-1}=1 \pmod N et a p (N1)/p1a_p^{(N-1)/p}-1 et NN sont premiers entre eux, alors NN est premier.

Preuve : soit vv un facteur premier de NN. Soit pp premier divisant AA et p ep^e la plus grande puissance de pp divisant AA. On va montrer que v=1(modp e)v=1 \pmod{p^e}. Par le lemme chinois on en déduira v=1(modA)v=1 \pmod A puis v>Nv&gt;\sqrt{N} ce qui est impossible pour au moins un facteur premier de NN.
Montrons donc que v=1(modp e)v=1 \pmod{p^e}. Soit b=a p (N1)/p e(modv)b=a_p^{(N-1)/p^e} \pmod v. Alors b p e=1(modv)b^{p^e}=1 \pmod v puisque vv divise NN et b p e1=a p (N1)/p(modv)1(modv)b^{p^{e-1}} = a_p^{(N-1)/p} \pmod v \neq 1 \pmod v puisque a p (N1)/p1a_p^{(N-1)/p}-1 et NN sont premiers entre eux. Donc l’ordre de bb modulo vv est p ep^e, et p ep^e divise v1v-1 CQFD.

Ce test nécessite de savoir factoriser N1N-1, au moins partiellement. Pour des NN grands, cela peut nécessiter de certifier que les facteurs obtenus sont eux-même premiers, ce qui peut nécessiter une sorte d’appel récursif du test. C’est l’étape difficile, la recherche des a pa_p n’est pas un blocage en pratique.

17.2  La méthode ρ\rho de Pollard

Théorème des anniversaires : la probabilité que nn éléments pris au hasard parmi NN soient distincts 2 à 2 pour n=a(N))n=a \sqrt(N)) et NN\rightarrow \infty est équivalente à e a 2/2e^{-a^2/2}, et peut donc être rendue arbitrairement petite.

En effet, cette probabilité vaut P=1(11N)(12N)...(1n1N)P=1(1-\frac1N)(1-\frac2N)...(1-\frac{n-1}{N}) donc ln(P)= k=0 n1ln(1kN)-\ln(P)=\sum_{k=0}^{n-1} -\ln(1-\frac{k}{N}) on reconnait une méthode de rectangles pour approcher ln(1t)\int -\ln(1-t), fonction croissante positive sur +\mathbb{R}^+ d’où l’encadrement 0 n1ln(1tN)dtln(P) 1 nln(1tN)dt\int_{0}^{n-1} -\ln(1-\frac{t}{N}) \, dt \leq -\ln(P) \leq \int_{1}^{n} -\ln(1-\frac{t}{N}) \, dt On intègre par parties, en posant 1=(Nt)-1=(N-t)' ln(1tN)dt=(Nt)ln(1tN)+dt=(Nt)ln(1tN)+t\int -\ln(1-\frac{t}{N}) \, dt = (N-t) \ln(1-\frac{t}{N}) + \int \ dt = (N-t) \ln(1-\frac{t}{N}) + t Si t/N=o(1)t/N=o(1) la primitive vaut : (Nt)(tNt 22N 2+O(t 3N 3)+t=t 22N+O(t 3N 2)(N-t)(-\frac{t}{N}-\frac{t^2}{2N^2}+O(\frac{t^3}{N^3})+t =-\frac{t^2}{2N} + O(\frac{t^3}{N^2}) Donc pour n=aNn=a\sqrt{N}, on a : a 22+O(N 1)ln(P)a 22+O(N 1)\frac{a^2}{2}+ O(\sqrt{N}^{-1}) \leq -\ln(P) \leq \frac{a^2}{2}+ O(\sqrt{N}^{-1}) d’où le résultat annoncé.

Application : si nn est composé, on prend des entiers modulo nn générés par une suite récurrente x k+1=f(x k)(modn)x_{k+1}=f(x_k) \pmod n, on espère qu’ils ont de bonne propriétés de répartition, et on regarde s’ils sont distincts modulo pppp est le plus petit facteur de nn. Il suffira d’en générer O(p)O(\sqrt{p}) pour avoir une bonne proba d’en trouver deux égaux modulo pp. Comme on ne connait pas pp, le test d’égalité modulo pp se fait en calculant le pgcd de nn et de la différence des 2 entiers modulo nn, qui doit être non trivial. La fonction ff peut par exemple être xx 2+1x \rightarrow x^2+1 (ou x 21x^2-1 ou x 2+3x^2+3)1. On ne teste pas toutes les différences de paires d’entiers générés, car ce serait trop long, mais les x 2kx kx_{2k}-x_k pour k=1,2,...k=1,2,... ce qui suffit car la suite x kx_k est ultimement périodique (le dessin d’une suite ultimement périodique est un ρ\rho d’où la méthode tire son nom). Le calcul nécessite donc O(p*ln(n) 2)O(\sqrt{p}*\ln(n)^2) opérations (ce qui est toujours mieux que la division triviale car pnp \leq \sqrt{n}).

17.3  Le crible quadratique

On cherche des relations x 2=y 2(modN)x^2=y^2 \pmod N, en espérant trouver un facteur de NN en calculant pgcd(xy,N)(x-y,N). Problème trop difficile, à la place on va essayer de factoriser sur une base de "petits" nombre premiers des x i 2Nx_i^2-N pour xx proche de N\sqrt{N} (nombre friable). La taille de la base dépend de la taille de NN. La recherche de x 2x^2 se fait par produit de x ix_i tel qu’il n’apparaisse que des carrés de la base des petits nombres premiers, ce qui s’obtient en résolvant un gros système linéaire à coefficient dans /2\mathbb{Z}/2\mathbb{Z}. Pour trouver les x ix_i on utilise un crible: sachant que si on a une solution de x 2N=0(modp)x^2-N=0 \pmod p, alors x+px+p, x+2px+2p, etc. le seront aussi, on a facilement les xx tels que x 2Nx^2-N est divisible par pp à partir des 2 racines carrées de NN modulo pp si elles existent (sinon on ne met pas ces racines dans la base de petits premiers!). Le crible consiste à incrémenter de log(p)\log(p) tous les éléments d’un tableau dont l’indice correspond à un xx tel que x 2Nx^2-N est divisible par pp. Lorsqu’on a parcouru tous les premiers de la base de nombres premiers, on regarde dans le tableau les valeurs assez grandes vont correspondre à des possibilités d’entiers friables, on factorise alors les x i 2Nx_i^2-N correspondants pour avoir des relations. Dès qu’on a kk+une marge de sécurité (par exemple 20 ou 50) relations où kk est le nombre de premiers de la base on est sur qu’on trouvera une vingtaine ou une cinquantaine de relations x 2=y 2(modN)x^2=y^2 \pmod N. Comme chaque relation a une chance sur 2 de donner un facteur de NN, on pourra factoriser NN, sauf malchance vraiment exceptionnelle!

17.3.1  Recherche de racine carrée modulo p

Pour trouver les solutions xx de x 2Nx^2-N divisible par pp, il faut calculer les racines carrées de NN modulo pp. On procède comme suit :


1
Il n’existe à ma connaissance pas de résultat sur pourquoi ces choix de ff donnent des entiers bien répartis par rapport au hasard

Chapitre 18  Factorisation des polynômes.

On présente ici quelques algorithmes utilisés pour factoriser un polynôme à coefficients entiers, pour la recherche de racines approchées d’un polynôme, cf. la section 21.7. Pour un polynôme en une variable, cele se fait en plusieurs étapes : on commence par se ramener à un polynôme PP dont tous les facteurs sont de multiplicité un, ensuite on factorise PP dans /p\mathbb{Z}/p\mathbb{Z} (par la méthode de Berlekamp ou Cantor-Zassenhauss), puis on remonte à /p kZ\mathbb{Z}/p^k Z pour kk suffisamment grand (en fonction de la borne de Landau sur les facteurs de PP), et on recombine enfin les facteurs modulaires pour trouver les facteurs de PP. Lorsque PP à plusieurs variables, on utilise une méthode analogue à celle permettant de trouver le pgcd de polynômes à plusieurs variables.

Rappel
Le pgcd des coefficients d’un polynôme est appelé contenu de ce polynôme. Un polynôme est dit primitif si son contenu est égal à 1.

18.1  Les facteurs multiples

Étant donné un polynôme PP à coefficients entiers, on cherche à écrire : P=Π k=1 nP k k P=\Pi_{k=1}^n P_k^k où les P kP_k n’ont pas de facteurs multiples et sont premiers entre eux deux à deux. Comme on est en caractéristique 0, cela revient à dire que pgcd(P k,P k)=1(P_k,P_k')=1 et pgcd(P k,P j)=1(P_k,P_j)=1. Bien entendu on va utiliser la dérivée de PP dans l’algorithme de recherche des P kP_k : P= k=1 nkP kP k k1Π jkP j j P'=\sum_{k=1}^n kP_k' P_k^{k-1} \Pi_{j\neq k} P_j^j Soit GG le pgcd de PP et de PP'. On a : G=Π k=1 nP k k1, G=\Pi_{k=1}^n P_k^{k-1}, en effet GG divise PP et PP' : W 1=PG=Π k=1 nP k,Z 1=PG= k=1 nkP kΠ jkP j W_1=\frac{P}{G}=\Pi_{k=1}^n P_k, \quad Z_1=\frac{P'}{G}=\sum_{k=1}^n kP_k'\Pi_{j\neq k} P_j il s’agit de vérifier que W 1W_1 et Z 1Z_1 sont premiers entre eux. Soit FF un facteur irréductible du pgcd de W 1W_1 et Z 1Z_1, alors FF divise l’un des P kP_k, appelons P lP_l ce facteur. Comme FF divise Π jkP j\Pi_{j\neq k} P_j si klk\neq l, on en déduit que FF divise le dernier terme de la somme de Z 1Z_1, c’est-à-dire que FF divise lP lΠ jlP jlP_l'\Pi_{j\neq l} P_j donc FF divise P lP_l' puisque les P kP_k sont premiers entre eux. Donc P lP_l et P lP_l' ont un facteur en commun, ce qui est contraire aux hypothèses.

On pose alors : Y 1=Z 1W 1= k>1(k1)P kΠ jkP j Y_1=Z_1-W_1'=\sum_{k&gt;1} (k-1)P_k' \Pi_{j\neq k} P_j On définit alors par récurrence des suites de polynômes W nW_n, Y nY_n et G mG_m par :

On va montrer que P m=G mP_m=G_m. Commençons au rang n=1n=1, on voit que P 1P_1 divise Y 1Y_1 (puisqu’il est commun à tous les Π jkP j\Pi_{j\neq k} P_j car k>1k&gt;1) et divise W 1W_1. Et c’est le seul facteur commun, car tout autre facteur irréductible serait un diviseur d’un P lP_l pour l>1l&gt;1, donc diviserait (l1)P lΠ jl,j>1P j(l-1)P_l'\Pi_{j\neq l,j&gt;1} P_j, donc diviserait P lP_l'. Le raisonnement en un rang quelconque est identique, les polynômes sont donnés par : G m=P m,W m=Π k>=mP k,Y m= k>m(km)P kΠ jm,jkP j G_m=P_m, \ W_{m}=\Pi_{k&gt;=m} P_k, \ Y_{m}=\sum_{k&gt;m} (k-m)P_k'\Pi_{j\geq m, j\neq k} P_j

Lorsqu’on programme cet algorithme, le test d’arrêt est G m=1G_m=1.

Square-free factorisation (Algorithme de Yun)
Argument: un polynôme primitif PP à coefficients entiers (ou dans [i]\mathbb{Z}[i] ou dans un corps de caractéristique nulle).
Valeur renvoyée: une liste de polynômes P mP_m telle que P=Π k=1 nP k kP=\Pi_{k=1}^n P_k^k.

  1. Initialiser la liste résultat à liste vide.
  2. Initialiser WW à PP et YY à PP'. Calculer le pgcd GG de WW et YY et simplifier WW et YY par leur pgcd puis poser Y=YWY=Y-W'.
  3. Boucle tant que Y0Y\neq 0.
  4. Calculer le pgcd GG de WW et YY. Ajouter GG à la liste résultat.
  5. Simplifier WW et YY par GG, puis poser Y=YWY=Y-W' et passer à l’itération suivante.

Exemple :
Factorisation sans facteurs multiples de P(X)=(X 31)(X+2) 2(X 2+3) 3P(X)=(X^3-1)(X+2)^2(X^2+3)^3. En mode interactif avec un logiciel de calcul formel, effectuons l’étape d’initialisation :

W:=normal((x^3-1)*(x+2)^2*(x^2+3)^3);
Y:=diff(W,x);
G:=gcd(W,Y);
        x^5+2*x^4+6*x^3+12*x^2+9*x+18
W:=normal(W/G); 
        x^6+2*x^5+3*x^4+5*x^3+-2*x^2+-3*x-6
Y:=normal(Y/G);
Y:=normal(Y-diff(W,x));
        5*x^5+8*x^4+3*x^3+-5*x^2+-8*x-3

On vérifie bien que W=(x+2)*(x 31)*(x 2+3)W=(x+2)*(x^3-1)*(x^2+3) est le produit des facteurs P iP_i. On entame maintenant la boucle :

G:=gcd(W,Y);
        x^3-1   -> P1
Y:=normal(Y/G);
W:=normal(W/G);
Y:=normal(Y-diff(W,x));
        2*x^2+4*x
G:=gcd(W,Y);
        x+2     -> P2
Y:=normal(Y/G);
W:=normal(W/G);
Y:=normal(Y-diff(W,x));
        0
G:=gcd(W,Y);
        x^2+3   ->  P3

puis W=1W=1 et Y=0Y=0 et le prochain GG vaut 1, on a bien trouvé tous les facteurs P iP_i.

Remarque : lorsqu’on veut factoriser un polynôme à coefficients modulaires, il faut aussi se ramener à un polynôme sans facteurs multiples mais l’algorithme doit être adapté car la caractéristique du corps n’est pas nulle. Ainsi le pgcd GG de PP et PP' contient P k kP_k^k au lieu de P k k1P_k^{k-1} lorsque kk est multiple de pp, donc W 1W_1 ne contient pas les P kP_k pour k=0(modp)k=0 \pmod p et Z 1=PG= k=1 n(k(modp))P kΠ jkP jZ_1=\frac{P'}{G}=\sum_{k=1}^n (k \pmod p) P_k'\Pi_{j\neq k} P_j Dans le déroulement de l’algorithme, les facteurs de même multiplicité modulo pp vont être déterminés en même temps, G m=Π k(modp)=mP kG_m=\Pi_{k \pmod p=m} P_k Pour les distinguer, et déterminer la bonne puissance de chaque on calcule le quotient QQ de P/G m mP/G_m^m. Puis on fait une boucle sur un indice ll débutant à 0 :

À la fin de l’algorithme, on aura extrait de PP Π k(modp)0P k k\Pi_{k\pmod p \neq 0} P_k^{k} il restera donc des puissances multiples de pp, le polynôme quotient peut alors s’écrire comme une puissance pp-ième d’un polynôme à qui il faut appliquer récursivement l’algorithme.

18.2  Factorisation en une variable

On suppose maintenant qu’on veut factoriser un polynôme PP sans facteur multiple (et primitif). En général on commence par simplifier PP par ses facteurs linéaires (détectés avec l’algorithme présenté dans le premier article de cette série). On commence par chercher un nombre premier pp tel que PP dans /p\mathbb{Z}/p\mathbb{Z} conserve le même degré et reste sans facteur multiple (donc pgcd(P,P)(P,P')=1 dans /p\mathbb{Z}/p\mathbb{Z}), ce qui est toujours possible (il suffit de prendre pp plus grand que le plus grand entier apparaissant dans l’algorithme du sous-résultant pour calculer le pgcd de PP et PP' dans \mathbb{Z}).

Convention
Tous les polynômes ayant leurs coefficients dans un corps fini sont supposés avoir comme coefficient dominant 1 lorsque le choix existe (par exemple les facteurs d’un polynôme modulo pp).

18.2.1  Factorisation dans /p[X]\mathbb{Z}/p\mathbb{Z}[X]

On suppose qu’on a un polynôme PP à coefficients dans /p\mathbb{Z}/p\mathbb{Z} sans facteur multiple. Il s’agit de factoriser PP dans /p[X]\mathbb{Z}/p\mathbb{Z}[X]. Il existe essentiellement deux stratégies, l’une commence par factoriser par groupes de facteurs de même degré puis casse les facteurs et l’autre plus directe à base d’algèbre linéaire modulaire (méthode de Berlekamp). Dans les deux cas, on utilise le fait que si FF est un polynôme, alors les polynômes à coefficients dans /p\mathbb{Z}/p\mathbb{Z} modulo FF forment un anneau AA qui est aussi un espace vectoriel sur /p\mathbb{Z}/p\mathbb{Z} de dimension le degré de FF (si FF est irréductible, alors AA est un corps). On s’intéresse alors aux propriétés de l’application φ:xAx p\varphi: x \in A \mapsto x^p. On observe d’abord que cette application est une application linéaire. Cela découle du petit théorème de Fermat pour φ(λx)=λφ(x)\varphi(\lambda x)=\lambda \varphi(x) et de la formule de Newton et de la primalité de pp pour φ(x+y)=φ(x)+φ(y)\varphi(x+y)=\varphi(x)+\varphi(y).

Calcul de φ\varphi
Pour mettre en oeuvre ces algorithmes, on commence par déterminer la matrice de l’endomorphisme φ:xx p\varphi: x \mapsto x^p dans /p[X](modP(X))\mathbb{Z}/p\mathbb{Z}[X] \pmod {P(X)} muni de sa base canonique {1,X,...,X deg(P)1}\{ 1, X,...,X^{\mbox{deg}(P)-1} \}.

18.2.2  Distinct degree factorization

Cette méthode consiste à détecter les groupes de facteurs ayant un degré donné (distinct degree factorization). Si nécessaire, on utilise ensuite un autre algorithme pour casser ces groupes. On utilise ici les propriétés des itérées de l’application linéaire φ\varphi sur des espaces vectoriels de corps de base /p\mathbb{Z}/p\mathbb{Z}. On va déterminer le produit P kP_k de tous les facteurs de PP de degré kk en calculant le pgcd de PP et de X (p k)XX^{(p^k)}-X dans /p[X]\mathbb{Z}/p\mathbb{Z}[X].

Pour k=1k=1, X pXX^p-X est le produit des XkX-k pour tout k/pk\in \mathbb{Z}/p\mathbb{Z} par le petit théorème de Fermat (k p=k(modp)k^p=k \pmod p), donc le pgcd de PP et de X (p 1)XX^{(p^1)}-X dans /p[X]\mathbb{Z}/p\mathbb{Z}[X] est le produit des facteurs de PP de degré 1.

Pour k>1k&gt;1, le raisonnement se généralise de la manière suivante : on considère un facteur irréductible F(X)F(X) de PP de degré kk et le corps K=(/p)[Y](modF(Y))K=(\mathbb{Z}/p\mathbb{Z})[Y] \pmod{F(Y)}. Le corps KK est un corps fini, c’est aussi un espace vectoriel sur /p\mathbb{Z}/p\mathbb{Z} de dimension kk, donc KK possède p kp^k éléments et K *K^* est un groupe multiplicatif à p k1p^k-1 éléments, donc tout élément de K *K^* vérifie l’équation x p k1=1x^{p^k-1}=1 donc tout élément de KK vérifie x (p k)=xx^{(p^k)}=x. En particulier pour x=Y(modF(Y))x=Y \pmod {F(Y)} on trouve que Y (p k)=Y(modF(Y))Y^{(p^k)}=Y \pmod {F(Y)} donc F(X)F(X) divise X (p k)XX^{(p^k)}-X dans /p\mathbb{Z}/p\mathbb{Z}.

Réciproquement, si on se donne un facteur irréductible FF qui divise X p kXX^{p^k}-X, soit KK le corps correspondant à FF, alors le noyau de l’application linéaire xKx p kxK x \in K \mapsto x^{p^k}-x \in K est KK tout entier, car Y=Y p k(modF)Y=Y^{p^k} \pmod F entraine (Y 2) (p k)=Y 2p k=(Y p k) 2=Y 2(modF)(Y^2)^{(p^k)}=Y^{2 p^k}=(Y^{p^k})^2=Y^2 \pmod F et de même pour les autres puissances de YY qui, avec Y 0=1Y^0=1 également dans le noyau, forment une base de l’espace vectoriel KK sur /p\mathbb{Z}/p\mathbb{Z}. Donc le nombre d’éléments de KK est inférieur ou égal au degré du polynôme X p kXX^{p^k}-X (puisque X (p k)XX^{(p^k)}-X est divisible par XxX-x pour tout xKx\in K), donc le degré de FF est inférieur ou égal à kk. (En fait ff, le degré de FF, doit diviser kk, en effet si qq et rr sont le quotient et le reste de la division de kk par ff, X=X p k(modF)=X p qf+r(modF)=X p r(modF)X=X^{p^k} \pmod F =X^{p^{qf+r}} \pmod F=X^{p^r} \pmod F le polynôme x p rxx^{p^r}-x admet alors p fp^f racines dans le corps ce qui n’est possible que si r=0r=0 car sinon son degré p rp^r serait trop petit p r<p fp^r&lt;p^f).

Donc P kP_k est égal au pgcd de P/Π j<kP jP/\Pi_{j&lt;k} P_j avec X p kXX^{p^k}-X.

Algorithme distinct degree factorization
Argument: un polynôme PP à coefficients entiers sans facteur multiple et primitif.
Valeur renvoyée: la liste LL des produits des facteurs irréductibles et du degré correspondant de PP (ordonné par ordre croissant de degré).
On commence par initialiser LL à vide et un polynôme auxiliaire QQ à XX (il contiendra les valeurs de X p kX(modP)X^{p^k}-X \pmod P), on fait une boucle indéfinie sur kk commençant à 1 et incrémenté de 1 à chaque itération

Exemple :
Factorisation en degré distincts de (X 3+X+1)(X 4X+1)(X^3+X+1)(X^4-X+1) dans /5\mathbb{Z}/5\mathbb{Z}. On regarde d’abord si PP reste sans facteur multiple après réduction modulo 5.

P:=normal((x^3+x+1)*(x^4-x+1) mod 5);
gcd(P,diff(P,x));
    1 mod 5  -> ok P est sans facteur multiple
P1:=gcd(P,(x^5-x)mod 5);
    (1 mod 5)*x -2 mod 5  -> P1
P:=normal(P/P1);
P2:=gcd(P,(x^(5^2)-x)mod 5);
    1 mod 5  -> pas de facteur de degre 2
P3:=gcd(P,(x^(5^3)-x)mod 5);
    (x^6+2*x^5+x^2+x+2) mod 5

Donc PP admet 3 facteurs dans /5\mathbb{Z}/5\mathbb{Z}: un de degré 1 (x2x-2) et deux de degré 3 (dont le produit est x 6+2x 5+x 2+x+2x^6+2x^5+x^2+x+2).

Le même calcul dans /7\mathbb{Z}/7\mathbb{Z} donne

P:=normal((x^3+x+1)*(x^4-x+1) mod 7);
gcd(P,diff(P,x));
    1 mod 7  -> ok P est sans facteur multiple
P1:=gcd(P,(x^7-x)mod 7);
    1 mod 7
P2:=gcd(P,(x^(7^2)-x)mod 7);
    1 mod 7
P3:=gcd(P,(x^(7^3)-x)mod 7);
    (x^3+x+1) mod 7

donc PP possède un facteur de degré 3 modulo 7, donc le facteur restant de degré 4 est forcément irréductible.

On remarque sur cet exemple que 7 est plus intéressant que 5, car la factorisation modulo 7 donne moins de facteurs (à recombiner pour trouver la factorisation dans \mathbb{Z}) et la factorisation est complète modulo 7 alors que modulo 5 il faut casser le facteur de degré 6 en deux facteurs de degré 3. La plupart des algorithmes de factorisation effectuent la factorisation en degré distinct modulo plusieurs entiers (ce qui peut de plus être parallélisé) et choisissent le meilleur.

18.2.3  La méthode de Cantor-Zassenhaus

Cet algorithme sert à casser des groupes de facteurs de même degré, c’est une méthode probabiliste. On suppose donc qu’on a un produit PP d’au moins deux facteurs irréductibles de degré dd à casser. Soit DD l’un des polynômes irréductibles de degré dd à coefficients dans /p\mathbb{Z}/p\mathbb{Z}, et soit K=/p[Y](modD(Y))K=\mathbb{Z}/p\mathbb{Z}[Y] \pmod {D(Y)}, on a : X p dX=Π αK(Xα)X^{p^d}-X=\Pi_{\alpha \in K }(X-\alpha) puisque le corps KK possède p dp^d éléments tous racines de l’équation X p d=XX^{p^d}=X.

On considère un polynôme TT non constant, et le polynôme T p dTT^{p^d}-T. En remplaçant XX par TT ci-dessus, on en déduit : T p dT=Π αK(Tα)T^{p^d}-T=\Pi_{\alpha \in K }(T-\alpha) Donc pour tout élément βK=/p[Y](modD(Y))\beta \in K=\mathbb{Z}/p\mathbb{Z}[Y] \pmod {D(Y)}, on a (T p dT)(β)=Π αK(T(β)α)=0(T^{p^d}-T)(\beta)=\Pi_{\alpha \in K }(T(\beta)-\alpha)=0 Donc T p dTT^{p^d}-T est divisible par X p dXX^{p^d}-X (puisque toutes les racines du second sont racines du premier), donc est divisible par tout polynôme irréductible de degré divisant dd à coefficients dans Z/pZ/p\mathbb{Z}. Comme T p dT=T(T p d121)(T p d12+1)(20) T^{p^d}-T=T(T^{\frac{p^d-1}{2}}-1)(T^{\frac{p^d-1}{2}}+1) \qquad (20) et que ces trois facteurs sont premiers entre eux, on en déduit que tout polynôme irréductible de degré divisant dd à coefficients dans Z/pZ/p\mathbb{Z} divise l’un des trois facteurs ci-dessus. Pour casser PP, l’idée consiste alors à calculer le pgcd de PP et T p d121T^{\frac{p^d-1}{2}}-1 pour un polynôme pris au hasard. On sait que PP divise le produit des 3 termes de (20), et on espère que les facteurs irréductibles de PP ne diviseront pas tous le même terme.

On va montrer que si TT est un polynôme de degré 2d1\leq 2d-1 choisi au hasard, la probabilité que deux facteurs irréductibles de PP ne divisent pas simultanément T 12(p d1)TT^{\frac{1}{2}(p^d-1)}-T est proche de 1/2. Soient donc AA et BB deux facteurs irréductibles de PP de degré dd. D’après l’identité de Bézout, tout polynôme TT de degré 2d1\leq 2d-1 s’écrit de manière unique sous la forme : T=AU+BV(21) T = A U + B V \qquad (21) avec degre(Ud1U \leq d-1) et degre(Vd1V \leq d-1) et réciproquement une combinaison linéaire de cette forme est un polynôme de degré 2d1\leq 2d-1. Choisir TT au hasard revient donc à choisir un couple (U,V)(U,V) de polynômes à coefficients dans /p\mathbb{Z}/p\mathbb{Z} au hasard et de manière indépendante. D’autre part, AA et BB étant de degré dd, on sait que dans K=/p[Y](modD(Y))K=\mathbb{Z}/p\mathbb{Z}[Y] \pmod{D(Y)} ces polynômes admettent dd racines. Soit donc α\alpha [respectivement β\beta] une racine de AA [resp. BB] dans KK. Alors AA divise T p d121T^{\frac{p^d-1}{2}}-1 si et seulement si T(α) p d12=1T(\alpha )^{\frac{p^d-1}{2}}=1 (et de même pour BB et β\beta) car T p d121T^{\frac{p^d-1}{2}}-1 a ses coefficients dans /p\mathbb{Z}/p\mathbb{Z} (et non dans KK). En appliquant (21), AA divise T p d121T^{\frac{p^d-1}{2}}-1 si et seulement si : B(α) p d12V(α) p d12=1 B(\alpha )^{\frac{p^d-1}{2}}V(\alpha )^{\frac{p^d-1}{2}}=1 Le premier terme de cette égalité est une constante égale à 1 ou -1, le second a une probabilité proche de 0.5 (égale à p d12p d\frac{p^d-1}{2p^d}) de valoir 1 ou -1 car, comme AA est irréductible, V(α)V(\alpha) décrit KK lorsque VV décrit les polynômes de degré d1\leq d-1. De même, BB a une probabilité proche de 0.5 de diviser T p d121T^{\frac{p^d-1}{2}}-1, et ces 2 probabilités sont indépendantes puisque UU et VV le sont, donc la probabilité que soit AA soit BB divise divise T p d121T^{\frac{p^d-1}{2}}-1 est proche de 0.5.

Algorithme de Cantor-Zassenhaus
Argument: Un polynôme PP à coefficients dans /p\mathbb{Z}/p\mathbb{Z} de degré kk dont tous les facteurs irréductibles sont de degré dd.
Valeur renvoyée: la liste des facteurs irréductibles de PP.

Exemple :
Cassons le polynôme de degré 6 obtenu dans l’exemple précédent (modulo 5). Donc P:=(x 6+2*x 5+x 2+x+2)(mod5)P:=(x^6+2*x^5+x^2+x+2) \pmod 5 et d=3d=3, 2d1=52d-1=5, (p d1)/2=62(p^{d}-1)/2=62. On choisit au hasard un polynôme de degré inférieur ou égal à 5, par exemple T=x 4x 3+x+1T=x^4-x^3+x+1, puis on calcule T 62T^{62} modulo PP ce qui donne (x 5+x 3+x 2+1)(mod5)(x^5+x^3+x^2+1) \pmod 5 puis le pgcd de T 621T^{62}-1 et de PP qui vaut x 3+x+1(mod5)x^3+x+1 \pmod 5, on a donc cassé PP en deux. En prenant T:=x 4x 3+x+2T:=x^4-x^3+x+2, on trouve T 62=1(modP)T^{62}=1 \pmod P, donc ce TT n’aurait pas permis de casser PP.

En caractéristique p=2p=2, comme p d1p^d-1 n’est pas divisible par 2, il faut adapter, on utilise alors l’identité P(P+1)=x 2 dx,P=x+x 2+...+x 2 d1P(P+1)=x^{2^d}-x, \quad P=x+x^2+...+x^{2^{d-1}} (pour calculer P 2P^2 on utilise la linéarité de l’application xx 2x \rightarrow x^2).

18.2.4  La méthode de Berlekamp

Cette méthode permet de factoriser un polynôme sans facteurs multiples, elle peut aussi servir à casser des groupes de facteurs de même degré. Ici on travaille dans l’anneau des polynômes à coefficients dans /p\mathbb{Z}/p\mathbb{Z} modulo le polynôme PP et on s’intéresse au noyau de φId\varphi-Id (où φ:xx p\varphi: x \mapsto x^p). On suppose que P=Π j=1 nF jP=\Pi_{j=1}^n F_j où les F jF_j sont irréductibles et premiers entre eux. On va montrer que le noyau de φId\varphi-Id est composé des polynômes QQ tels que Q(modF j)Q \pmod {F_j} est constant (dans /p\mathbb{Z}/p\mathbb{Z}) pour tout jj.

Si Q(modF j)=s j/pQ \pmod {F_j}=s_j \in \mathbb{Z}/p\mathbb{Z}, alors Q p(modF j)=s j p=s jQ^p \pmod {F_j}=s_j^p=s_j, donc par le théorème des restes chinois, Q=Q p(modP)Q=Q^p \pmod P.

Réciproquement, si Q pQ=0(modP)Q^p-Q=0 \pmod P, en utilisant la factorisation : X pX=Π j/p(Xj) X^p-X= \Pi_{j \in \mathbb{Z}/p\mathbb{Z} } (X-j) on en tire PP divise Q pQ=Π j/p(Q(X)j)Q^p-Q=\Pi_{j \in \mathbb{Z}/p\mathbb{Z} } (Q(X)-j), donc F jF_j divise l’un des facteurs et Q(X)(modF j)/pQ(X) \pmod {F_j} \in \mathbb{Z}/p\mathbb{Z}. Le noyau de φId\varphi -Id est donc un espace vectoriel de dimension nn, le nombre de facteurs irréductibles de PP et possède donc p np^n éléments (en effet pour tout nn uplet de s js_j, on peut construire un polynôme QQ du noyau par le théorème des restes chinois en posant Q(modF j)=s jQ\pmod {F_j}=s_j).

L’intérêt du noyau de φId\varphi-Id est qu’on peut le calculer sans connaitre les F jF_j. Une fois ce calcul fait, voyons comment on peut remonter aux F jF_j. On connait déjà la dimension du noyau donc le nombre de facteurs irréductibles. De plus, on remarque que le polynome constant 1 est un élément du noyau qu’on appellera T 1T_1, on note alors T 2,...,T nT_2,...,T_n les autres polynômes unitaires d’une base du noyau. Ensuite, on calcule le pgcd de PP avec T 2jT 1T_2-jT_1 pour j/pj\in \mathbb{Z}/p\mathbb{Z}. On sait que T 2=s 2,k(modF k)T_2=s_{2,k} \pmod {F_k}, donc pgcd(P,T 2jT 1)(P,T_2-jT_1) est égal au produit des facteurs F kF_k tels que s 2,k=js_{2,k}=j. L’un au moins des pgcd calculés est non trivial car sinon T 2=jT 1(modF k)T_2=jT_1 \pmod{F_k} pour tout kk donc T 2=jT 1T_2=jT_1. Si on a de la chance tous les s 2,js_{2,j} seront distincts et les pgcd non triviaux de PP avec T 2jT 1T_2-jT_1 donneront les F kF_k. Sinon il faudra continuer avec T 3jT 1T_3-jT_1 etc.

Exemple :
Revenons sur la factorisation de P:=(x 6+2x 5+x 2+x+2)(mod5)P:=(x^6+2x^5+x^2+x+2) \pmod 5. Commençons par calculer la matrice de φ\varphi dans la base {1,x,x 2,...,x 5}\{ 1,x,x^2,...,x^5\}. On a évidemment φ(1)=1\varphi(1)=1 et φ(x)=x 5\varphi(x)=x^5, puis φ(x 2)=x 10=x 5+x 42x 3+x(modP)\varphi(x^2)=x^{10}=x^5+x^4-2x^3+x \pmod P, puis en multipliant par x 5x^5 et en divisant par PP, φ(x 3)=x 4+2x 3\varphi(x^3)=-x^4+2x^3, de la même manière on obtient φ(x 4)=x 5+2x 4+x 3x 22\varphi(x^4)=-x^5+2x^4+x^3-x^2-2 et φ(x 5)=x 3+x 2x\varphi(x^5)=x^3+x^2-x. La matrice de φ\varphi est donc : M=(1 0 0 0 2 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 2 2 1 1 0 0 1 1 2 0 0 1 1 0 1 0 ) M=\left( \begin{array}{cccccc} 1& 0& 0 &0 &-2&0\\ 0& 0& 1 &0 &0 &-1\\ 0& 0& 0 &0 &-1&1\\ 0& 0& -2&2 & 1&1\\ 0& 0& 1 &-1& 2&0\\ 0& 1& 1 &0 &-1&0\\ \end{array} \right) On calcule ensuite le noyau de φId\varphi-Id (comme matrice à coefficients dans /5\mathbb{Z}/5\mathbb{Z}), on obtient une base du noyau en prenant par exemple les vecteurs (1,0,0,0,0,0)(-1,0,0,0,0,0) et (0,0,1,1,0,1)(0,0,-1,-1,0,-1). Donc le polynôme PP possède 2 facteurs dans /5[X]\mathbb{Z}/5\mathbb{Z}[X]. Pour déterminer les facteurs, on calcule le pgcd de PP avec le polynôme T 2sT_2-sT 2=x 5x 3x 2T_2=-x^5-x^3-x^2 correspond au 2ème vecteur de la base du noyau. On obtient pour s=0s=0 un pcgd non trivial (x 3+x+1x^3+x+1), ce qui permet de calculer les 2 facteurs. Si on avait essayé d’autres valeurs de ss, pour s=1s=1 on obtient comme pgcd 1, pour s=2s=2 on trouve le 2ème facteur x 3+2x 2x+2x^3+2x^2-x+2.

18.2.5  Remontée (Hensel)

Il s’agit de passer d’une factorisation de PP dans /p[X]\mathbb{Z}/p\mathbb{Z}[X] à une factorisation de PP dans /p kZ[X]\mathbb{Z}/p^k Z[X], la méthode est analogue à celle de l’algorithme EZGCD de calcul de pgcd de polynômes.

On suppose donc que P=Π j=1 nP j(modp) P=\Pi_{j=1}^n P_j \pmod p où les P jP_j sont premiers entre eux deux à deux dans /p\mathbb{Z}/p\mathbb{Z}. Il s’agit de trouver des polynômes P j,k=P j(modp)P_{j,k}=P_j \pmod p tels que P=Π j=1 nP j,k(modp k) P=\Pi_{j=1}^n P_{j,k} \pmod {p^k} Commençons par le cas k=2k=2. On pose P j,2=P j+pQ j=P j(modp) P_{j,2}=P_j+pQ_j=P_j \pmod p On a alors : P = Π j=1 nP j,2(modp 2)=Π j=1 n(P j+pQ j)(modp 2) = Π j=1 nP j+p j=1 nQ jΠ kjP k(modp 2) \begin{matrix} P&=&\Pi_{j=1}^n P_{j,2} \pmod {p^2} =\Pi_{j=1}^n (P_j+pQ_j) \pmod {p^2}\\ &=&\Pi_{j=1}^n P_j + p \sum_{j=1}^n Q_j \Pi_{k\neq j} P_k \pmod {p^2} \end{matrix} Donc : j=1 nQ jΠ kjP k=PΠ j=1 nP jp(modp) \sum_{j=1}^n Q_j \Pi_{k\neq j} P_k= \frac{P-\Pi_{j=1}^n P_j}{p} \pmod p On est ramené à résoudre une identité de Bézout généralisée. On montrera dans l’appendice le :

Théorème 44   (Identité de Bézout généralisée) Soit P 1P_1, ..., P nP_n (n2n\geq 2) des polynômes premiers entre eux deux à deux modulo pp. Alors pour tout polynôme QQ, il existe des polynômes Q 1Q_1, ..., Q nQ_n tels que : j=1 nQ jΠ kjP k=Q(modp) \sum_{j=1}^n Q_j \Pi_{k\neq j} P_k=Q \pmod p

On a donc réussi à remonter l’égalité P=ΠP j(modp)P=\Pi P_j \pmod p à P=ΠP j,2(modp 2)P=\Pi P_{j,2} \pmod {p^2}. Le passage de P=ΠP j,l(modp l)P=\Pi P_{j,l} \pmod {p^l} à P=ΠP j,l+1(modp l+1)P=\Pi P_{j,l+1} \pmod {p^{l+1}} est identique, on a : P j,l+1=P j,l+p lQ j P_{j,l+1}=P_{j,l}+p^{l}Q_j où les Q jQ_j sont les solutions de l’identité de Bézout généralisée avec : Q=PΠ j=1 nP j,lp l Q=\frac{P-\Pi_{j=1}^n P_{j,l}}{p^l}

Lorsqu’on programme cet algorithme (cf. l’appendice), on calcule une fois pour toutes les solutions de l’identité de Bézout pour Q=1Q=1, et on multiplie par QQ.

Algorithme de remontée de Hensel linéaire
Arguments: Un polynôme PP à coefficients entiers, la liste L={P j}L=\{ P_j \} de ses facteurs dans /p[X]\mathbb{Z}/p\mathbb{Z}[X]
Valeur renvoyée: la liste des facteurs de PP dans /p l[X]\mathbb{Z}/p^l \mathbb{Z}[X]
On calcule la borne de Landau-Mignotte1 pour les facteurs de PP, on multiplie par le coefficient dominant de PP et on calcule ll tel que p lp^l est strictement plus grand que deux fois cette quantité. On calcule aussi les polynômes Q jQ_j de l’identité de Bézout généralisée pour Q=1Q=1
Puis on fait une boucle pour kk variant de 2 à ll:

Il existe une version quadratique de cette méthode. On passe alors de P=ΠP j,l(modp l)P=\Pi P_{j,l} \pmod {p^l} à P=ΠP j,2l(modp 2l)P=\Pi P_{j,2l} \pmod {p^{2l}}. Pour cela, il faut trouver les polynômes Q jQ_j solutions de l’équation : j=1 nQ jΠ kjP k,l=Q(modp l) \sum_{j=1}^n Q_j \Pi_{k\neq j} P_{k,l}=Q \pmod {p^l} Pour l=1l=1, c’est l’identité de Bézout généralisée, mais ce n’est plus le cas pour l>1l&gt;1. En fait, on résout cette égalité en remontant l’identité de Bézout quadratiquement, plus précisément pour trouver les S jS_j solutions de j=1 nS jΠ kjP k,2l=Q(modp 2l) \sum_{j=1}^n S_j \Pi_{k\neq j} P_{k,2l}=Q \pmod {p^{2l}} on pose S j=Q j+p lR jS_j=Q_j+p^l R_j, il s’agit donc de trouver les R jR_j solutions de j=1 n(Q j+p lR j)Π kjP k,2l=Q(modp 2l) \sum_{j=1}^n (Q_j+p^l R_j) \Pi_{k\neq j} P_{k,2l}=Q \pmod {p^{2l}} soit : j=1 nR jΠ kjP k,l=Q j=1 nQ jΠ kjP k,lp l(modp l) \sum_{j=1}^n R_j \Pi_{k\neq j} P_{k,l} =\frac{Q-\sum_{j=1}^n Q_j \Pi_{k\neq j} P_{k,l} }{p^l} \pmod {p^l} on en déduit les R jR_j.

Algorithme de remontée de Hensel quadratique
Arguments et valeur renvoyée identiques à l’algorithme de remontée de Hensel linéaire ci-dessus.
On commence comme dans le cas linéaire par calculer les coefficients de l’identité de Bézout généralisée pour Q=1Q=1 et la valeur de ll telle que p 2 lp^{2^l} soit supérieur à deux fois la borne de Landau des facteurs de PP fois le coefficient dominant de PP.
On fait une boucle sur kk variant de 1 à ll:

Remarque
Pendant l’étape de remontée de Hensel, une optimisation classique consiste à tester la divisibilité dans \mathbb{Z} du polynôme PP par le facteur lifté P jP_j (2) lorsqu’il n’a pas subi de modification pendant 2 étapes successives (autrement dit lorsque P j(modp l)=P j(modp l+1)P_j \pmod {p^l}=P_j \pmod {p^{l+1}} (ou (modp 2l)\pmod {p^{2l}} pour le lift quadratique). Si la division est exacte, on obtient un facteur irréductible de PP dans \mathbb{Z}. On recalcule alors la borne de Landau de P/P jP/P_j pour diminuer le nombre d’itérations à effectuer dans cette étape.

Exemple :
Reprenons le polynôme P(X)=(X 3+X+1)(X 4X+1)P(X)=(X^3+X+1)(X^4-X+1) et supposons qu’on ait choisi de le factoriser modulo 5 puis de remonter. On a 3 facteurs a=x2a=x-2, b=x 3+x+1b=x^3+x+1 et c=x 3+2x 2x+2c=x^3+2x^2-x+2. Si on développe PP, on trouve 6 coefficients non nuls de valeur absolue 1, on peut calculer la borne de Landau-Mignotte correspondante sur les coefficients d’un facteur entier : 2 5((6)+1)2^{5} (\sqrt(6)+1) soit un peu plus de 110, il suffit donc d’effectuer 3 étapes de remontée linéaire (5 4=625>111/25^4=625&gt;111/2). On commence par trouver 3 polynômes AA, BB, CC tels que A(x 3+x+1)(x 3+2x 2x+2)+B(x2)(x 3+2x 2x+2)+ +C(x2)(x 3+x+1) = 1(mod5) \begin{matrix} A(x^3+x+1)(x^3+2x^2-x+2)+B(x-2)(x^3+2x^2-x+2)+& & \\ +C(x-2)(x^3+x+1)&=&1 \pmod 5 \end{matrix} On commence par résoudre D(x 3+2x 2x+2)+C(x2)(x 3+x+1)=1(mod5)D(x^3+2x^2-x+2)+C(x-2)(x^3+x+1)=1\pmod 5, on trouve C=2x 22C=2x^2-2 et D=2x 32x 2+2x+1D=-2x^3-2x^2+2x+1. Puis on calcule AA et BB en résolvant E(x 3+x+1)+F(x2)=1E(x^3+x+1)+F(x-2)=1 qui donne E=1E=1 et F=x 22xF=-x^2-2x qu’on multiplie par DD, donc A=DA=D et B=2x 5+x 4+2x 32xB=2x^5+x^4+2x^3-2x. Ce qui donne l’identité de Bézout généralisée.

Passons aux calculs de remontée. On a abc=x 74x 5+5x 4+9x 3x 24abc=x^7-4x^5+5x^4+-9x^3-x^2-4 et P=x 7+x 5+x 3x 2+1P=x^7+x^5+x^3-x^2+1, donc Q=(Pabc)/5=x 5x 4+2x 3+1Q=(P-abc)/5=x^5-x^4+2x^3+1. On pose alors a 1 = a+5(QA(moda))(mod25), b 1 = b+5(QB(modb))(mod25), c 1 = c+5(QC(modc))(mod25) \begin{matrix} a_1&=&a+5 \ (QA \pmod a)\pmod{25}, \\ b_1&=&b+5 \ (QB \pmod b) \pmod{25}, \\ c_1&=&c+5 \ (QC \pmod c) \pmod{25} \end{matrix} donc : a 1=a+5×(2),b 1=b+5×0,c 1=c+5×(2x 2x) a_1= a+5 \times (-2), \quad b_1=b+5 \times 0, \quad c_1=c+5 \times (2x^2-x) En principe, on continue encore 2 itérations de la même manière. La 2ème itération donne : Q=(Pa 1b 1c 1)/25=6x 53x 4+7x 3+3x 22x+1 Q=(P-a_1 b_1 c_1)/25= 6x^5-3x^4+7x^3+3x^2-2x+1 a 2 = a 1+25(QA(moda))(mod125), b 2 = b 1+25(QB(modb))(mod125), c 2 = c 1+25(QC(modc))(mod125) \begin{matrix} a_2&=&a_1+25 \ (QA \pmod a) \pmod{125}, \\ b_2&=&b_1+25 \ (QB \pmod b) \pmod{125},\\ c_2&=&c_1+25 \ (QC \pmod c) \pmod{125} \end{matrix} donc : a 2=a 1+25(1)=x37,b 2=b 1=b,c 2=c 1+25(x 2+1)=x 3+37x 26x+27 a_2=a_1 +25(-1)=x-37, \ b_2=b_1=b, \ c_2=c_1+25(x^2+1) =x^3+37x^2-6x+27

On peut aussi observer que b 1=bb_1=b, ceci laisse à penser que bb est un facteur de PP dans \mathbb{Z} ce qu’on vérifie en effectuant la division euclidienne de PP par b=x 3+x+1b=x^3+x+1. Comme elle tombe juste, on est ramené à factoriser x 4x+1x^4-x+1 et donc à remonter la factorisation de acac. La borne de Landau diminue à 8(3+1)8(\sqrt{3}+1) puisque le degré est 4 et la norme euclidienne du polynôme est 3\sqrt{3}. Il suffit alors de remonter dans /125\mathbb{Z}/125 \mathbb{Z} au lieu de /625\mathbb{Z}/625 \mathbb{Z} (on gagne ainsi une itération).

18.2.6  Combinaison de facteurs

Lorsqu’on a les facteurs de PP dans /p k[X]\mathbb{Z}/p^k\mathbb{Z}[X] avec p kp^k plus grand que le produit du coefficient dominant de PP multiplié par la borne de Landau-Mignotte sur les coefficients de PP, on commence par tester la divisibilité dans [X]\mathbb{Z}[X] de PP par chaque facteur trouvé multiplié par le coefficient dominant de PP. Si la division est exacte, on a un facteur irréductible, mais si elle n’est pas exacte il peut se produire qu’un facteur irréductible de PP dans [X]\mathbb{Z}[X] soit un produit de deux, voir plusieurs, facteurs modulaires. Il faut donc tester la divisibilité de PP dans [X]\mathbb{Z}[X] par toutes les combinaisons possibles de produits de facteurs modulaires (toujours multiplié par le coefficient dominant de PP). Cette étape peut être exponentiellement longue si le nombre de facteurs modulaires est grand et si par exemple PP est irréductible, bien que les cas soient très rares.

Algorithme de recombinaison
Arguments: un polynôme à coefficients entiers, primitif et sans facteur multiple PP de coefficient dominant p np_n, la liste LL des facteurs de PP dans /p lZ[X]\mathbb{Z}/p^l Z[X] pour ll assez grand et p lp^l
Valeur de retour: la liste FF des facteurs de PP dans \mathbb{Z}.
Initialiser FF à vide, initialiser le nombre de facteurs à combine cc à 1, entamer une boucle infinie :

Il existe différentes méthodes qui améliorent la complexité de cette étape :

Mais ces astuces n’évitent pas l’énumération de toutes les combinaisons possibles de facteurs et donc la complexité exponentielle. Lorsque les combinaisons d’un petit nombre de facteurs (par exemple 3) échouent, les systèmes récents utilisent l’algorithme knapsack de Van Hoeij basé sur l’algorithme LLL (recherche de base d’un réseau ayant des vecteurs de petite norme) qui permet d’eliminer complètement cette complexité exponentielle.

Exemple :
Toujours le même exemple, il nous restait deux facteurs dans /125\mathbb{Z}/125 \mathbb{Z}, le facteur x 3+x+1x^3+x+1 ayant été détecté comme un facteur de P=x 7+x 5+x 3x 2+1P=x^7+x^5+x^3-x^2+1 dans \mathbb{Z}. On teste chacun des facteurs a 2=x37a_2=x-37 et c 2=x 3+37x 26*x+27c_2=x^3+37x^2-6*x+27 séparément, sans succès. On les multiplie alors modulo 125, ce qui donne x 4x+1x^4-x+1 en représentation symétrique qui est bien un facteur de PP (donc un facteur irréductible).

18.3  Factorisation à plusieurs variables

Comme pour le PGCD en plusieurs variables, on se ramène d’abord en une variable, en général on évalue toutes les variables sauf celle correspondant au degré partiel le plus faible. On factorise ensuite en une variable puis on remonte. A chaque étape de remontée, il peut être à nouveau nécessaire de combiner plusieurs facteurs. Différentes stratégies existent, comme pour le PGCD : factorisarion heuristique (avec reconstruction zz-adique), remontée variable par variable ou toutes les variables en même temps comme dans EZGCD. On va présenter ici plus en détails l’algorithme de factorisation heuristique.

Soit PP un polynôme en X 1,...,X nX_1,...,X_n à coefficients entiers avec n>1n&gt;1, on choisit une des variables par exemple X nX_n, qu’on notera XX dans la suite. On considère PP comme un polynôme en X 1,...,X n1X_1,...,X_{n-1} à coefficients dans [X]\mathbb{Z}[X]. On suppose que PP est primitif (quitte à extraire son contenu qui est dans [X]\mathbb{Z}[X]). On calcule ensuite P(z)P(z) pour un entier zz tel que3 |z|2|P|+2|z| \geq 2|P|+2. On factorise P(z)P(z) dans [X 1,...,X n1]\mathbb{Z}[X_1,...,X_{n-1}] : P(z)(X 1,...,X n1)=c(z)Π j=1 kp j(X 1,...,X n1)(22) P(z)(X_1,...,X_{n-1})=c(z) \Pi_{j=1}^k p_j(X_1,...,X_{n-1}) \qquad (22) cc est le contenu du polynôme P(z)P(z) (comme polynôme en n1n-1 variables à coefficients entiers). Il s’agit de reconstruire les facteurs de PP à partir des p jp_j et de cc. Deux problèmes se posent alors, celui de la recombinaison possible de plusieurs facteurs p jp_j pour obtenir un facteur irréductible de PP, et l’existence d’un facteur entier du contenu cc à combiner avec un ou plusieurs p jp_j pour obtenir ce facteur irréductible. Plus précisément, si P kP_k est un facteur irréductible de PP, on a : P k(z)=d(z)Π certains jp j,d(z) divise c(z)(23) P_k(z)=d(z) \Pi_{\mbox{certains } j} p_j, \quad \mbox{où } d(z) \mbox{ divise } c(z) \qquad (23)

On a le :

Théorème 45   Soit P(X 1,...,X n1,X)P(X_1,...,X_{n-1},X) un polynôme à coefficients entiers ayant au moins 2 variables. On suppose que PP est primitif vu comme polynôme en les variables X 1,...,X n1X_1,...,X_{n-1} à coefficients dans Z[X]Z[X]. Il existe une majoration CC du contenu |c(z)||c(z)| de PP évalué en X=zX=z (plus précisément on peut trouver un entier CC tel que c(z)c(z) divise CC).
Il existe un nombre fini de
zz tels que l’un des facteurs irréductibles P kP_k de PP évalué en X=zX=z soit réductible (c’est-à-dire tels que (23) admette plusieurs facteurs p jp_j distincts)

Preuve
Pour déterminer CC, on remarque que les facteurs du contenu de P(z)P(z) sont des facteurs communs des coefficients de PP évalués en zz vu comme polynôme en X 1,...,X n1X_1,...,X_{n-1} à coefficients dans [X]\mathbb{Z}[X]. Donc c(z)c(z) divise le générateur de l’idéal engendré par ces coefficients (ce générateur est un polynôme de [X]\mathbb{Z}[X] qui est constant car on a supposé PP primitif), on peut aussi dire que deux au moins des coefficients dans [X]\mathbb{Z}[X] de PP sont premiers entre eux, alors c(z)c(z) divise le coefficient de l’identité de Bézout de ces 2 coefficients vu comme polynômes en XX.

Considérons maintenant un facteur irréductible P kP_k de PP de degré dd par rapport à XX. Pour X 1,...,X n1X_1,...,X_{n-1} fixés, on factorise P kP_k sur \mathbb{C} : P k(X)=p kΠ j=1 d(Xz j) P_k(X)=p_k \Pi_{j=1}^d (X-z_j) On va maintenant se restreindre à un domaine des X 1,...,X n1X_1,...,X_{n-1} sur lequel les z jz_j ont une dépendance analytique par rapport à X 1,...,X n1X_1,...,X_{n-1}. Pour cela on veut appliquer le théorème des fonctions implicites pour déterminer z jz_j au voisinage d’une solution donnée. On calcule donc la dérivée P kP'_k de P kP_k par rapport à XX. On sait que PP n’a pas de facteurs multiples, donc P kP_k et P kP_k' sont premiers entre eux, donc d’après l’identité de Bézout, il existe un polynôme non nul DD dépendant de X 1,...,X n1X_1,...,X_{n-1} et deux polynômes UU et VV dépendant de X 1,...,X n1,XX_1,...,X_{n-1},X tels que : UP k+VP k=D U P_k + V P_k' = D Si D(X 1,...,X n1)D(X_1,...,X_{n-1}) ne s’annule pas, on va pouvoir appliquer le théorème des fonctions implicites. On se fixe x 1,..,x n1x_1,..,x_{n-1}, on calcule dans \mathbb{C} les racines z jz_j du polynôme P(x 1,..,x n1,X)P(x_1,..,x_{n-1},X) pour une solution z jz_j telle que P(x 1,..,x n1,z j)=0P(x_1,..,x_{n-1},z_j)=0, comme DD est non nul, on a P(x 1,...,x n1,z j)0P'(x_1,...,x_{n-1},z_j)\neq 0, donc on peut écrire au voisinage de (x 1,..,x n1)(x_1,..,x_{n-1}) z j=z j(X 1,...,X n1),P(X 1,...,X n1,z j)=0 z_j=z_j(X_1,...,X_{n-1}), \quad P(X_1,...,X_{n-1},z_j)=0 avec des fonctions z jz_j analytiques. Si DD est constant, DD ne s’annule pas, sinon quitte à permuter les variables, on peut supposer que le degré de DD par rapport à X 1X_1 est non nul. On peut alors se restreindre à une zone X 1>>X 2>>..>>X n1>>1X_1 &gt;&gt; X_2 &gt;&gt; .. &gt;&gt; X_{n-1} &gt;&gt; 1DD sera non nul ce qui permet de suivre analytiquement les z jz_j.

Supposons maintenant qu’il existe un nombre infini de zz tels P k(z)P_k(z) soit réductible. Alors il existe un ensemble infini ZZ de ces valeurs de zz pour lesquels l’un des facteurs à coefficients entiers f jf_j de P k(z)P_k(z) correspond à un même sous-ensemble RR des racines z jz_j de P kP_k et à un même contenu cc (puisqu’il y a un nombre fini de combinaisons possibles des racines en facteur et un nombre fini de diviseurs possibles du contenu de P kP_k). Pour zZz \in Z, on a : f j(X 1,...,X n,z)=cΠ lR(zz j),f j[X 1,...,X n1] f_j(X_1,...,X_n,z)=c \Pi_{l \in R} (z-z_j), \quad f_j \in \mathbb{Z}[X_1,...,X_{n-1}] Soit L(X)L(X) le polynôme obtenu par interpolation de Lagrange en cardinal(R)+1(R)+1 points zz de ZZ, égal à f jf_j en X=zX=z. Pour des raisons de degré, on a : L=cΠ lR(Xz j) L=c \Pi_{l \in R} (X-z_j) donc LL est un facteur de PP. De plus LL est un polynôme en X 1,...,X n1,XX_1,...,X_{n-1},X à coefficients rationnels (par construction). Ceci vient en contradiction avec l’hypothèse P kP_k irréductible, car on a construit un facteur de P kP_k à coefficients rationnels LL de degré strictement inférieur.

Corollaire
Pour zz assez grand, la reconstruction zz-adique de c(z)p j(z)c(z) p_j(z) est un polynôme dont la partie primitive est un facteur irréductible de PP.

Preuve du corollaire
On prend zz assez grand pour que tous les facteurs irréductibles de PP évalués en zz aient un seul facteur polynomial (i.e. soient de la forme d(z)p j(z)d(z)p_j(z)). Quitte à augmenter zz, on peut supposer que |z|>2CL|z|&gt; 2 C L CC est la majoration de |c(z)||c(z)| et LL est la borne de Landau sur les facteurs de PP. Alors la reconstruction zz-adique de c(z)p j(z)c(z)p_j(z) est c(z)/d(z)P jc(z)/d(z)P_j, donc sa partie primitive est un facteur irréductible de PP.

Algorithme de factorisation heuristique à plusieurs variables
Argument: un polynôme PP primitif en au moins 2 variables.
Valeur renvoyée: les facteurs irréductibles de PP
Choisir la variable XX par rapport à laquelle PP est de plus bas degré puis factoriser le contenu de PP vu comme polynôme à coefficients dans [X]\mathbb{Z}[X]. Initialiser un entier zz à 2|P|+22|P|+2 (où |P||P| est le plus grand coefficient entier de PP en valeur absolue) et une liste LL à la factorisation de du contenu de PP.
Boucle indéfinie :

18.4  Preuve de l’identité de Bézout généralisée

Elle se fait par récurrence. Pour n=2n=2, c’est l’identité de Bézout usuelle. Pour passer du rang n1n-1 au rang nn, on isole P nP_n dans l’identité à résoudre : ( j=1 n1Q j(Π 1kn1,kjP k))P n+Q nΠ kn1P k=Q(modp) \left( \sum_{j=1}^{n-1} Q_j (\Pi_{1 \leq k \leq n-1,k\neq j} P_k) \right) P_n + Q_n \Pi_{k\leq n-1} P_k =Q \pmod p Comme P nP_n est premier avec Π kn1P k\Pi_{k\leq n-1} P_k, en appliquant Bézout, on trouve deux polynômes Q nQ_n et R nR_n tels que : R nP n+Q nΠ kn1P k=Q(modp)(24) R_n P_n + Q_n \Pi_{k\leq n-1} P_k =Q \pmod p \qquad (24) Il reste à résoudre j=1 n1Q jΠ 1kn1,kjP k=R n(modp) \sum_{j=1}^{n-1} Q_j \Pi_{1 \leq k \leq n-1,k\neq j} P_k=R_n \pmod p ce que l’on peut faire par hypothèse de récurrence.

18.5  Algorithme de Bézout généralisé

Arguments: une liste P 1,...,P nP_1,...,P_n de polynômes premiers entre eux 2 à 2 et un polynôme QQ à coefficients dans /p\mathbb{Z}/p\mathbb{Z}
Valeur renvoyée: la liste de polynômes Q 1,...,Q nQ_1,...,Q_n tels que j=1 nQ jΠ kjP k=Q(modp) \sum_{j=1}^n Q_j \Pi_{k\neq j} P_k=Q \pmod p On peut commencer par calculer le produit de tous les P kP_k puis faire une boucle sur jj pour calculer les produits des P kP_k pour kjk\neq j en divisant le produit complet par P jP_j (on fait ainsi n1n-1 multiplications et nn divisions au lieu de n(n1)n(n-1) multiplications).
Boucle indéfinie sur nn décrémenté de 1 par itération :

Remarquons que lorsque nous utiliserons cet algorithme, QQ sera la différence entre deux polynômes de même degré (le degré de PP) et de même coefficient dominant 1, on peut donc remplacer les Q iQ_i par le reste euclidien de Q iQ_i par P iP_i sans changer l’égalité.

18.6  Factorisation rationnelle et sur une extension

Pour factoriser des polynômes ayant des coefficients dans des extensions algébriques, il existe un algorithme assez simple, l’algorithme de Trager, qui n’est pas forcément le plus performant (la recherche est encore active dans ce domaine), cf. le livre de Henri Cohen pp. 142-144. Cet algorithme est utilisé lorsqu’on met l’extension algébrique en deuxième argument de factor dans Xcas. Pour trouver l’extension algébrique qui permet de factoriser, on peut dans les cas simples essayer solve. Si le polynôme PP à factoriser est irréductible sur \mathbb{Q}, on peut essayer factor(P,rootof(P)). Mais en général cela ne permettra d’extraire qu’un seul facteur de degré 1. Pour obtenir une décomposition complète si PP est de petit degré, on peut essayer de construire une extension en formant une expression non symétrique à partir des racines approchées, puis en appliquant toutes les permutations de racines à cette expression et en construisant le polynôme ayant ces racines, si on a suffisamment de précision sur les racines, on peut arrondir le polynôme obtenu, le factoriser sur \mathbb{Q}, et prendre un des facteurs irréductibles de degré suffisant comme argument de rootof.

Par exemple soit à factoriser P=x 4+3x+1P=x^4+3x+1 sur ¯\overline{\mathbb{Q}}. On entre la fonction suivante :

f(P):={
  local k,l,p,r,j;
  l:=proot(P);
  if (dim(l)!=4) return "erreur";
  k:=max(abs(l));
  k:=floor(24*log10(1+4*k))+4; // 4 chiffres de precision en plus
  l:=proot(P,k);
  p:=[0,1,2,3];
  r:=[];
  for j from 0 to 23 do
    k:=l[p[0]]-l[p[1]]+2*l[p[2]];
    r:=append(r,k);
    p:=nextperm(p);
  od;
  retourne r;
}:;

puis q:=pcoef(f(x^4+3x+1)), on voit que les coefficients sont presque entiers, on fait donc factor(x^4+3x+1,rootof(round(q))) qui décompose x 4+3x+1x^4+3x+1 en 4 facteurs de degré 1. Le polynôme obtenu est de degré 24 (cas générique), si PP est de degré nn, on s’attend à un degré n!n!, au-delà de n=5n=5, cette méthode est trop couteuse! Attention aussi, même pour n=4n=4, il peut être nécessaire de calculer les racines en multi-précision, par exemple ci-dessus les éléments de r sont majorés par 4R4RRR est un majorant du module des racines de PP, donc les coefficients de q sont majorés par exemple par (1+4R) 242e20(1+4R)^{24} \approx 2e20 donc on prend 24 chiffres.

Autre méthode utilisant la représentation rationnelle univariée (section 9.8) : on écrit le système vérifié par les relations racines-coefficients, ici
P:=x^4+3x+1;eq:=lcoeff(P)*pcoef([a,b,c,d])-symb2poly(P)
on vérifie qu’on obtient les 24 permutations de racines par
cfsolve(eq,[a,b,c,d])
Le polynôme permettant de factoriser complètement PP se lit dans
G:=gbasis(eq,[a,b,c,d],rur);
on obtient la factorisation complète par :
factor(x^4+3x+1,rootof(G[2]))
On peut aussi la déduire de l’expressions des racines
Q:=product(x-rootof(G[k],G[2])/rootof(G[3],G[2]),
k,4,size(G)-1);normal(Q)
Pour un polynome quelconque, on peut utiliser le script suivant

extension(p):={
local l,s,g;
 l:=seq(expr("x"+j),j,1,degree(p));
 s:=lcoeff(p)*pcoeff(l)-symb2poly(p);
 g:=gbasis(s,l,rur);
 return g[2];
}

mais les calculs deviennent très vite monstrueux!

Pour les polynômes à plusieurs variables, Giac commence par donner la valeur 0 à toutes les variables sauf celle correspondant à la variable de degré partiel minimum. Si le polynôme obtenu est square-free, alors Giac reconstruit par remontée de Hensel les facteurs, en augmentant au fur et à mesure le degré des facteurs par rapport aux autres variables. En cas d’échec, l’algorithme de Trager est utilisé, ce qui est en général beaucoup plus lent (à commencer par le calcul de la “norme” du polynôme à factoriser par un résultant).

18.7  Factorisation absolue

On peut aussi se demander pour un polynôme à coefficients rationnels (squarefree) quelle extension permet la factorisation la plus complète. Par exemple x 2+y 2x^2+y^2 est irréductible sur [x,y]\mathbb{Q}[x,y] mais pas sur [i][x,y]\mathbb{Q}[i][x,y] ou x 4+y 4x^4+y^4 est irréductible sur [x,y]\mathbb{Q}[x,y] mais pas sur [2][x,y]\mathbb{Q}[\sqrt{2}][x,y]. Ceci amène à la notion de factorisation absolue d’un polynôme. Une méthode simple (mais pas forcément très efficace) pour déterminer une telle extension algébrique consiste à évaluer toutes les variables sauf une “au hasard" jusqu’à obtenir un polynôme irréductible MM. On factorise alors sur le corps correspondant à MM. Mais cela peut être très long, par exemple pour P(x,y)=y 102x 2y 4+4x 6y 22x 10 P(x,y)=y^{10}-2x^2y^4+4x^6y^2-2x^{10} on a P(x,1)P(x,1) irréductible, on obtient donc la factorisation absolue par les commande
p(x,y):=y^10-2x^2*y^4+4x^6*y^2-2x^10;
p1:=p(1,y); factor(p1); (vérification)
factor(p(x,y),rootof(p1));
mais c’est beaucoup plus long que de faire factor(p1,sqrt(2)).

Pour un polynôme à 2 variables (on peut toujours s’y ramener) de degrés partiels m,nm,n en x,yx,y, on remarque que le degré q2q \geq 2 de l’extension nécessaire est égal au nombre de facteurs (chaque facteur étant conjugué d’un facteur donné par échange des racines), qui sont donc tous de même bi-degré m/q,n/qm/q,n/q, en particulier qq divise le PGCD de mm et nn qui doit être non trivial. Ainsi par exemple pour P(X,Y)=Y 4+2Y 2*X+14Y 27*X 2+6X+47P(X,Y)=Y^4 +2Y^2*X+14Y^2 -7*X^2 +6X+47 m=2m=2 donc qq ne peut être égal qu’à 2, en faisant Y=0Y=0 on obtient que la seule extension possible est 2\sqrt{2}.

Voir aussi la session afactor.xws du menu Exemple, poly de Xcas.

18.8  Compléments

Pour factoriser sur des corps finis, on peut consulter la thèse de Bernardin disponible sur le web (http://www.bernardin.lu).

L’algorithme récursif qui suit permet d’écrire un polynôme symétrique en nn variables (noté s dans le programme) en fonction des polynômes symétriques élémentaires. L’idée est de remplacer la dernière variable x nx_n par 0, le polynôme obtenu QQ est symétrique en les autres variables, on appelle récursivement la procédure (avec une variable de moins), elle renvoie un polynôme VV. On crée dans S les polynômes symétriques élémentaires avec la fonction pcoeff, on les utilise pour substituer dans VV par les polynômes symétriques élémentaires sauf le dernier, ce qui donne V sV_s symétrisé de VV par rapport aux nn variables, puis on retranche V sV_s de PP. Par construction on doit obtenir un polynôme divisible par le produit des x ix_i>: en effet PQP-Q est divisible par x nx_n donc PV sP-V_s aussi donc par symétrie il est divisible par le produit des x ix_i. C’est le polynôme qq ci-dessous, auquel on applique récursivement l’algorithme (le degré a été dimuné de nn).

restart;
sym(P,X):={ // P polynome symetrique, X liste des variables
  local k,s,xs,Q,V,W,S,q,r;
  s:=size(X);
  si s<=1 alors return P; fsi;
  xs:=X[s-1];
  si !contains(lname(P),xs) alors return P; fsi; // polynome constant
  Q:=normal(subst(P,xs=0)); // Q est symetrique en X[0..s-2]
  V:=sym(Q,X[0..s-2]); // appel recursif
  S:=pcoeff(X[0..s-1]); // polynomes symetriques en les X
  pour k de 0 jusque size(S)-1 faire S[k]:=(-1)^k*S[k]; fpour;
  q,r:=quorem((P-subst(V,X[0..s-2],S[1..s-1])),S[s],xs); // reste nul
  si r!=0 alors throw("non symetrique"); fsi;
  W:=sym(q,X);
  retourne V+W*xs;
}:;


Par exemple

exprime x 3+y 3+z 3x^3+y^3+z^3 en fonction de x+y+z,xy+xz+yz,xyzx+y+z,xy+xz+yz,xyz, on vérifie

18.9  Exercices (factorisation des polynômes)

  1. Soit le polynôme P(x)=2x 3x 24x+2P(x)=2\,x^{3}-x^{2}-4\,x+2. On veut déterminer des intervalles d’isolation des racines réelles positives de PP.
    1. Implémenter la règle de Descartes sur ]0,+[]0,+\infty[ (nombre de racines \leq au nombre de changements de signe des coefficients). On peut utiliser coeffs pour avoir la liste des coefficients de PP.
    2. Pour faire de même sur ]0,1[]0,1[, on fait d’abord le changement de variables x1/xx\rightarrow 1/x (P˜(x)=x 3P(1/x)\tilde{P}(x)=x^3P(1/x)) qui permet de se ramener à des racines dans ]1,+[]1,+\infty[ puis xx+1x \rightarrow x+1 (P˜(x)=P(x+1)\tilde{P}(x)=P(x+1)) sur ]0,+[]0,+\infty[. On peut utiliser revlist pour calculer P˜\tilde{P} et ptayl pour faire le changement d’origine.
    3. Pour faire de même sur ]a,b[]a,b[, on pose P(x)=Q((ba)t+a)P(x)=Q((b-a)t+a).
    4. Déterminer une majoration MM des racines de PP en module. Puis par dichotomie, trouver des intervalles d’isolation des racines de PP.
  2. Déterminer le nombre de racines de x 7+x 4+12x5-x^7+x^4+12x-5 comprises entre 0 et 6 (en utilisant les suites de Sturm, on donnera les détails des calculs). Déterminer le nombre de racines réelles de ce polynôme en utilisant une majoration du module des racines.
  3. Écrire un programme calculant la suite de Sturm d’un polynôme supposé squarefree (on peut tester avec sqrfree ou s’y ramener en calculant PP/gcd(P,P)(P,P')), en utilisant l’algorithme d’Euclide, on renverra PP, PP' et la liste des quotients. Écrire un programme calculant le nombre de changements de signe de la suite de Sturm en un réel (indication : utiliser l’algorithme de Horner pour évaluer, et remove pour éliminer les 0 d’une liste)
  4. Prendre un polynôme de degré 100 à coefficients aléatoires (randpoly), le factoriser numériquement (proot) puis donner pour les premières racines approchées renvoyées des intervalles ou disques où on peut certifier qu’il existe une racine.
  5. Soit P(x)=x 5+3x+1P(x)=x^5+3x+1. Déterminer des valeurs approchées des racines complexes de PP. En déduire des boules dans le plan complexe contenant exactement une racine de PP et de rayon plus petit que 1e-12. En utilisant la méthode de Newton avec du calcul exact, déterminer des valeurs approchées certifiées à 1e-40 près des racines complexes de PP.
  6. Localiser les parties réelles et imaginaires des racines complexes de P(z)=z 5+3z+1P(z)=z^5+3z+1 en utilisant les suites de Sturm et le résultant de la partie réelle et imaginaire de P(x+iy)P(x+iy). Comparer cette méthode avec celle de l’exercice précédent (en particulier que se passe-t-il pour un polynôme de degré nn).
  7. Calculer avec un logiciel les valeurs numériques des racines complexes de P(x)=x 5+x+1P(x)=x^5+x+1. Trouver les combinaisons de racines dont la somme est entière (aux arrondis près). En déduire la factorisation en facteurs irréductibles sur \mathbb{Z} de PP.
  8. Factorisation numérique sur \mathbb{C}. Écrire un programme qui calcule une racine d’un polynôme à coefficients complexes en utilisant une méthode itérative de type méthode de Newton (avec éventuellement un préfacteur lorsqu’on débute la recherche). Les polynômes seront représentés par la liste de leurs coefficients et l’évaluation faite par la méthode de Horner. Trouver ensuite toutes les racines du polynôme en éliminant la racine trouvée (toujours avec Horner). Trouver les combinaisons de racines correspondant à un facteur à coefficients entiers.
  9. Soit pp un entier premier et PP un polynôme à coefficients dans /p\mathbb{Z}/p\mathbb{Z}. On a la relation gcd(X p kX,P)= f|P,\small deg(f)|kf,f irréductible \mbox{gcd}(X^{p^k}-X,P) = \prod_{ f | P, \mbox{\small deg}(f) | k} f, \quad f \mbox{ irréductible} En utilisant cette relation, déterminer les degrés des facteurs de (x 3+x+1)(x 4+x+1) (x^3+x+1)(x^4+x+1) modulo 5 et 7 (sans utiliser la commande factor). Peut-on en déduire que x 3+x+1x^3+x+1 et x 4+x+1x^4+x+1 sont irréductibles sur \mathbb{Z}?
  10. Utiliser les options “verbose” de votre logiciel de calcul formel pour factoriser x 202+x 101+1x^{202}+x^{101}+1 et vérifiez que vous avez compris la méthode utilisée.
  11. Trouver les facteurs de degré 1 s’ils existent de 3x 5+25x 4+67x 3+77x 2+55x+133x^5+25x^4+67x^3+77x^2+55x+13 en remontant ses racines dans /pZ[X]\mathbb{Z}/pZ[X] pour pp premier bien choisi.
  12. Factoriser le polynôme x 5+x+1x^5+x+1 par la méthode de Berlekamp.
  13. Montrer que 2x+x 2y+x 3+2x 4+y 3+x 52x+x^2y+x^3+2x^4+y^3+x^5 est irréductible sur \mathbb{Z} sans utiliser l’instruction factor à 2 variables (on pourra factoriser pour quelques valeurs de xx ou de yy)
  14. Que se passe-t-il lorsqu’on exécute l’algorithme de Yun dans /n\mathbb{Z}/n\mathbb{Z}?
  15. Recherche des facteurs de degré 2 d’un polynôme à coefficients réels sans racines réelles en utilisant la méthode de Bairstow décrite ci-dessous.
    On cherche un facteur F=x 2+sx+pF=x^2+sx+p de PP, on calcule le quotient et le reste de la division P=FQ+RP=FQ+R par une méthode de type Horner, il s’agit de rendre RR (vu comme un vecteur à 2 composantes) nul. On calcule donc s,pR\partial_{s,p} R (en cherchant le quotient et le reste de xQxQ et QQ par FF, pourquoi?) et on pose : (s,p) n+1=(s,p) nλ( s,pR) 1R(s,p) n(s,p)_{n+1}=(s,p)_n- \lambda (\partial_{s,p} R)^{-1} R (s,p)_n λ\lambda est un préfacteur compris entre 0 et 1 et ajusté à 1 lorsqu’on est proche du facteur.

1
Rappelons qu’il s’agit d’une majoration sur la valeur absolue des coefficients des facteurs de PP
2
Plus exactement, on multiplie P jP_j par le coefficient dominant de PP modulo p lp^l
3
Ici |P||P| désigne le plus grand coefficient de PP en valeur absolue

Chapitre 19  Intégration formelle.

19.1  Introduction

Que peut-on espérer d’un système de calcul formel lorsqu’il s’agit de calculer une primitive? Tout d’abord, on peut espérer qu’il sache résoudre ce que l’on donne en exercice à nos étudiants! Ceci suppose donc de connaitre quelques méthodes classiques, par exemple: intégration de polynômes (!), polynômes multipliés par exponentielle ou/et fonctions trigonométriques, de polynômes trigonométriques par linéarisation, de fractions rationnelles, de fractions trigonométriques, de fractions de racines carrées de polynômes du second ordre, de fonctions s’y ramenant par une ou plusieurs intégrations par parties ou par changement de fonction (par exemple reconnaissance de formes F(u)uF(u)u'\ ) ou par changement de variables, etc.

Mais au-delà de ces méthodes (qui ont l’avantage de la rapidité mais tiennent parfois plus de la recette de cuisine que de l’algorithme...), on peut se demander si la primitive d’une fonction donnée peut ou non s’exprimer en terme des fonctions “élémentaires”. Par exemple, tout le monde “sait” que la fonction e x 2e^{x^2} n’admet pas de primitive “simple”, encore faut-il donner un sens mathématique précis à cette affirmation. Ceci nécessite de donner une définition rigoureuse du terme fonction élémentaire. On peut alors appliquer un algorithme développé par Risch (pour les extensions dites transcendantes, obtenue par ajout des fonctions exponentielle et logarithme) qui permet de répondre à la question : il s’agit vu de très loin d’une extension de l’algorithme d’intégration des fractions rationnelles.

Cet article se décompose en deux parties principales :

Le lecteur intéressé par le cas des extensions algébriques pourra consulter la thèse de Trager. Pour les extensions plus générales (incluant en particulier les fonctions tangente, arctangente), la référence est le livre de Bronstein donnée en section 19.4.

19.2  Fonctions élémentaires

19.2.1  Extensions transcendantes, tour de variables

On se donne une expression f(x)f(x) dépendant de la variable xx que l’on souhaite intégrer par rapport à xx. L’algorithme de Risch s’applique à cette expression si on peut l’écrire comme une fraction rationnelle à plusieurs variables algébriquement indépendantes x,f 1(x),f 2(x,f 1(x)),...,f n(x,f 1(x),f 2(x,f 1(x)),...,f n1(x,f 1(x),...,f n2(x))) x, f_1(x), f_2(x,f_1(x)), ..., f_n(x,f_1(x),f_2(x,f_1(x)),...,f_{n-1}(x,f_1(x),...,f_{n-2}(x))) où les f if_i sont soit l’exponentielle soit le logarithme d’une fraction rationnelle (le corps de base appelé aussi corps de constantes ici est soit \mathbb{C}, soit une extension algébrique de \mathbb{Q} ou une extension algébrique d’un corps de fractions rationnelles s’il y a des paramètres). On appelle tour de variables la suite des x,f 1,...,f nx,f_1,...,f_n (chaque étage est donc une exponentielle d’une fraction rationnelle ou le logarithme d’une fraction rationnelle dépendant des étages précédents) et on dira que ff est une fonction élémentaire par rapport à cette tour de variables.

L’intérêt de l’écriture d’une expression sous forme de tour est qu’elle est stable par dérivation : si on dérive par rapport à xx une fonction élémentaire dépendant d’une tour de variables, on obtient encore une fonction élémentaire dépendant de la même tour de variables. Autrement dit, l’ensemble des fonctions élémentaires pour une tour fixée est un corps différentiel.

Exemples:

Dans la suite, on va s’intéresser aux tours de variables dans lesquelles on a effectué des simplifications évidentes. On élimine les lnexp\ln \circ \exp de la manière suivante : si f k=ln(g k)f_k=\ln(g_k), on regarde si g kg_k vu comme fraction en f 1,...,f k1f_1,...,f_{k-1} possède un facteur f j mf_j^m (avec mm \in \mathbb{Z}) lorsque f j=exp(g j)f_j=\exp(g_j) est une exponentielle. Si c’est le cas, on a f k=mg j+ln(g k/g j m)f_k= m g_j + \ln(g_k/g_j^m). On change alors de tour en remplaçant f kf_k par f˜ k=ln(g k/g j m)=f kmg j\tilde{f}_k=\ln(g_k/g_j^m)=f_k-mg_j. On élimine aussi les expln\exp \circ \ln, si f k=exp(g k)f_k=\exp(g_k), pour j<kj&lt;k si f jf_j est un logarithme, on regarde si c j= f jg k| f j=0c_j=\partial_{f_j}g_k|_{f_j=0} est un entier, si c’est le cas on remplace f kf_k par f˜ k=f k/g k c j\tilde{f}_k=f_k/g_k^{c_j}.

Exemples: ln(e x 2+1e x 2) x 2+ln(e x 2+1) e 3ln(x)+ln(x) 2+5 x 3e ln(x) 2+5 \begin{matrix} \ln(\frac{e^{x^2}+1}{e^{x^2}}) &\rightarrow &-x^2 + \ln(e^{x^2}+1) \\ e^{3 \ln(x)+\ln(x)^2+5} & \rightarrow & x^3 e^{\ln(x)^2+5} \end{matrix}

19.2.2  Théorème de structure de Risch

On voit donc qu’il est nécessaire de disposer d’un algorithme pour décider si des exponentielles et logarithmes sont algébriquement indépendants. Cet algorithme est basé sur un théorème de structure dû à Risch :

Théorème 46   Soit f=ln(g(x))f=\ln(g(x)) le logarithme d’une fonction élémentaire gg par rapport à une tour de variables TT, alors soit ff est algébriquement indépendant des variables de TT, soit ff est élémentaire et plus précisément combinaison linéaire rationnelle des logarithmes et des arguments des exponentielles de la tour TT.

Soit f=exp(g)f=\exp(g) l’exponentielle d’une fonction élémentaire gg par rapport à une tour de variables TT, alors soit ff est algébriquement indépendante des variables de TT, soit il existe nn tel que f nf^n soit élémentaire par rapport à TT (on peut alors appliquer le cas précédent à ng=ln(f n)ng=\ln(f^n))

Démonstration :
Commençons par le cas de l’exponentielle. On considère le polynôme minimal de f=exp(g)f=\exp(g) : a nf n+...+a 0=0,a n0,a 00 a_n f^n+...+a_0=0, \quad a_n \neq 0 , a_0 \neq 0 où les a ia_i sont des fractions rationnelles en TT. On dérive et on applique f=gff'=g'f : (a n+na ng)f n+...+(a k+ka kg)f k+...=0 (a_n'+n a_n g') f^n + ... + ( a_{k}' + ka_k g')f^{k} +... =0 c’est un multiple du polynôme minimal donc il existe une fraction rationnelle CC (par rapport à la tour de variables) telle que : k,(a k+ka kg)=Ca k \forall k, \quad (a_k'+k a_k g') = C a_k Comme a n0a_n\neq 0, cela entraine a n/a n+ng=Ca_n'/a_n+ng'=C. Le coefficient constant a 0a_0 est aussi non nul, donc a 0/a 0=Ca_0'/a_0=C et ng=a 0/a 0a n/a nng=ln(a 0a n)+k n g' = a_0'/a_0 - a_n'/a_n \Rightarrow ng=\ln(\frac{a_0}{a_n}) + k kk est constant, donc f n=exp(ng)=e ka 0/a nf^n=\exp(ng)=e^k a_0/a_n est élémentaire.

Passons au cas du logarithme, supposons que f=ln(g)f=\ln(g) dépende algébriquement de la tour TT, on va commencer par montrer que ff est élémentaire. On écrit : a nf n+...+a 0=0 a_n f^n+...+a_0=0 où les a ia_i sont des fractions rationnelles en TT. On dérive en appliquant f=g/gf'=g'/g : a nf n+(na nf+a n1)f n1...+a 1f+a 0 a_n' f^n + (n a_n f' + a_{n-1}')f^{n-1} ... + a_1 f'+a_0 ' Comme ff' est une fraction rationnelle en TT, le polynôme a nX n+(na nf+a n1)X n1+...+a 1f+a 0a_n' X^n + (n a_n f'+a_{n-1}') X^{n-1}+...+ a_1 f'+a_0' qui annule ff doit être un multiple du polynôme minimal de ff, il existe donc une fraction rationnelle CC par rapport à TT telle que : a n=Ca n(na nf+a n1)=Ca n1... a_n' = C a_n \quad (n a_n f'+a_{n-1}') = C a_{n-1} \quad ... On en déduit ff' : f=a na na n1a n1na n=(a n1na n) f'=\frac{\frac{a_n'}{a_n} a_{n-1}-a_{n-1}'}{n a_n} = \left(\frac{-a_{n-1}}{n a_n}\right)' donc il existe une constante cc telle que : f=a n1na n+c f=\frac{-a_{n-1}}{n a_n}+c donc ff est élémentaire par rapport à la même tour TT que gg.

Montrons maintenant qu’un logarithme f=ln(g)f=\ln(g) qui est élémentaire par rapport à une tour de variable TT est combinaison linéaire à coefficients rationnelles des logarithmes et des arguments des exponentielles de TT1. Soit XX la dernière variable de la tour TT. On factorise maintenant le numérateur et le dénominateur de gg en jP j j\prod_j P_j^j où les P jP_j sont sans facteurs multiples et premiers entre eux 2 à 2 (par rapport à XX), il existe CC indépendant de XX tel que : g=C jP j jln(g)=ln(C)+ jjln(P j)(25) g=C\prod_{j \in \mathbb{Z}} P_j ^{j} \Rightarrow \ln(g)=\ln(C)+\sum_{j \in \mathbb{Z}} j \ln(P_j) \qquad (25) Alors f=ln(C)+ jjP j/P jf'=\ln(C)'+\sum_j j P_j'/P_j donc P jf\prod P_j f' est un polynôme en XX. Soit N/DN/D la fraction irréductible représentant ff, on a : f=NDNDD 2 f'=\frac{N' D -N D'}{D^2} on vient donc de montrer que : ( jP j)NDNDD 2 est un polynôme en $X$(26) \left(\prod_j P_j \right) \frac{N' D - N D'}{D^2} \mbox{ est un polynôme en &#36;X&#36;} \qquad (26) Soit PP un facteur irréductible de DD de multiplicité kk tel que D=P kQD=P^k Q (donc PP premier avec QQ, mais PP est aussi premier avec NN car f=N/Df=N/D est irréductible). Alors en simplifiant numérateur et dénominateur par P k1P^{k-1}, on a : ( jP j)NPQN(kPQ+PQ)P k+1Q 2 est un polynôme en $X$.(27) \left( \prod_j P_j \right) \frac{N' P Q - N (kP'Q+PQ')}{ P^{k+1} Q^2} \mbox{ est un polynôme en &#36;X&#36;.} \qquad (27) On en déduit, après simplification d’au plus un facteur PP au dénominateur avec l’un des P jP_j, que P kP^{k} divise NPQN(kPQ+PQ)N' P Q - N (kP'Q+PQ') donc PP divise PP'. Ceci n’est possible que si P=1P=1 (et donc le dénominateur de ff est égal à 1) ou si la variable XX est une exponentielle et P=XP=X.

Montrons que ce deuxième cas est en fait exclus: en effet si P=X=exp(Y)P=X=\exp(Y) est une exponentielle, on a alors D=X kD=X^k et Q=1Q=1. Comme P=YXP'=Y'X, (27) devient : ( jP j)X(NkNY)X k+1 est un polynôme en $X$ \left( \prod_j P_j \right) \frac{X (N' - k N Y' )}{X^{k+1}} \mbox{ est un polynôme en &#36;X&#36;} Comme XX ne divise pas NN, NN possède donc un coefficient constant a 0a_0 non nul. Le coefficient constant de NkNYN'-kNY' est a 0ka 0Ya_0'-ka_0 Y'. Si ce terme était nul alors a 0=ka 0Ya_0'=ka_0 Y' donc a 0=cexp(kY)=cX ka_0=c \exp(kY)=cX^k or a 0a_0 ne dépend pas de XX donc c=0c=0 donc a 0=0a_0=0, absurde. Donc XX ne divise pas NkNYN'-kNY'. Comme X k+1X^{k+1} divise P jX(NkNY) \prod P_j X (N' - k N Y' ), on en déduit que X kX^k divise un des P jP_j. Donc k=1k=1 et P j=XQ jP_j=XQ_j. Revenons maintenant à (25), on a : f=ln(g)=ln(C)+jln(XQ j)+ ljlln(P l) f=\ln(g) = \ln(C)+j \ln(XQ_j)+ \sum_{l \neq j} l \ln(P_l) on dérive : f=ln(C)+jY+jQ jQ j+ ljlP lP l f'=\ln(C)'+jY'+j\frac{Q_j'}{Q_j}+\sum_{l \neq j} l \frac{P_l'}{P_l} on voit qu’il n’est plus nécessaire de multiplier ff' par P jP_j pour avoir un polynôme, multiplier par Q jQ_j suffit, plus précisément ( ljP l)Q jNDNDD 2 est un polynôme en $X$. \left( \prod_{l \neq j} P_l \right) Q_j \frac{N' D - N D'}{D^2} \mbox{ est un polynôme en &#36;X&#36;.} donc X k+1X^{k+1} divise ( ljP l)Q jX(NkNY) \left(\prod_{l \neq j}P_l \right) Q_j X (N' - k N Y' ) ce qui est impossible.

Donc D=1D=1 dans tous les cas et on a f=Nf=N. Donc f=N=ln(C)+ jjP j/P j est un polynôme par rapport à $X$ f'=N'=\ln(C)'+\sum_j j P_j'/P_j \mbox{ est un polynôme par rapport à &#36;X&#36;} On en déduit que les P jP_j ne dépendent pas de XX sauf si XX est une exponentielle et P j=XP_j=X. Dans les deux cas NN' ne dépend pas de XX donc le polynôme NN est de degré 0 ou 1 en XX (si XX est une exponentielle, NN est forcément de degré 0)

Après avoir fait une récurrence sur le nombre de variables de la tour, on a donc ff qui s’exprime comme combinaison linéaire à coefficients entiers des arguments g kg_k des variables exponentielles f k=exp(g k)f_k=\exp(g_k) de la tour et à coefficients a priori quelconque des variables logarithmes f l=ln(g l)f_l=\ln(g_l) de la tour : f= kj kg k+ lx lln(g l)=ln(g) f = \sum_k j_k g_k + \sum_l x_l \ln (g_l) = \ln (g) Comme gg est élémentaire, h=g/ kexp(g k) j kh=g/\prod_k \exp(g_k)^{j_k} est élémentaire de logarithme lx lln(g l)\sum_l x_l \ln (g_l) . Montrons que si les arguments des ln\ln sont des polynômes sans facteurs multiples, alors les x lx_l sont entiers. Rappelons que les ln(g l)\ln (g_l) sont algébriquement indépendants, on peut donc construire des polynômes irréductibles I lI_l par rapport aux variables de la tour tels que I lI_l divise une fois g lg_l mais ne divise pas les g kg_k précédents. Soit h= jP j jh=\prod_{j \in \mathbb{Z}} P_j^j la factorisation sans facteurs multiples de hh. On dérive alors ln(h)\ln(h) ce qui donne : lx lg l/g l= jjP j/P j \sum_l x_l g_l'/g_l = \sum_j j P_j'/P_j jP j j\prod_j P_j^j est la décomposition sans facteurs multiples de hh. Comme I lI_l divise un et un seul des P jP_j on en déduit que x lx_l est égal au jj correspondant et est donc entier. (Remarque: si on n’impose pas aux arguments des logarithmes d’être des polynômes sans facteurs carrés, on obtiendrait ici des coefficients rationnels).

En pratique:
On peut effecter l’algorithme de la manière suivante :

Remarque
On n’est pas obligé de se limiter aux seules fonctions logarithmes et exponentielles, l’essentiel est de pouvoir tester l’indépendance algébrique des expressions créées. Pour éviter d’avoir à introduire des exponentielles et logarithmes complexes dans une expression réelle, on peut autoriser par exemple des extensions en tangente ou en arctangente.

19.2.3  Théorème de Liouville

On a vu que la dérivée d’une fonction élémentaire dépendant d’une tour de variables est une fonction élémentaire dépendant de la même tour de variables. Réciproquement, supposons qu’une fonction élémentaire admette une primitive qui soit élémentaire, c’est-à-dire qu’elle doit être une fraction rationelle par rapport à une tour de variables mais pas forcément identique à celle de départ. Alors, si une telle écriture existe, à des termes logarithmiques près, elle ne peut dépendre que de la même tour de variables, plus précisément on a le théorème de Liouville :

Théorème 47   Soit ff une fonction élémentaire par rapport à une tour de variables TT et un corps de constantes KK admettant une primitive élémentaire FF. Alors il existe un nombre fini de constantes c 1,...,c nc_1,...,c_n et de fonctions élémentaires v 1,...,v nv_1,...,v_n par rapport à TT avec comme corps de constantes une extension algébrique KK' de KK tel que F kc kln(v k)F - \sum_k c_k \ln(v_k) soit élémentaire par rapport à TT et KK.

Preuve:2
Soit ff élémentaire de tour T 1T_1 (corps KK) et FF sa primitive supposée élémentaire de tour T 2T_2 et de corps KK' une extension algébrique de KK. On commence par rajouter après les élements de T 1T_1 les élements nécessaires de T 2T_2 pour obtenir une tour TT par rapport à laquelle ff et FF sont élémentaires (plus précisément FF sera élémentaire quitte à autoriser des puissances fractionnaires des variables exponentielles de T 1T_1). Le théorème de structure de Risch permet de faire cela, en effet on regarde pour chaque élément de T 2T_2 s’il est algébriquement indépendant des éléments de T 1T_1 ou non. S’il l’est, on le rajoute à la tour TT, s’il ne l’est pas alors dans le cas d’un logarithme il est élémentaire et dans le cas d’une exponentielle, une de ses puissances est élémentaire. Donc FF est bien une fraction rationnelle par rapport aux éléments logarithmiques de T 1T_1, aux racines nn-ième des éléments exponentiels de T 1T_1 et à des éléments de T 2T_2 dans cet ordre (le corps des constantes étant KK').

Première étape:
Commençons par les éléments restant de T 2T_2. Soit X kX_k l’élément au sommet de la tour TT. La dérivée ff de FF par rapport à X kX_k ne dépend pas de X kX_k. Donc soit FF ne dépend pas de X kX_k et on passe à la variable suivante, soit X k=ln(v k)X_k=\ln(v_k) est un logarithme et F=c kln(v k)+d kF=c_k \ln(v_k)+d_k avec c kKc_k \in K' et v kv_k et d kd_k indépendants de X kX_k. S’il n’y a pas d’autres éléments restants de T 2T_2, on passe à la 2ème étape. Sinon soit X k1X_{k-1} la variable suivante (juste en-dessous de X kX_k dans la tour). En dérivant, on a : F=c kv kv k+d k=f F'= c_k \frac{v_k'}{v_k} + d_k' = f Supposons que v kv_k dépende de X k1X_{k-1}, on fait alors un raisonnement analogue à celui de la preuve du théorème de structure de Risch, en décomposant v kv_k en produit/quotient de facteurs sans multiplicités v k=P j jv_k=\prod P_j^j et en écrivant d k=N/Dd_k=N/D on a : ( jP j)NDNDD 2\left(\prod_j P_j \right) \frac{N' D - N D'}{D^2} est un polynôme en X k1X_{k-1}. On en déduit comme précédemment que D=1D=1, N=d kN'=d_k' est indépendant de X k1X_{k-1}. Comme on a supposé que v kv_k dépend de X k1X_{k-1}, X k1=exp(Y k1)X_{k-1}=\exp(Y_{k-1}) est alors une exponentielle, N=d kN=d_k ne dépend pas de X k1X_{k-1} et l’un des P j=X k1P_j=X_{k-1} (sinon tous les P jP_j seraient constants en X k1X_{k-1} donc v kv_k aussi). On élimine alors la variable X k1X_{k-1} en écrivant ln(v k)=jY k1+ln(w k)\ln(v_k)=jY_{k-1}+\ln(w_k), avec Y k1Y_{k-1} et w kw_k élémentaires et indépendants de X k1X_{k-1}.

Si v kv_k est indépendant de X k1X_{k-1}, alors d kd_k' aussi donc soit d kd_k est indépendant de X k1X_{k-1} et on passe à la variable suivante, soit X k1X_{k-1} est un logarithme et d k=c k1ln(v k1)+d k1d_k=c_{k-1}\ln(v_{k-1})+d_{k-1}. En continuant pour toutes les variables restantes de T 2T_2, on obtient F= kc klnv k+d F=\sum_k c_k \ln v_k +d avec dd et v kv_k élémentaires pour T 1T_1 (avec exponentielles modifiées en en prenant une racine nn-ième) et KK'.

Deuxième étape Il s’agit de montrer que pour les exponentielles, il n’est en fait pas nécessaire de prendre de racines nn-ième. La compréhension de cette étape demande un peu de familiarité avec l’algorithme de Risch (cf. infra). On va faire la preuve pour la variable au sommet de la tour T 1T_1 si c’est une exponentielle. On verra dans le déroulement de l’algorithme de Risch que pour les autres variables, il y a appel récursif de l’algorithme d’intégration, donc traiter la variable au sommet suffira. Soit donc exp(Y)\exp(Y) la variable au sommet de la tour T 1T_1, on note X=exp(Y/n)X=\exp(Y/n) la racine nn-ième de cette variable qui est utilisée pour exprimer F=c klnv k+N/DF=\sum c_k \ln v_k + N/D comme une fraction rationnelle en XX alors que f=Ff=F' est une fraction rationnelle en X nX^n. On a donc : c kv kv k+ND=f=fraction rationnelle en (X n) \sum c_k \frac{v_k'}{v_k} + \frac{N}{D}' =f=\mbox{fraction rationnelle en }(X^n) Notons que le fait que XX soit une exponentielle est essentiel, car par exemple l’intégrale d’une fraction rationnelle dépendant de x nx^n comme x 3x^3 ou 1/(x 31)1/(x^3-1) ne s’exprime pas en fonction de x 3x^3. On traite d’abord la partie polynomiale généralisée de ff en X nX^n: ja j(X n) j \sum_{j\in \mathbb{Z}} a_j (X^n)^j Son intégrale est un polynôme généralisé, éventuellement dépendant de XX, soit jA jX j\sum_{j\in \mathbb{Z}} A_j X^j. On dérive, et on obtient pour kk non multiple de nn, A kY/n+A k=0A_k Y/n+A_k'=0 dont A k=0A_k=0 est solution. La partie polynôme généralisé ne dépend donc que de X nX^n. On effectue aussi les intégrations par parties pour réduire le dénominateur de ff à un polynôme sans facteurs multiples (réduction de Hermite), ce qui se fait en introduisant des fractions rationnelles en X nX^n uniquement. Reste la partie logarithmique. On utilise le critère du résultant, les coefficients des logarithmes sont les racines c kc_k du polynôme en tt Res X(D,NtD) \mbox{Res}_X (D,N-tD') où ces racines doivent être indépendantes de xx (puisque FF existe) et les v kv_k correspondants sont égaux à gcd(D,Nc kD) \mbox{gcd}(D,N-c_k D') Or comme XX est une exponentielle, DD' est un polynôme en X nX^n, de même que DD et NN, donc v kv_k est un polynôme en X nX^n.

Troisième étape Il reste enfin à montrer que seuls les c kc_k et v kv_k nécessitent une extension algébrique de KK. Ceci est encore une conséquence de l’algorithme de Risch, la construction de la partie polynomiale (éventuellement généralisée) et de la partie fractionnaire ne font en effet intervenir que des coefficients dans le corps KK.

19.3  L’algorithme de Risch

On suppose dans la suite qu’on s’est ramené à une fraction rationnelle par rapport à une tour de variables (où on a effectué les simplifications évidentes lnexp\ln \circ \exp, ainsi que expln\exp \circ \ln, dans le premier cas en extrayant les facteurs évidents en les variables précédentes exponentielles, dans le deuxième cas en extrayant la partie linéaire à coefficient entier en les variables logarithmes précédentes). On note XX la variable au sommet de la tour et N 0/D 0N_0/D_0 l’écriture de la fonction élémentaire comme fraction irréductible avec N 0N_0 et D 0D_0 polynômes en XX.

Exemples
(2x 2+1)e x 2 X=e x 2 N 0=(2x 2+1)X,D 0=1 xln(x)x+ln(x) X=ln(x) N 0=xX,D 0=x+X \begin{matrix} \int (2x^2+1) e^{x^2} & X=e^{x^2} & N_0=(2x^2+1) X, D_0=1 \\ \int \frac{x \ln(x)}{x+\ln(x)} & X=\ln(x) & N_0=xX, D_0=x+X \end{matrix}

La première étape va consister à se ramener à un dénominateur sans facteurs multiples. Elle est analogue au cas des fractions rationnelles de xx et est basée sur l’identité de Bézout entre PP et PP' vu comme polynômes en la variable du haut de la tour. Il apparait toutefois une difficulté pour les extensions exponentielles, à savoir que X=e fX=e^f et X=fXX'=f' X ne sont pas premiers entre eux comme polynômes en XX, on devra traiter le pôle 0 d’une fraction rationnelle en une exponentielle XX comme on traite l’intégration d’un polynôme en xx. Si PP est sans facteurs multiples et premier avec XX, alors P(X)P(X) et P(X)=fXP(X)P(X)'=f' X P'(X) vu comme polynômes en XX n’ont pas de facteurs en commun.

On commence donc, si XX est une exponentielle et D 0D_0 un multiple de XX, par appliquer Bézout pour décomposer la fraction N 0/D 0N_0/D_0 en : N 0D 0=N 1D 1+PX k,gcd(X,D 1)=1,D 0=X kD 1 \frac{N_0}{D_0} =\frac{N_1}{D_1} + \frac{P}{X^{k} } , \quad \mbox{gcd}(X,D_1)=1, D_0=X^k D_1 On isole aussi la partie polynômiale en effectuant la division euclidienne de N 0N_0 par D 0D_0 (ou de N 1N_1 par D 1D_1 si XX est une exponentielle), on obtient alors une écriture sous la forme : ND+ ja jX j \frac{N}{D} + \sum_j a_j X^j où la somme sur jj est finie et porte sur des entiers positifs ou nul si XX n’est pas une exponentielle, ou sur des entiers relatifs si XX est une exponentielle.

On effectue la même écriture sur la partie fractionnaire de FF, et en identifiant les parties polynomiales et éventuellement la partie polaire en 0 si XX est une exponentielle, on peut séparer l’intégration en 2 parties: intégration de la partie polynomiale (généralisée) et intégration de la partie fractionnaire propre.

Exemples

19.3.1  Intégration d’une fraction propre

19.3.2  Réduction sans facteurs multiples

On factorise DD en iP i i\prod_i P_i^i avec P iP_i sans facteurs multiples (et les P iP_i premiers entre eux 2 à 2) et on décompose en éléments simples relativement à cette factorisation (en appliquant Bézout) : ND= i>0N iP i i \frac{N}{D} = \sum_{i&gt;0} \frac{N_i}{P_i^i} Pour chaque polynome P iP_i, on applique Bézout à P iP_i et P iP'_i : N i=A iP i+B iP iN iP i i=A iP i i1+B iP iP i i N_i = A_iP_i+B_iP'_i \Rightarrow \frac{N_i}{P_i^i}=\frac{A_i}{P_i^{i-1}} + \frac{B_iP_i'}{P_i^i} on intègre par parties le second terme N iP i i=A iP i i1B i(i1)P i i1+B i(i1)P i i1 \int \frac{N_i}{P_i^i} = \int \frac{A_i}{P_i^{i-1}} - \frac{B_i}{(i-1)P_i^{i-1}} + \int \frac{B_i'}{(i-1)P_i^{i-1}} on rassemble les deux intégrales ayant P i i1P_i^{i-1} au dénominateur et on recommence jusqu’à avoir une puissance 1 au dénominateur. Il reste alors à intégrer une somme de fractions du type N/DN/D avec DD et DD' premiers entre eux.

Exemple
On reprend le dernier exemple de la section précédente pour éliminer la puissance 2 au dénominateur: N 2=2xN_2=2x et P 2=(X+1)P_2=(X+1) avec X=e xX=e^x. On a P 2=XP_2'=X, donc A 2=2xA_2=2x et B 2=2xB_2=-2x : 2x(X+1) 2=2xP 2+2xP 2P 2 2=2xP 2+2xP 22P 2 \int \frac{2x}{(X+1)^2} =\int \frac{2x}{P_2} + \int \frac{-2x P_2'}{P_2^2} = \int \frac{2x}{P_2} + \frac{2x}{P_2} - \frac{2}{P_2} il reste donc à intégrer (2x2)/(e x+1)(2x-2)/(e^x+1).

19.3.3  La partie logarithmique

Comme on l’a vu lors de la preuve du théorème de structure de Risch, si on dérive une fraction en XX, le dénominateur de la dérivée ne peut se décomposer qu’en produit de facteurs de multiplicité supérieure ou égale à 2. Il en résulte que la fraction à intégrer résiduelle (encore notée f=N/Df=N/D) après l’étape de réduction ci-dessus ne peut provenir que de la dérivation de F= kc kln(v k)F=\sum_k c_k \ln (v_k) : f=ND=F=( kc kln(v k))= kc kv kv k f=\frac{N}{D}=F'= (\sum_k c_k \ln (v_k))'= \sum_k c_k \frac{v_k'}{v_k} En identifiant les décompositions en éléments simples de FF' et ff, on montre également que les v kv_k divisent DD, plus précisément on peut imposer aux v kv_k d’être premiers entre eux 2 à 2 et dans ce cas D=v kD=\prod v_k. Donc : kc kv kv k=N kv k=ND \sum_k c_k \frac{v_k'}{v_k} = \frac{N}{\prod_k v_k}=\frac{N}{D} et : N= kc kv k jkv j N = \sum_k c_k v_k' \prod_{j\neq k} v_j Soit tt un paramètre, formons le polynôme NtDN-tD' : NtD= k((c kt)v k jkv j) N-tD' = \sum_k \left( (c_k -t) v_k' \prod_{j\neq k} v_j \right) donc le pgcd en XX des polynômes NtDN-tD' et DD est :

Considérons le polynôme RR de la variable tt égal au résultant par rapport à XX des polynômes DD et NtDN-tD' (rappelons qu’il s’agit du déterminant du système linéaire AD+B(NtD)=1AD+B(N-tD')=1 où les inconnues sont les coefficients des polynômes AA et BB, ce déterminant est nul si et seulement si le système n’a pas de solution donc si et seulement si DD et NtDN-tD' ne sont pas premiers entre eux), alors ce polynôme en tt s’annule si et seulement si t=c kt=c_k. On cherche les racines c kc_k en tt de ce polynôme, elles doivent être indépendantes de xx si FF est élémentaire, et dans ce cas la primitive FF de f=N/Df=N/D vaut F= c k racine de Rc kln(gcd(Nc kD,D)) F=\sum_{c_k \mbox{ racine de } R} c_k \ln(\mbox{gcd}(N-c_k D',D))

Exemples

Remarque importante
Pour les extensions exponentielles ou logarithmiques, la dérivée de la partie logarithmique calculée comme ci-dessus contiendra en général une partie entière constante par rapport à XX, il faut donc retirer cette partie entière à la partie polynomiale.

19.3.4  La partie polynomiale (généralisée)

On doit résoudre : ( jA jX j)= ja jX j (\sum_j A_j X^j)'=\sum_j a_j X^j avec une somme sur jj \in\mathbb{Z} si XX est une exponentielle et jj\in \mathbb{N} sinon.

Si X=xX=x, j0j\geq 0 et la résolution est immédiate: on prend A 0=0A_0=0 et A j+1=a j/(j+1)A_{j+1}=a_{j}/(j+1).

19.3.5  Extension logarithmique

Si X=ln(Y)X=\ln(Y) est un logarithme, j0j \geq 0 et on doit résoudre : j0(A j+(j+1)A j+1YY)X j= ja jX j \sum_{j\geq 0} (A_j'+(j+1)A_{j+1} \frac{Y'}{Y}) X^j = \sum_j a_j X^j Soit kk la plus grande puissance non nulle de ff (a j=0a_j=0 si j>kj&gt;k et a k0a_k\neq 0). Pour j>kj&gt;k, on a : A j+(j+1)A j+1YY=0 A_j'+(j+1)A_{j+1} \frac{Y'}{Y} =0 On résout pour des valeurs de jj décroissante, pour jj suffisamment grand, on a A j+1=0A_{j+1}=0 car la somme sur jj est finie, donc A jA_j est constant. Si A j0A_j \neq 0, alors au rang j1j-1, on a A j1=jA jY/YA_{j-1} ' = -j A_j Y'/Y qui n’admet pas de solutions car A j1A_{j-1} ne peut pas dépendre de X=ln(Y)X=\ln(Y). On en déduit que pour j>k+1j&gt;k+1, on a A j=0A_j=0 et A k+1A_{k+1} est constant. En fait la valeur constante de A k+1A_{k+1} sera déterminée par une condition de compatibilité en résolvant l’équation au rang du dessous. On continue la résolution de A j+(j+1)A j+1ln(Y)=a j A_j'+(j+1)A_{j+1} \ln(Y)' = a_j par valeur décroissante de jj, à chaque rang on va déterminer A jA_j à une constante près en résolvant un problème d’intégration (par appel récursif de l’algorithme de Risch, mais si j0j \neq 0 sans autoriser l’ajout de nouveaux logarithmes sauf ln(Y)\ln(Y)) et la valeur de la constante de A j+1A_{j+1} (on fait varier A j+1A_{j+1} de la constante nécessaire pour absorber le terme en ln(Y)\ln(Y) qui apparait lors de l’appel récursif de Risch). Au rang 0, on est ramené à un problème d’intégration avec une variable de moins (la constante indéterminée dans A 1A_1 peut par exemple être choisie comme le coefficient constant de ln(Y)\ln(Y) s’il en apparait un en intégrant).

Exemple
X=ln(x 2+1)X=\ln(x^2+1) et on cherche l’intégrale de X 2X^2. On a donc A 3A_3 est constant, A 2+3A 3ln(x 2+1)=1 A_2' + 3 A_3 \ln(x^2+1)' = 1 La primitive de 1 est élémentaire et ne fait pas intervenir de ln\ln donc A 3=0A_3=0 et A 2=x+C 2A_2=x+C_2. Au rang 1, on a : A 1+3x2xx 2+1+C 2ln(x 2+1)=0A_1' + 3 x \frac{2x}{x^2+1} + C_2 \ln(x^2+1)' = 0 On calcule la primitive de 6x 2/(x 2+1)6x^2/(x^2+1) qui doit être une fraction rationnelle à un Cln(x 2+1)C\ln(x^2+1) près, on voit que ce n’est pas le cas donc X 2X^2 n’admet pas de primitive élémentaire. Remarque: si on avait voulu intégrer XX au lieu de X 2X^2, la même méthode montre que la primitive existe, car au rang 0 il n’y a plus de contraintes sur les ln\ln qu’on peut rajouter.

19.3.6  Extension exponentielle

Si X=exp(Y)X=\exp(Y) est une exponentielle, on doit résoudre : j(A j+jYA j)X j= ja jX j \sum_{j} (A_j'+j Y'A_{j}) X^j = \sum_j a_j X^j Ceci va se faire degré par degré : A j+jYA j=a j(28) A_j'+j Y' A_{j} = a_j \qquad (28) Exemple
Pour calculer a(x)exp(x 2)\int a(x) \exp(x^2), on a j=1j=1, et on doit résoudre l’équation différentielle : A 1+2xA 1=a(x) A_1'+2xA_1= a(x)

Pour j=0j=0, il suffit de faire un appel récursif à l’algorithme de Risch, mais pour j0j\neq 0, la situation se complique! Notons ZZ la variable située juste en-dessous de XX dans la tour de variables (dans l’exemple ci-dessus Z=xZ=x), il s’agit de résoudre : y+fy=g(29) y'+f y=g \qquad (29) avec ff, gg élémentaires par rapport à une tour dont le variable au sommet est ZZ, on cherche yy élémentaire par rapport à cette tour (ici f=jYf=jY' est une dérivée mais dans certains cas nous devrons résoudre par appel récursif des équations du type ci-dessus où ff ne sera pas une dérivée).

Élimination des dénominateurs
Soit PP un facteur irréductible du dénominateur de yy, notons α<0\alpha&lt;0 la valuation de yy par rapport à PP, β\beta celle de ff, γ\gamma celle de gg. Si PP n’est pas une exponentielle, la valuation de yy' est α1\alpha-1, celle de fy f y est α+β\alpha +\beta . Si β1\beta \neq -1, il n’y a pas de simplification possible dans le membre de gauche donc α+min(β,1)=γ\alpha + \min(\beta,-1) =\gamma. Autrement dit, si β0\beta \geq 0 alors α=γ+1\alpha=\gamma+1 et si β<1\beta&lt;-1 alors α=γβ\alpha=\gamma-\beta. On observe que γ<0\gamma&lt;0 donc PP est un facteur du dénominateur g dg_d de gg. De plus, on va montrer que la valuation α\alpha de PP dans yy est l’opposé de celle de PP dans : D=gcd(g d, Zg d)gcd(c, Zc),c=gcd(f d,g d)(30) D=\frac{\mbox{gcd}(g_d,\partial_Z g_d)}{\mbox{gcd}(c,\partial_Z c)}, \quad c=\mbox{gcd}(f_d,g_d) \qquad (30) En effet, si β0\beta \geq 0, PP ne divise pas f df_d donc ne divise pas cc, donc la valuation de PP dans DD est γ1-\gamma-1. Si β<1\beta &lt; -1, alors α=γβ<0\alpha=\gamma - \beta &lt;0 entraine γ>β-\gamma &gt; -\beta donc la valuation de PP dans cc est β-\beta et la valuation de PP dans DD est γ1(β1)-\gamma-1 - (-\beta-1).

Si β=1\beta=-1, s’il n’y a pas de simplifications dans le membre de gauche pour les termes de plus petite puissance en PP, alors α=γ+1\alpha=\gamma+1. S’il y a simplification, on décompose en éléments simples (avec Bézout) puis on ordonne par puissances croissantes de PP : y=N 1P α+...,f=N 2P 1+...,y= N_1 P^\alpha +..., f= N_2 P^{-1}+..., avec N 1,N 2N_1,N_2 de degré plus petit que PP, puis on remplace dans (29). On cherche les termes de valuation α1\alpha-1 en PP qui doivent se simplifier : αN 1PP α1+N 2P 1N 1P α=0 \alpha N_1 P' P^{\alpha-1} + N_2 P^{-1} N_1 P^\alpha =0 donc : N 2=αP N_2 = -\alpha P' ce qui détermine α\alpha.

Récapitulons
Si ff est une dérivée, alors β=1\beta=-1 est exclus et on peut appliquer (30) pour déterminer DD. Si ff n’est pas une dérivée, on calcule les facteurs de degré 1 de f df_d : f 1=f dgcd(f d, Zf d) f_1=\frac{f_d}{\mbox{gcd}(f_d,\partial_Z f_d)} on décompose ff par Bézout en isolant la partie N/f 1N/f_1 les α\alpha possibles sont alors les racines entières (en tt) du résultant en ZZ de Ntf 1N-tf_1' et f 1f_1, ils correspondent aux facteurs gcd(Nαf 1,f 1)(N-\alpha f_1',f_1) que l’on retire de f df_d pour appliquer (30).

Exemple
Reprenons y+2xy=a(x)y'+2xy=a(x). Si a(x)=1a(x)=1 (résolution de exp(x 2)\int \exp(x^2)), ou plus généralement si a(x)a(x) est un polynôme, alors D=1D=1. Si a(x)=1/x 2a(x)=1/x^2, on trouve D=xD=x et on pose y=xzy=xz, donc x 2(xz+z)+2x 4z=1x^2(xz'+z)+2x^4z=1 soit x 3z+(2x 4+1)z=1x^3z'+(2x^4+1)z=1.

Reste le cas où ZZ est une exponentielle et P=exp(z)P=\exp(z). On reprend le même raisonnement, yy' a pour valuation α<0-\alpha&lt;0, fyfy a pour valuation βα-\beta-\alpha, donc si β>0\beta &gt; 0, α=γ\alpha=\gamma et si β<0\beta&lt;0, α=γβ\alpha=\gamma-\beta. Si β=0\beta=0, s’il n’y a pas de simplifications du terme de plus bas degré, on est ramené au cas précédent. Si β=0\beta=0 et s’il y a simplification des termes de plus bas degré en ZZ, notons f 0f_0 le coefficient constant de ff par rapport à ZZ et y αy_{\alpha} le coefficient de Z αZ^{\alpha} dans yy, on a y α+(αz+f 0)y α=0 y_\alpha ' + (\alpha z' + f_0) y_\alpha =0 donc : y α=exp(αzf 0) y_\alpha= \exp(-\alpha z-\int f_0) Comme y αy_\alpha est élémentaire et indépendant de ZZ on en déduit par le théorème de structure de Risch que αzf 0-\alpha z -\int f_0 est combinaison linéaire à coefficients rationnels des logarithmes et des arguments des exponentielles de la tour, de plus le coefficient de zz doit être nul pour que y αy_\alpha soit indépendant de ZZ, ce qui impose la valeur de α\alpha (après avoir résolu récursivement le problème d’intégration pour f 0f_0)

Majoration du degré du numérateur de yy
En multipliant yy par DZ αD Z^{-\alpha}, puis en réduisant au même dénominateur, on se ramène alors à une équation différentielle à coefficients polynomiaux par rapport à la variable ZZ dont l’inconnue est un polynôme NN : RN+SN=T(31) R N' + S N = T \qquad (31) On va chercher une majoration sur le degré possible de NN puis utiliser l’identité de Bézout pour simplifier cette équation.

On écrit maintenant N= k=0 nN kZ kN=\sum_{k=0}^n N_k Z^k et on remplace, il y a à nouveau trois cas selon le type de ZZ.

Si Z=xZ=x: cas exponentielle rationnelle
Donc Z=1Z'=1, le degré de RNRN' est r+n1r+n-1 (si NN est non constant c’est-à-dire si TT n’est pas un multiple de SS), le degré de SNSN est s+ns+n. Si r1sr-1\neq s, on en déduit que : n=tmax(r1,s) n=t-\max(r-1,s) Si r1=sr-1=s, on peut avoir une simplification du terme de plus haut degré s+ns+n (sinon on est dans le cas précédent) si nR r=S sn R_r =S_s d’où on déduit le degré nn de NN.

Par exemple, pour y+2xy=Ty'+2xy=T ou pour x 3z+(2x 4+1)z=1x^3z'+(2x^4+1)z=1 on a r=s1r=s-1 donc n+s=tn+s=t, donc pas de solution dans le deuxième cas, dans le premier cas il ne peut y avoir de solutions que si tst \geq s, en particulier il n’y a pas de solution pour t=1t=1, on a donc démontré que exp(x 2)\int \exp(x^2) n’admet pas de primitive élémentaire.

Si Z=exp(z)Z=\exp(z): cas exponentielle d’exponentielle
Ici les N kN_k peuvent ne pas être constants, on a : N= k=0 n(N k+kN kz)Z k N'=\sum_{k=0}^n (N_k'+kN_k z') Z^k Comme on l’a déjà observé, N n+nN nz0N_n'+n N_n z'\neq 0, donc le degré de NN' est égal au degré de NN. On a donc trois cas :

Si Z=ln(z)Z=\ln(z): exponentielle de logarithme
Ici aussi, les N kN_k peuvent ne pas être constants, on a : N= k=0 n(N kZ k+kN kzzZ k1) N'=\sum_{k=0}^n (N_k'Z^k+kN_k \frac{z'}{z} Z^{k-1}) Si N nN_n n’est pas constant, le terme de plus haut degré de RNRN' est N nR rZ n+rN_n' R_r Z^{n+r}, si N nN_n est constant, le terme de plus haut degré de RNRN' est R r(nN nz/z+N n1)Z r1R_r(nN_nz'/z+N_{n-1}') Z^{r-1} qui est non nul (sinon z/z=CN n1z'/z=CN_{n-1}' et z=exp(CN n1)z=\exp(CN_{n-1}) serait une exponentielle). Le terme de plus haut degré de SNSN est N nS sZ n+sN_n S_s Z^{n+s}.

Réduction (algorithme SPDE de Rothstein)
On observe d’abord que si RR et SS ont un facteur en commun, alors ce facteur divise TT car NN' et NN sont des polynômes en ZZ. On peut donc quitte à simplifier par gcd(R,S)(R,S) se ramener au cas où RR et SS sont premiers entre eux, il existe donc deux polynômes UU et VV tels que : RU+SV=T,deg(V)<deg(R)(32) RU+SV=T, \quad \mbox{deg}(V)&lt; \mbox{deg}(R) \qquad (32) En soustrayant (32) de (31), on montre que RR divise NVN-V. Soit H=(NV)/RH=(N-V)/R. Alors N=RH+VN=RH+V donc R(RH+RH+V)+SRH+SV=T=RU+SV R (RH'+R'H+V')+SRH+SV= T=RU+SV donc après simplification par SVSV et division par RR, HH vérifie l’équation : RH+(S+R)H=UV R H' + (S+R') H = U - V' C’est une équation du même type mais avec deg(H)(H)=deg(N)(N)-deg(R)(R) ou H=0H=0 (si N=VN=V). Donc si deg(R)>0(R)&gt;0, au bout d’un nombre fini d’étapes on doit tomber sur un second membre nul ou des simplifications de RR avec S+RS+R' telles que RR simplifié soit constant en ZZ.

Résolution
Si RR est constant par rapport à ZZ, on simplifie par RR et on doit résoudre N+SN=T N'+SN=T Si S=0S=0, c’est un problème d’intégration. Supposons donc que S0S\neq 0. Si SS est non constant par rapport à ZZ ou si Z=xZ=x, le degré de NN' est strictement inférieur au degré de SNSN, on peut donc facilement résoudre. Reste le cas où S=bS=b est constant non nul par rapport à ZZ et ZZ est une exponentielle ou un logarithme.

Si Z=exp(z)Z=\exp(z)
On a alors doit alors résoudre N k+kN kz+bN k=T k N_k'+ k N_k z' + b N_k=T_k c’est une équation différentielle de Risch mais avec une variable de moins.

Si Z=ln(z)Z=\ln(z)
On doit alors résoudre N k+(k+1)N k+1zz+bN k=T k N_k'+ (k+1) N_{k+1} \frac{z'}{z} + b N_k =T_k c’est aussi une équation différentielle de Risch avec une variable de moins.

Exemple
Voyons comment on intègre x nx^n avec nn un paramètre par l’algorithme de Risch (cela illustre les possibilités couvertes par l’algorithme mais aussi l’efficacité des méthodes traditionnelles d’intégration lorsqu’elles s’appliquent). On écrit d’abord x n=e nln(x)x^n=e^{n \ln(x)}, donc la tour de variables est {x,Z=ln(x),X=e nln(x)}\{ x, Z=\ln(x), X=e^{n \ln(x)}\}, il s’agit donc d’intégrer XX qui est un polynôme généralisé. On cherche donc A 1A_1 solution de l’équation différentielle de Risch A 1+n/xA 1=1 A_1'+ n /x A_1=1 Par rapport à Z=ln(x)Z=\ln(x) la fonction f=n/xf=n/x est un polynôme, donc on applique le dernier cas ci-dessus, A 1A_1 est aussi indépendant de ln(x)\ln(x) et on se ramène à résoudre la même équation mais avec comme variable principale xx et non ZZ. Cette fois, il y a un dénominateur xx en ff. Si A 1A_1 possède un dénominateur, il faut qu’il y ait annulation du terme de plus bas degré en xx car le second membre n’a pas de dénominateur, on obtient n+α=0n+\alpha=0 qui n’a pas de solution, donc A 1A_1 est un polynôme en xx et l’équation se réécrit en : xA 1+nA 1=x xA_1'+nA_1=x On majore alors le degré en xx de A 1A_1 par 1, car il ne peut pas y avoir d’annulation de terme de plus grand degré. Ensuite, on peut appliquer l’algorithme SPDE de Rothstein pour réduire le degré, ou ici conclure à la main, xx divise nA 1nA_1 donc A 1=CxA_1=Cx qu’on remplace et C=1/(n+1)C=1/(n+1). Finalement, A 1=x/(n+1)A_1=x/(n+1) et x n=x/(n+1)×x n\int x^n=x/(n+1) \* x^n.

19.4  Quelques références


1
cette preuve peut être sautée en première lecture
2
Peut être omise en première lecture

Chapitre 20  Intégration numérique

Les fractions rationnelles admettent une primitive que l’on calcule en décomposant la fraction avec Bézout comme expliqué précédemment. Mais elles font figure d’exceptions, la plupart des fonctions n’admettent pas de primitives qui s’expriment à l’aide des fonctions usuelles. Pour calculer une intégrale, on revient donc à la définition d’aire sous la courbe, aire que l’on approche, en utilisant par exemple un polynome de Lagrange.

Le principe est donc le suivant : on découpe l’intervalle d’intégration en subdivisions [a,b]=[a,a+h]+[a+h,a+2h]+...[a+(n1)h,a+nh=b[a,b]=[a,a+h] + [a+h,a+2h]+...[a+(n-1)h,a+nh=b, où h=(ba)/nh=(b-a)/n est le pas de la subdivision, et sur chaque subdivision, on approche l’aire sous la courbe.

20.1  Les rectangles et les trapèzes

Sur une subdivision [α,β][\alpha,\beta], on approche la fonction par un segment. Pour les rectangles, il s’agit d’une horizontale : on peut prendre f(α)f(\alpha), f(β)f(\beta) (rectangle à droite et gauche) ou f((α+β)/2)f((\alpha+\beta)/2) (point milieu), pour les trapèzes on utilise le segment reliant [α,f(α)][\alpha,f(\alpha)] à [β,f(β)][\beta,f(\beta)].

Exemple : calcul de la valeur approchée de 0 1t 3dt\int_0^1 t^3 dt (on en connait la valeur exacte 1/4=0.251/4=0.25) par ces méthodes en subdivisant [0,1][0,1] en 10 subdivisions (pas h=1/10h=1/10), donc α=j/10\alpha=j/10 et β=(j+1)/10\beta=(j+1)/10 pour jj variant de 0 à 9. Pour les rectangles à gauche, on obtient sur une subdivision f(α)=(j/10) 3f(\alpha)=(j/10)^3 que l’on multiplie par la longueur de la subdivision soit h=1/10h=1/10 : 110 j=0 9(j10) 3=81400=0.2025 \frac{1}{10} \sum_{j=0}^9 (\frac{j}{10})^3 = \frac{81}{400} = 0.2025 Pour les rectangles à droite, on obtient 110 j=1 10(j10) 3=121400=0.3025 \frac{1}{10} \sum_{j=1}^{10} (\frac{j}{10})^3 = \frac{121}{400} = 0.3025 Pour le point milieu f((α+β)/2)=f((j/10+(j+1)/10)/2)=f(j/10+1/20)f((\alpha+\beta)/2)=f((j/10+(j+1)/10)/2)=f(j/10+1/20) 110 j=0 9(j10+120) 3=199/800=0.24875 \frac{1}{10} \sum_{j=0}^9 (\frac{j}{10}+\frac{1}{20})^3 = 199/800 = 0.24875 Enfin pour les trapèzes, l’aire du trapèze délimité par l’axe des xx, les verticales y=αy=\alpha, y=βy=\beta et les points sur ces verticales d’ordonnées respectives f(α)f(\alpha) et f(β)f(\beta) vaut hf(α)+f(β)2 h \frac{f(\alpha)+f(\beta)}{2} donc 110 j=0 9((j10) 3+(j+110) 3)=101400=0.2525 \frac{1}{10} \sum_{j=0}^9 \left( (\frac{j}{10})^3 +(\frac{j+1}{10})^3 \right) = \frac{101}{400} = 0.2525 Dans la somme des trapèzes, on voit que chaque terme apparait deux fois sauf le premier et le dernier.

Plus généralement, les formules sont donc les suivantes : rectangle gauche = h j=0 n1f(a+jh) rectangle droit = h j=1 nf(a+jh) point milieu = h j=0 n1f(a+jh+h2) trapezes = h(f(a)+f(b)2+ j=1 n1f(a+jh))(33) \begin{matrix} \mbox{rectangle gauche} & = & h \sum_{j=0}^{n-1} f(a+jh) \\ \mbox{rectangle droit} & = & h \sum_{j=1}^{n} f(a+jh) \\ \mbox{point milieu} & = & h \sum_{j=0}^{n-1} f(a+jh+\frac{h}{2}) \\ \mbox{ trapezes } & = & h \left(\frac{f(a)+f(b)}{2}+\sum_{j=1}^{n-1} f(a+jh) \right) \end{matrix} \qquad (33) h=(ba)/nh=(b-a)/n est le pas de la subdivision, nn le nombre de subdivisions.





On observe sur l’exemple que le point milieu et les trapèzes donnent une bien meilleure précision que les rectangles. Plus généralement, la précision de l’approximation n’est pas la même selon le choix de méthode. Ainsi pour les rectangles à gauche (le résultat est le même à droite), si ff est continument dérivable, de dérivée majorée par une constante M 1M_1 sur [a,b][a,b], en faisant un développement de Taylor de ff en α\alpha, on obtient | α βf(t)dt α βf(α)dt|=| α βf(θ t)(tα)dt|M 1 α β(tα)dt=M 1(βα) 22 |\int_{\alpha}^{\beta} f(t) dt - \int_{\alpha}^{\beta} f(\alpha) dt | = | \int_{\alpha}^{\beta} f'(\theta_t)(t-\alpha) dt | \leq M_1 \int_{\alpha}^{\beta} (t-\alpha) dt = M_1\frac{(\beta-\alpha)^2}{2} Ainsi dans l’exemple, on a M 1=3M_1=3, l’erreur est donc majorée par 0.0150.015 sur une subdivision, donc par 0.150.15 sur les 10 subdivisions.

Pour le point milieu, on fait le développement en (α+β)/2(\alpha+\beta)/2 à l’ordre 2, en supposant que ff est deux fois continument dérivable : | α βf(t) α βf(α+β2)| = | α βf(α+β2)(tα+β2)dt + α βf(θ t)2(tα+β2) 2| M 222 α+β2 β(tα+β2) 2dt M 2(βα) 324 \begin{matrix} |\int_{\alpha}^{\beta} f(t) - \int_{\alpha}^{\beta} f(\frac{\alpha+\beta}{2}) | &= &| \int_{\alpha}^{\beta} f'(\frac{\alpha+\beta}{2})(t-\frac{\alpha+\beta}{2}) dt \\ & & + \int_{\alpha}^{\beta} \frac{f'{'}(\theta_t)}{2}(t-\frac{\alpha+\beta}{2})^2 | \\ &\leq & \frac{M_2}{2} 2 \int_{\frac{\alpha+\beta}{2}}^{\beta} (t-\frac{\alpha+\beta}{2})^2 dt \\ & \leq & M_2\frac{(\beta-\alpha)^3}{24} \end{matrix} Dans l’exemple, on a M 2=6M_2=6, donc l’erreur sur une subdivision est majorée par 0.25e30.25e-3, donc sur 10 subdivisions par 0.25e2=0.00250.25e-2=0.0025.

Pour les trapèzes, la fonction gg dont le graphe est le segment reliant [α,f(α)][\alpha,f(\alpha)] à [β,f(β)][\beta,f(\beta)] est f(α)+(tα)/(βα)f(β)f(\alpha)+(t-\alpha)/(\beta-\alpha)f(\beta), c’est en fait un polynome de Lagrange, si ff est deux fois continument dérivable, on peut donc majorer la différence entre ff et gg en utilisant (50), on intègre la valeur absolue ce qui donne | α βf(t)dt α βg(t)dt| α β|f(ξ x)2(xα)(xβ)|M 2(βα) 312 |\int_{\alpha}^{\beta} f(t) dt - \int_{\alpha}^{\beta} g(t) dt | \leq \int_{\alpha}^{\beta} |\frac{f'{'}(\xi_x)}{2} (x-\alpha)(x-\beta)| \leq M_2 \frac{(\beta-\alpha)^3}{12} M 2M_2 est un majorant de |f||f'{'}| sur [a,b][a,b].

Lorsqu’on calcule l’intégrale sur [a,b][a,b] par une de ces méthodes, on fait la somme sur n=(ba)/hn=(b-a)/h subdivisions de longueur βα=h\beta-\alpha=h, on obtient donc une majoration de l’erreur commise sur l’intégrale :

Lorsque hh tend vers 0, l’erreur tend vers 0, mais pas à la même vitesse, plus rapidement pour les trapèzes et le point milieu que pour les rectangles. Plus on approche précisément la fonction sur une subdivision, plus la puissance de hh va être grande, plus la convergence sera rapide lorsque hh sera petit, avec toutefois une contrainte fixée par la valeur de M kM_k, borne sur la dérivée kk-ième de ff (plus kk est grand, plus M kM_k est grand en général). Nous allons voir dans la suite comment se comporte cette puissance de hh en fonction de la facon dont on approche ff.

20.2  Ordre d’une méthode

On appelle méthode d’intégration l’écriture d’une approximation de l’intégrale sur une subdivision sous la forme α βf(t)dtI(f)= j=1 kw jf(x j) \int_{\alpha}^{\beta} f(t) dt \approx I(f)=\sum_{j=1}^k w_j f(x_j) où les x jx_j sont dans l’intervalle [α,β][\alpha,\beta], par exemple équirépartis sur [α,β][\alpha,\beta]. On utilise aussi la définition : α βf(t)dtI(f)=(βα) j=1 kw˜ jf(x j) \int_{\alpha}^{\beta} f(t) dt \approx I(f)= (\beta-\alpha)\sum_{j=1}^k \tilde{w}_j f(x_j) On prend toujours jw j=βα\sum_j w_j=\beta-\alpha (ou jw˜ j=1\sum_j \tilde{w}_j=1) pour que la méthode donne le résultat exact si la fonction est constante.

On dit qu’une méthode d’intégration est d’ordre nn si il y a égalité ci-dessus pour tous les polynômes de degré inférieur ou égal à nn et non égalité pour un polynôme de degré n+1n+1. Par exemple, les rectangles à droite et gauche sont d’ordre 0, le point milieu et les trapèzes sont d’ordre 1. Plus généralement, si on approche ff par son polynôme d’interpolation de Lagrange en n+1n+1 points (donc par un polynôme de degré inférieur ou égal à nn), on obtient une méthode d’intégration d’ordre au moins nn.

Si une méthode est d’ordre nn avec des w j0w_j\geq 0 et si ff est n+1n+1 fois continument dérivable, alors sur une subdivision, on a : | α βfI(f)|M n+1(βα) n+2(n+1)!(1n+2+1)(34) |\int_{\alpha}^{\beta} f-I(f)| \leq M_{n+1} \frac{(\beta-\alpha)^{n+2}}{(n+1)!} (\frac{1}{n+2}+1) \qquad (34)

En effet, on fait le développement de Taylor de ff par exemple en α\alpha à l’ordre nn f(t) = T n(f)+(tα) n+1(n+1)!f [n+1](θ t), T n(f) = f(α)+(tα)f(α)+...+(tα) nn!f [n](α) \begin{matrix} f(t)&=&T_{n}(f)+\frac{(t-\alpha)^{n+1}}{(n+1)!} f^{[n+1]}(\theta_t),\\ T_{n}(f)&=&f(\alpha)+(t-\alpha)f'(\alpha)+...+ \frac{(t-\alpha)^{n}}{n!} f^{[n]}(\alpha) \end{matrix} Donc | α βf α βT n(f)| α β(tα) n+1(n+1)!|f [n+1](θ t)|[M n+1(tα) n+2(n+2)!] α β |\int_{\alpha}^{\beta} f- \int_{\alpha}^{\beta} T_{n}(f)| \leq \int_{\alpha}^{\beta} \frac{(t-\alpha)^{n+1}}{(n+1)!} |f^{[n+1]}(\theta_t)| \leq \left[ M_{n+1} \frac{(t-\alpha)^{n+2}}{(n+2)!} \right]_\alpha^\beta De plus, |I(f)I(T n(f))|=|I(f [n+1](θ t)(tα) n+1(n+1)!)| j=1 k|w j|M n+1(x jα) n+1(n+1)! j=1 k|w j|M n+1(βα) n+1(n+1)! \begin{matrix} |I(f) -I(T_n(f))| =|I\left( f^{[n+1]}(\theta_t) \frac{(t-\alpha)^{n+1}}{(n+1)!} \right)| & \leq & \sum_{j=1}^k |w_j| M_{n+1} \frac{(x_j-\alpha)^{n+1}}{(n+1)!} \\ & \leq & \sum_{j=1}^k |w_j| M_{n+1} \frac{(\beta-\alpha)^{n+1}}{(n+1)!} \end{matrix} Donc comme la méthode est exacte pour T n(f)T_n(f), on en déduit que | α βfI(f)| = | α βf α βT n(f)+I(T n(f))I(f)| | α βf α βT n(f)|+|I(T n(f))I(f)| M n+1(βα) n+2(n+2)!+ j=1 k|w j|M n+1(βα) n+1(n+1)! \begin{matrix} |\int_{\alpha}^{\beta} f-I(f)| &= &|\int_{\alpha}^{\beta} f-\int_{\alpha}^{\beta} T_n(f)+I(T_n(f))- I(f)| \\ &\leq& |\int_{\alpha}^{\beta} f-\int_{\alpha}^{\beta} T_n(f)|+|I(T_n(f))- I(f)|\\ &\leq & M_{n+1} \frac{(\beta-\alpha)^{n+2}}{(n+2)!} + \sum_{j=1}^k |w_j| M_{n+1} \frac{(\beta-\alpha)^{n+1}}{(n+1)!} \end{matrix} Si les w j0w_j\geq 0, alors j=1 k|w j|= j=1 kw j=βα\sum_{j=1}^k |w_j|=\sum_{j=1}^k w_j=\beta-\alpha et on obtient finalement (34)

On remarque qu’on peut améliorer la valeur de la constante en faisant tous les développement de Taylor en (α+β)/2(\alpha+\beta)/2 au lieu de α\alpha, Après sommation sur les nn subdivisions, on obtient que :

Théorème 48   Pour une méthode d’ordre nn à coefficients positifs et une fonction ff n+1n+1 fois continument dérivable  | a bfI(f)|M n+1h n+12 n+1(n+1)!(ba)(1(n+2)+1)|\int_{a}^{b} f-I(f)| \leq M_{n+1} \frac{h^{n+1}}{2^{n+1}(n+1)!} (b-a) (\frac{1}{(n+2)}+1)

On observe que cette majoration a la bonne puissance de hh sur les exemples déja traités, mais pas forcément le meilleur coefficient possible, parce que nous avons traité le cas général d’une méthode d’ordre nn, et utilisé une majoration pas toujours optimale du reste. Pour obtenir la meilleure valeur possible de la constante, il faut exprimer le reste de la formule de Taylor sous forme intégrale et utiliser la forme précise de la méthode : f(t)=T n(f)(t)+ α t(tx) nn!f [n+1](x)dxf(t)=T_n(f)(t)+\int_\alpha^t \frac{(t-x)^n}{n!} f^{[n+1]}(x) \ dx donc α βf α βT n(f)= α β α t(tx) nn!f [n+1](x)dxdt= α β α β(tx) + nn!f [n+1](x)dxdt\int_{\alpha}^{\beta} f- \int_{\alpha}^{\beta} T_{n}(f) = \int_{\alpha}^{\beta} \int_\alpha^t\frac{(t-x)^{n}}{n!} f^{[n+1]}(x) \ dx \ dt = \int_{\alpha}^{\beta} \int_\alpha^\beta \frac{(t-x)_+^{n}}{n!} f^{[n+1]}(x) \ dx \ dt (tx) +=(t-x)_+=max(0,tx)(0,t-x). En intervertissant les deux intégrales (Fubini), on obtient : α βf α βT n(f) = α β α β(tx) + nn!dtf [n+1](x)dx = α β x β(tx) + nn!dtf [n+1](x)dx = α β(βx) n+1(n+1)!f [n+1](x)dx \begin{matrix} \int_{\alpha}^{\beta} f- \int_{\alpha}^{\beta} T_{n}(f) &=& \int_{\alpha}^{\beta} \int_\alpha^\beta \frac{(t-x)_+^{n}}{n!} \ dt f^{[n+1]}(x) \ dx \\ &=& \int_{\alpha}^{\beta} \int_x^\beta \frac{(t-x)_+^{n}}{n!} \ dt f^{[n+1]}(x) \ dx\\ &=& \int_{\alpha}^{\beta} \frac{(\beta-x)^{n+1}}{(n+1)!} f^{[n+1]}(x) \ dx \end{matrix} D’autre part : I(f)I(T n(f)) = I( α β(xt) + nn!f [n+1](t)dt) = j=1 kw j α β(x jt) + nn!f [n+1](t)dt \begin{matrix} I(f)-I(T_n(f)) &=& I\left( \int_\alpha^\beta \frac{(x-t)_+^{n}}{n!} f^{[n+1]}(t) \ dt \right) \\ & = & \sum_{j=1}^k w_j \int_\alpha^\beta \frac{(x_j-t)_+^{n}}{n!} f^{[n+1]}(t) \ dt \end{matrix} Donc : α βfI(f)= α β((βx) n+1(n+1)! j=1 kw j(x jx) + nn!)f [n+1](x)dx\int_{\alpha}^{\beta} f-I(f) = \int_{\alpha}^{\beta} ( \frac{(\beta-x)^{n+1}}{(n+1)!} - \sum_{j=1}^k w_j \frac{(x_j-x)_+^{n}}{n!}) f^{[n+1]}(x) \ dx On appelle noyau de Péano l’expression N(x)=(βx) n+1(n+1)! j=1 kw j(x jx) + nn!N(x)=\frac{(\beta-x)^{n+1}}{(n+1)!} - \sum_{j=1}^k w_j \frac{(x_j-x)_+^{n}}{n!} On a alors : | α βfI(f)| α β|N(x)||f [n+1](x)|dxM n+1 α β|N(x)|dx|\int_{\alpha}^{\beta} f-I(f)| \leq \int_{\alpha}^{\beta} |N(x)| |f^{[n+1]}(x)| \ dx \leq M_{n+1} \int_{\alpha}^{\beta} |N(x)| \ dx

20.3  Simpson

Il s’agit de la méthode obtenue en approchant la fonction sur la subdivision [α,β][\alpha,\beta] par son polynome de Lagrange aux points α,(α+β)/2,β\alpha,(\alpha+\beta)/2,\beta. On calcule l’intégrale par exemple avec un logiciel de calcul formel, avec Xcas :

qui donne la formule sur une subdivision I(f)=h6(f(α)+4f(α+β2)+f(β)) I(f) = \frac{h}{6} (f(\alpha)+4f(\frac{\alpha+\beta}{2}) + f(\beta)) et sur [a,b][a,b] : I(f)=h6(f(a)+f(b)+4 j=0 n1f(a+jh+h2)+2 j=1 n1f(a+jh))(35) I(f) = \frac{h}{6} \left( f(a)+f(b)+ 4 \sum_{j=0}^{n-1} f(a+jh+\frac{h}{2}) + 2 \sum_{j=1}^{n-1} f(a+jh) \right) \qquad (35)



Si on intègre t 3t^3 sur [0,1][0,1] en 1 subdivision par cette méthode, on obtient 16(0+412 3+1)=14 \frac{1}{6} (0+ 4 \frac{1}{2^3} + 1)=\frac{1}{4} c’est-à-dire le résultat exact, ceci est aussi vérifié pour ff polynome de degré inférieur ou égal à 2 puisque l’approximation de Lagrange de ff est alors égale à ff. On en déduit que la méthode de Simpson est d’ordre 3 (pas plus car la méthode de Simpson appliquée à l’intégrale de t 4t^4 sur [0,1][0,1] n’est pas exacte). On peut améliorer la constante générale de la section précédente pour la majoration de l’erreur en : | a bfI(f)|h 42880(ba)M 4 |\int_a^b f - I(f)| \leq \frac{h^4}{2880} (b-a) M_4 En effet sur une subdivision élémentaire [α,β][\alpha,\beta], le noyau de Péano vaut : N(x) = (βx) 44!16(βx) + 33!23(α+β2x) + 33!16(αx) + 33! = (βx) 44!16(βx) 33!23(α+β2x) + 33! \begin{matrix} N(x) &=& \frac{(\beta-x)^4}{4!} - \frac{1}{6} \frac{(\beta-x)_+^{3}}{3!} -\frac23 \frac{(\frac{\alpha+\beta}2-x)_+^{3}}{3!} - \frac{1}{6} \frac{(\alpha-x)_+^{3}}{3!} \\ & =& \frac{(\beta-x)^4}{4!} - \frac{1}{6} \frac{(\beta-x)^{3}}{3!} -\frac23 \frac{(\frac{\alpha+\beta}2-x)_+^{3}}{3!} \end{matrix} on observe que N(x)0N(x)\leq 0 sur [α,β][\alpha,\beta]


et son intégrale vaut 1/2880(βα) 4-1/2880(\beta-\alpha)^4 :

Remarque : Une autre preuve de cette majoration utilise les différences divisées (52). La méthode de Simpson sur [α,β[\alpha,\beta utilise le polynôme d’interpolation en α,(α+β)/2,β\alpha, (\alpha+\beta)/2, \beta, on a donc P 2(x)f(x)=(xα)(xβ)(xα+β2)f[α,α+β2,β,x]P_2(x)-f(x)=(x-\alpha)(x-\beta) (x-\frac{\alpha+\beta}{2}) f[\alpha,\frac{\alpha+\beta}{2},\beta,x] on doit donc majorer l’erreur E= α β(xα)(xβ)(xα+β2)f[α,α+β2,β,x]dxE=\int_\alpha^\beta (x-\alpha)(x-\beta) (x-\frac{\alpha+\beta}{2}) f[\alpha,\frac{\alpha+\beta}{2},\beta,x] \ dx D’autre part, en appliquant 51 avec n+1n+1 et n+2n+2 points, on a pour tout x n+1x_{n+1} f[x 0,..,x n,x]=f[x 0,..,x n,x n+1]+(xx n+1)f[x 0,..,x n,x n+1,x]f[x_0,..,x_n,x]=f[x_0,..,x_n,x_{n+1}]+(x-x_{n+1})f[x_0,..,x_n,x_{n+1},x] donc ici : f[α,α+β2,β,x]=f[α,α+β2,β,t]+(xt)f[α,α+β2,β,t,x]f[\alpha,\frac{\alpha+\beta}{2},\beta,x]=f[\alpha,\frac{\alpha+\beta}{2},\beta,t]+(x-t)f[\alpha,\frac{\alpha+\beta}{2},\beta,t,x] que l’on remplace dans EE : E= α β(xα)(xβ)(xα+β2)(f[α,α+β2,β,t]+(xt)f[α,α+β2,β,t,x])dxE=\int_\alpha^\beta (x-\alpha)(x-\beta) (x-\frac{\alpha+\beta}{2}) (f[\alpha,\frac{\alpha+\beta}{2},\beta,t] +(x-t) f[\alpha,\frac{\alpha+\beta}{2},\beta,t,x]) \ dx on distribue, le premier terme est d’intégrale nulle, et lorsque tt tend vers (α+β)/2(\alpha+\beta)/2 le second tend vers : E= α β(xα)(xβ)(xα+β2) 2f [4](ξ x)4!dxE=\int_\alpha^\beta (x-\alpha)(x-\beta) (x-\frac{\alpha+\beta}{2})^2 \frac{f^{[4]}(\xi_x)}{4!} \ dx On applique alors la formule de la moyenne (car (xα)(xβ)(xα+β2) 2(x-\alpha)(x-\beta) (x-\frac{\alpha+\beta}{2})^2 est de signe constant) et E=f [4](ξ)4! α β(xα)(xβ)(xα+β2) 2dx=f [4](ξ)4!(ba) 5120E=\frac{f^{[4]}(\xi)}{4!} \int_\alpha^\beta (x-\alpha)(x-\beta) (x-\frac{\alpha+\beta}{2})^2 \ dx = \frac{f^{[4]}(\xi)}{4!} \frac{(b-a)^5}{120}

La méthode de Simpson nécessite 2n+12n+1 évaluations de ff (le calcul de ff est un point étant presque toujours l’opération la plus couteuse en temps d’une méthode de quadrature), au lieu de nn pour les rectangles et le point milieu et n+1n+1 pour les trapèzes. Mais on a une majoration en h 4h^4 au lieu de h 2h^2 donc le “rapport qualité-prix” de la méthode de Simpson est meilleur, on l’utilise donc plutot que les méthodes précédentes sauf si ff n’a pas la régularité suffisante (ou si M 4M_4 est trop grand).

20.4  Newton-Cotes

On peut généraliser l’idée précédente, découper la subdivision [α,β][\alpha,\beta] en nn parts égales et utiliser le polynôme d’interpolation en ces n+1n+1 points x 0=α,x 1,...,x n=βx_0=\alpha, x_1, ..., x_n=\beta. Ce sont les méthodes de Newton-Cotes, qui sont d’ordre nn au moins. Comme le polynôme d’interpolation dépend linéairement des ordonnées, cette méthode est bien de la forme : I(f)=(βα) j=0 nw˜ jf(x j) I(f)=(\beta-\alpha)\sum_{j=0}^n \tilde{w}_j f(x_j) De plus les w˜ j\tilde{w}_j sont universels (ils ne dépendent pas de la subdivision), parce qu’on peut faire le changement de variables x=α+t(βα)x=\alpha+t(\beta-\alpha) dans l’intégrale et le polynôme d’interpolation et donc se ramener à [0,1][0,1].

Exemple : on prend le polynôme d’interpolation en 5 points équidistribués sur une subdivision [a,b][a,b] (méthode de Boole). Pour calculer les w˜ j\tilde{w}_j, on se ramène à [0,1][0,1], puis on tape

et on lit les coefficients de f0 à f4 qui sont les w˜ 0\tilde{w}_0 à w˜ 4\tilde{w}_4: 7/90, 32/90, 12/90, 32/90, 7/90. Voir aussi la section 20.5 La méthode est d’ordre au moins 4 par construction, mais on vérifie qu’elle est en fait d’ordre 5 (exercice), la majoration de l’erreur d’une méthode d’ordre 5 est | a bfI(f)|M 62 66!(1+17)h 6(ba) |\int_a^b f -I(f)| \leq \frac{M_6}{2^6 6!}(1+\frac{1}{7}) h^6 (b-a) elle peut être améliorée pour cette méthode précise en | a bfI(f)|M 61935360h 6(ba) |\int_a^b f -I(f)| \leq \frac{M_6}{1935360} h^6 (b-a)

En pratique, on ne les utilise pas très souvent, car d’une part pour n8n\geq 8, les w jw_j ne sont pas tous positifs, et d’autre part, parce que la constante M nM_n devient trop grande. On préfère utiliser la méthode de Simpson en utilisant un pas plus petit.

Il existe aussi d’autres méthodes, par exemple les quadratures de Gauss (on choisit d’interpoler en utilisant des points non équirépartis tels que l’ordre de la méthode soit le plus grand possible, cf. infra) ou la méthode de Romberg qui est une méthode d’accélération de convergence basée sur la méthode des trapèzes (on prend la méthode des trapèzes en 1 subdivision de [a,b][a,b], puis 2, puis 2 22^2, ..., et on élimine les puissances de hh du reste fI(f)\int f-I(f) en utilisant un théorème d’Euler-Mac Laurin qui montre que le développement asymptotique de l’erreur en fonction de hh ne contient que des puissances paires de hh). De plus, on peut être amené à faire varier le pas hh en fonction de la plus ou moins grande régularité de la fonction.

20.5  Calcul des poids w iw_i

Si la méthode d’intégration consiste à interpoler ff en nn points x 0,...,x nx_0,...,x_n, alors la méthode est exacte pour tout polynôme de degré nn. Si on prend P j(x)= kj(xx k)P_j(x)=\prod_{k \neq j}(x-x_k), on en déduit : α βP j(x)dx=w jP j(x j)\int_\alpha^\beta P_j(x) \ dx = w_j P_j(x_j) Par exemple en interpolant en 0,1/2,10,1/2,1 sur [0,1][0,1], on obtient w 0P 0(0)= 0 1P 0(x)dx,P 0(x)=(x12)(x1)w_0 P_0(0)=\int_0^1 P_0(x) \ dx, \quad P_0(x)=(x-\frac{1}{2})(x-1)


On peut aussi résoudre un système linéaire en prenant pour ff les polynômes de la base canonique, la matrice du système est la transposée de la matrice de Vandermonde en les x jx_j et le second membre a pour jj-ième composante α βx jdx\int_\alpha^\beta x^j \ dx.

20.6  En résumé

Intégration sur [a,b][a,b], hh pas d’une subdivision, M kM_k majorant de la dérivée kk-ième de la fonction sur [a,b][a,b]

 formuleLagrange degréordreerreur
rectangles(33), (33)00M 1h(ba)/2M_1 h (b-a)/2
point milieu(33)01M 2h 2(ba)/24M_2 h^2 (b-a)/24
trapèzes(33)11M 2h 2(ba)/12M_2 h^2 (b-a)/12
Simpson(35)23M 4h 4(ba)/2880M_4 h^4 (b-a)/2880

20.7  Accélération de Richardson-Romberg

Proposition 49   Soit gg une fonction de classe C 2kC^{2k} sur [a,b][a,b], T h(g)T_h(g) la valeur de la méthode des trapèzes sur [a,b][a,b] de pas h=(ba)/Nh=(b-a)/N (NN entier). Alors T h(g)T_h(g) admet un développement en puissances paires de hh à l’ordre 2k2k.

Pour montrer ce résultat, il faut établir la formule d’Euler-Mac Laurin. On commence par se placer sur une subdivision de l’intervalle [0,1][0,1], on intègre par parties 0 1f(t)dt\int_0^1 f(t)\ dt en faisant apparaitre la formule des trapèzes, on intègre donc 1 en t12t-\frac{1}{2} 0 1f(t)dt=[(t12)f(t)] 0 1 0 1(t12)f(t)dt=f(0)+f(1)2 0 1(t12)f(t)dt\int_0^1 f(t) \ dt = [(t-\frac{1}{2})f(t)]_0^1 - \int_0^1 (t-\frac{1}{2})f'(t) \ dt = \frac{f(0)+f(1)}{2} - \int_0^1 (t-\frac{1}{2})f'(t) \ dt où encore T 1(f)= 0 1f(t)dt+ 0 1(t12)f(t)dtT_1(f)=\int_0^1 f(t) \ dt + \int_0^1 (t-\frac{1}{2})f'(t) \ dt Pour poursuivre, on pose B 1(t)=t12B_1(t)=t-\frac{1}{2}, qu’on va intégrer en 12((t12) 2+c)\frac{1}{2}((t-\frac{1}{2})^2+c), où on choisit cc pour que l’intégrale soit nulle, donc c=1/6c=-1/6. On pose B 2=(t12) 21/6B_2=(t-\frac{1}{2})^2-1/6, on a : T 1(f)= 0 1f(t)dt+[B 22f] 0 1 0 1B 22f(t)dtT_1(f)=\int_0^1 f(t) \ dt + [\frac{B_2}{2} f']_0^1 - \int_0^1 \frac{B_2}{2}f'{'}(t) \ dt Plus généralement, on pose B p+1=pB p, 0 1B p+1(t)dt=0B_{p+1}'=pB_p, \quad \int_0^1 B_{p+1}(t) \ dt=0 ce qui définit de manière unique les B pB_p. La nullité de l’intégrale montre que B p+1(1)=B p+1(0)B_{p+1}(1)=B_{p+1}(0) ce qui simplifiera l’expression des termes tout intégrés. De plus, on montre par récurrence que les B pB_p ont une symétrie paire ou impaire selon la parité de pp par rapport à t=1/2t=1/2. Après pp intégrations par parties, on obtient : T 1(f) = 0 1f(t)dt+B 2(0)2(f(1)f(0))+... +B 2k(0)(2k)!(f [2k1](1)f [2k1](0)) 0 1B 2k(2k)!f [2k](t)dt \begin{matrix} T_1(f)&=&\int_0^1 f(t) \ dt + \frac{B_2(0)}{2} (f'(1)-f'(0)) + ... \\ & &+ \frac{B_{2k}(0)}{(2k)!} (f^{[2k-1]}(1)-f^{[2k-1]}(0)) - \int_0^1 \frac{B_{2k}}{(2k)!} f^{[2k]}(t) \ dt \end{matrix} En faisant le même raisonnement sur [k,k+1][k,k+1] pour k=1,...,N1k=1,...,N-1 et en sommant, on obtient la formule d’Euler-Mac Laurin : T 1 [0,N](f) = 0 Nf(t)dt+B 2(0)2(f(N)f(0))+... +B 2k(0)(2k)!(f [2k1](N)f [2k1](0)) 0 NB 2k(2k)!f [2k](t)dt \begin{matrix} T_1^{[0,N]}(f)&=&\int_0^N f(t) \ dt + \frac{B_2(0)}{2} (f'(N)-f'(0)) + ... \\ & & + \frac{B_{2k}(0)}{(2k)!} (f^{[2k-1]}(N)-f^{[2k-1]}(0)) - \int_0^N \frac{B_{2k}}{(2k)!} f^{[2k]}(t) \ dt \end{matrix} On pose alors x=a+htx=a+ht (donc dt=dx/hdt=dx/h) et f(t)=g(x)f(t)=g(x) (donc f(t)=df/dt=hdg/dxf'(t)=df/dt=h dg/dx), on obtient 1hT h [a,b](g) = 1h a bg(x)dx+B 2(0)2h(g(b)g(a))+... +B 2k(0)(2k)!h 2k1(g [2k1](b)g [2k1](a)) a bB 2k(2k)!h 2kg [2k](x)1hdx \begin{matrix} \frac1h T_h^{[a,b]}(g)&=& \frac1h \int_a^b g(x) \ dx + \frac{B_2(0)}{2} h(g'(b)-g'(a)) + ... \\ & &+ \frac{B_{2k}(0)}{(2k)!} h^{2k-1} (g^{[2k-1]}(b)-g^{[2k-1]}(a)) - \int_a^b \frac{B_{2k}}{(2k)!} h^{2k} g^{[2k]}(x) \ \frac1h dx \end{matrix} donc T h [a,b](g) = a bg(x)dx+h 2B 2(0)2(g(b)g(a))+... +h 2kB 2k(0)(2k)!(g [2k1](b)g [2k1](a))h 2k a bB 2k(2k)!g [2k](x)dx \begin{matrix} T_h^{[a,b]}(g) &=& \int_a^b g(x) \ dx + h^2 \frac{B_2(0)}{2} (g'(b)-g'(a)) + ... \\ & & + h^{2k} \frac{B_{2k}(0)}{(2k)!} (g^{[2k-1]}(b)-g^{[2k-1]}(a)) - h^{2k} \int_a^b \frac{B_{2k}}{(2k)!} g^{[2k]}(x) \ dx \end{matrix}

L’accélération consiste à éliminer les puissances de h 2h^2 en commençant par h 2h^2 avec des subdivisions deux fois plus fines à chaque itération. Ainsi T h 1(f)=(4T h/2(f)T h(f))/(41)T_h^1(f) = (4T_{h/2}(f)-T_h(f))/(4-1) n’a plus de termes en h 2h^2 et tend vers l’intégrale à approcher lorsque hh tend vers 0. On peut d’ailleurs vérifier qu’il s’agit de la méthode de Simpson. On élimine ensuite le terme en h 4h^4 en posant T h 2(f)=(4 2T h/2 1(f)T h 1(f))/(4 21)T_h^2(f)=(4^2 T_{h/2}^1(f)-T_h^1(f))/(4^2-1) et ainsi de suite. On construit un tableau triangulaire T dont chaque ligne ll contient T h/2 l(f),T h/2 l 1(f),...T_{h/2^l}(f), T_{h/2^l}^1(f), ... (avec des indices qui commencent à 0). Pour calculer le terme d’indice 0 de la ligne courante on fait une méthode des trapèzes sur 2 fois plus de subdivisions que la précédente, puis pour le jj-ième terme T[l,j] on effectue (4^j*T[l-1,j-1]-T[l,j-1])/(4^j-1) (on n’a donc besoin que de la ligne précédente pour calculer la ligne courante). On s’arrête par exemple lorsque la valeur absolue de la différence entre les derniers termes de deux lignes consécutives est inférieur à la précision souhaitée (erreur empirique).

20.8  Cas des fonctions périodiques.

Si ff est une fonction périodique régulière (C C^\infty), alors la méthode des trapèzes sur une période est d’ordre arbitrairement grand. En effet, pour une série de Fourier tronquée à l’ordre mm, la formule des trapèzes avec NN subdivisions donne le résultat exact de 0 Tf(t)dt\int_0^T f(t) dt dès que N>mN&gt;m. Il suffit ensuite d’utiliser que le reste de la série de Fourier (m>Nm&gt;N) a des coefficients à décroissance rapide.

La méthode des trapèzes donne donc de bons résultats pour une fonction périodique, on peut d’ailleurs aussi l’appliquer pour calculer une valeur approchée des coefficients de Fourier de la fonction. La liste des valeurs approchées obtenue est alors la transformée de Fourier discrète des valeurs de la fonction ff aux NN points de la subdivision, elle se calcule donc rapidement avec la transformée de Fourier rapide. Par exemple, pour approcher f(x)=e sin(x)f(x)=e^{\sin(x)}, on peut utiliser les commandes suivantes en Xcas :

f(x):=exp(sin(x));
N:=16; F:=seq(f(k/N*2.*pi),k,0,N-1); G:=fft(F);
k:=4;
g:=G[0]+sum(G[j]*exp(i*j*x),j,1,k)+sum(G[N-j]*exp(-i*j*x),j,1,k);
h:=normal(re(exp2trig(g))/N);



Ou directement 2*re(G[j]/N) est une valeur approchée du jj-ième coefficient de Fourier a ja_j de ff, et -2*im(G[j]/N) de b jb_j, par exemple :


On observe en effet une très bonne concordance.

Bien entendu, cela n’est pas très utile pour approcher e sin(x)e^{\sin(x)} (il vaut mieux composer exponentielle et sinus), mais cela pourrait le devenir pour une fonction périodique plus compliquée ou pour une fonction périodique dont on ne connait qu’un échantillonage régulier (par exemple un fichier numérique audio).

20.9  Quadratures gaussiennes.

20.9.1  Description

On a vu que l’interpolation polynomiale était de meilleure qualité en prenant les points de Tchebyshev plutot que des points équidistants, il est donc naturel de calculer des approximations d’intégrale de cette manière ou encore d’optimiser le choix des abscisses pour avoir une méthode d’intégration d’ordre maximal.

Si on se fixe nn abscisses x 1x_1 à x nx_n, on peut obtenir l’ordre 2n12n-1. En effet, considérons le polynôme P n= i=1 n(xx i)P_n=\prod_{i=1}^n (x-x_i), qui est de degré nn, si la méthode est d’ordre 2n12n-1 alors il sera orthogonal à tous les polynômes de degré inférieur strict à nn pour le produit scalaire <f|g>= a bf(x)g(x)dx&lt;f|g&gt;=\int_a^b f(x) g(x) \ dx puisque <P n|x j>= a bP nx j&lt;P_n|x^j&gt;=\int_a^b P_n x^j sera combinaison linéaire des P nx jP_n x^j en x k,k=1..nx_k, k=1..n (car la formule d’intégration est exacte puisque le degré du polynôme P nx jP_nx^j est au plus 2n12n-1). Donc P nP_n est à une constante multiplicative près le nn-ième polynôme orthogonal pour l’integrale sur [a,b][a,b], si [a,b]=[1,1][a,b]=[-1,1] c’est legendre(n). Réciproquement, si les x kx_k sont les racines de ce polynôme, alors la formule d’intégration est exacte, on effectue la division euclidienne du polynôme PP de degré au plus 2n12n-1 à intégrer par P nP_n P=P nQ+R,deg(Q)n1P= P_n Q + R , \quad \mbox{deg}(Q) \leq n-1 On a a bP nQ=0\int_a^b P_n Q=0 par orthogonalité et la combinaison linéaire correspondante en les x kx_k est nulle, et on a exactiture pour RR, car de degré au plus n1n-1.

Exemple :



20.9.2  Calcul des poids

On peut calculer les poids en appliquant la section 20.5. On peut ainsi montrer que les poids sont positifs en appliquant la formule d’intégration au polynôme jk(xx j)\prod_{j\neq k}(x-x_j) (la formule est exacte à cause du degré du polynome). On peut d’ailleurs montrer que le poids w iw_i en une racine du polynôme de Legendre sur [1,1][-1,1] est donné par : w i=2(1x i 2)P n(x i) 2=2(1x i 2)n 2P n1(x i) 2=2nP n1(x i)P n(x i)w_i=\frac{2}{(1-x_i^2)P'_n(x_i)^2} = \frac{2(1-x_i^2)}{n^2P_{n-1}(x_i)^2}=\frac{2}{nP_{n-1}(x_i)P_n'(x_i)}






Preuve de la dernière formule :
On a I(P n/(xx i))=w iP n(x i)I(P_n/(x-x_i))=w_i P'_n(x_i) la valeur de (P n/(xx i))(P_n/(x-x_i)) en x ix_i est par définition de P n(x i)P'_n(x_i) la limite (P n(x)P n(x i))/(xx i)(P_n(x)-P_n(x_i))/(x-x_i) lorsque xx tend vers x ix_i (rappelons que P n(x i)=0P_n(x_i)=0). Par exactitude de la formule d’intégration w iP n(x i)= 1 1P nxx i=1P n1(x i) 1 1P nP n1(x i)xx i=1P n1(x i) 1 1P nP n1(x)xx iw_i P'_n(x_i)=\int_{-1}^1 \frac{P_n}{x-x_i} = \frac1{P_{n-1}(x_i)}\int_{-1}^1 P_n \frac{P_{n-1}(x_i)}{x-x_i} = \frac1{P_{n-1}(x_i)}\int_{-1}^1 P_n \frac{P_{n-1}(x)}{x-x_i} la dernière égalité résulte du fait que (P n1(x)P n1(x i))/(xx i)(P_{n-1}(x)-P_{n-1}(x_i))/(x-x_i) est un polynôme de degré au plus n2n-2 donc orthogonal à P nP_n. Donc w iP n(x i)==1P n1(x i) 1 1P n1P n(x)xx iw_i P'_n(x_i)= = \frac1{P_{n-1}(x_i)}\int_{-1}^1 P_{n-1} \frac{P_n(x)}{x-x_i} Or P n(x)/(xx i)P_n(x)/(x-x_i) est un polynôme de degré n1n-1, si on fait son quotient par P n1P_{n-1} on obtient une constante qui vaut a n1a_{n-1} en utilisant la relation de récurrence à 2 crans P n=(a n1xb n1)P n1c n1P n2P_n=(a_{n-1}x-b_{n-1})P_{n-1}-c_{n-1}P_{n-2}. Le reste est de degré n2n-2 donc orthogonal à P n1P_{n-1}, d’où w iP n(x i)==1P n1(x i) 1 1P n1 2a n1w_i P'_n(x_i)= = \frac1{P_{n-1}(x_i)}\int_{-1}^1 P_{n-1}^2 a_{n-1} On conclut en utilisant la valeur de a n1=(2n1)/na_{n-1}=(2n-1)/n et de P n1 2=2/(2(n1)+1)\| P_{n-1}\|^2=2/(2(n-1)+1).

20.9.3  Erreur d’une quadrature gaussienne

On considère une quadrature gaussienne d’ordre 2n+12n+1 obtenue par interpolation aux n+1n+1 racines du n+1n+1-ième polynome de Legendre sur [1,1][-1,1].

Rappelons que le polynôme d’interpolation de ff aux points x 0,x 1,...,x nx_0,x_1,...,x_n s’écrit P n(t)=f[x 0]+f[x 0,x 1](tx 0)+...+f[x 0,...,x n](tx 0)...(tx n1)P_n(t)=f[x_0]+f[x_0,x_1](t-x_0)+...+f[x_0,...,x_n](t-x_0)...(t-x_{n-1}) Si on ajoute xx on obtient un polynôme d’interpolation de degré n+1n+1 P n+1(t)=f[x 0]+f[x 0,x 1](tx 0)+...+f[x 0,...,x n,x](tx 0)...(tx n1)(tx n)P_{n+1}(t)=f[x_0]+f[x_0,x_1](t-x_0)+...+f[x_0,...,x_n,x](t-x_0)...(t-x_{n-1})(t-x_n) qui coincide avec ff en t=xt=x donc f(x)=f[x 0]+f[x 0,x 1](xx 0)+...+f[x 0,...,x n,x](xx 0)...(xx n1)(xx n)f(x)=f[x_0]+f[x_0,x_1](x-x_0)+...+f[x_0,...,x_n,x](x-x_0)...(x-x_{n-1})(x-x_n) Le même calcul fait en ajoutant n+1n+1 points x n+1,...,x 2n+1x_{n+1},...,x_{2n+1} donne f(x)(f[x 0]+f[x 0,x 1](xx 0)+...+f[x 0,...,x n](xx 0)...(xx n1)) = f[x 0,...,x n,x n+1](xx 0)...(xx n1)(xx n)+...+f[x 0,...,x 2n+1](xx 0)...(xx 2n)+f[x 0,...,x 2n+1,x](xx 0)...(xx 2n+1) \begin{matrix} & &f(x)-(f[x_0]+f[x_0,x_1](x-x_0)+...+f[x_0,...,x_n](x-x_0)...(x-x_{n-1}) )\\ &=&f[x_0,...,x_n,x_{n+1}](x-x_0)...(x-x_{n-1})(x-x_n) +...+f[x_0,...,x_{2n+1}](x-x_0)...(x-x_{2n}) + f[x_0,...,x_{2n+1},x](x-x_0)...(x-x_{2n+1}) \end{matrix} On intègre sur [1,1][-1,1], on obtient à gauche l’erreur et à droite, seul le dernier terme est non nul, car le polynôme de Legendre proportionnel à (xx 0)...(xx n1)(xx n)(x-x_0)...(x-x_{n-1})(x-x_n) , de degré n+1n+1, est orthogonal à tous les polynôme de degré n\leq n 1 1(f(x)P n(x))dx= 1 1f[x 0,...,x 2n+1,x](xx 0)...(xx 2n+1)dx\int_{-1}^1 (f(x) -P_n(x)) \ dx = \int_{-1}^1 f[x_0,...,x_{2n+1},x](x-x_0)...(x-x_{2n+1}) \ dx D’autre part, le résultat sur l’erreur d’interpolation 50 donne f[x 0,...,x n,x]=f [n+1](ξ x)(n+1)!f[x_0,...,x_n,x]=\frac{f^{[n+1]}(\xi_x)}{(n+1)!} en particulier |f[x 0,...,x n,x]|M n+1/(n+1)!|f[x_0,...,x_n,x]| \leq M_{n+1}/(n+1)! D’où la majoration | 1 1(f(x)P n(x))dx|M 2n+2(2n+2)! 1 1|(xx 0)...(xx 2n+1)|dx| \int_{-1}^1 (f(x) -P_n(x)) \ dx | \leq \frac{M_{2n+2}}{(2n+2)!} \int_{-1}^1|(x-x_0)...(x-x_{2n+1})| \ dx Il suffit ensuite de faire tendre les x n+1,...,x 2n+1x_{n+1},...,x_{2n+1} vers x 0,...,x nx_0,...,x_n pour enlever la valeur absolue et obtenir | 1 1(f(x)P n(x))dx|M 2n+2(2n+2)! 1 1L n+1 2(x)dx| \int_{-1}^1 (f(x) -P_n(x)) \ dx | \leq \frac{M_{2n+2}}{(2n+2)!} \int_{-1}^1 L_{n+1}^2(x) \ dx L n+1L_{n+1} est proportionnel au n+1n+1-ième polynôme de Legendre de coefficient dominant 1.

Par exemple, pour n=1n=1, on a 2 points d’interpolation en les racines de L 2=x 21/3L_2=x^2-1/3 et l’erreur d’interpolation est majorée par M 4/24 1 1(x 21/3)dx=M 4/24×8/45=M 4/135M_4/24\int_{-1}^1(x^2-1/3) \ dx=M_4/24 \times 8/45=M_4/135.

20.10  Méthode adaptative.

On calcule une valeur approchée de l’intégrale sur [a,b][a,b] par deux quadratures gaussiennes emboitées, on estime l’erreur, si elle est supérieure à la tolérance on divise en 2. On recommence en subdivisant en 2 l’intervalle où l’erreur est maximale. On s’arrête lorsque l’erreur estimée est inférieure à la tolérance.

L’estimation de l’erreur se fait par exemple avec deux quadratures gaussiennes emboitées (c’est-à-dire que les points d’interpolation de la moins fine sont contenues dans les points d’interpolation de la plus fine, pour éviter de devoir calculer la fonction en de nouveaux points, on considére alors l’erreur sur la quadrature la moins fine comme la valeur absolue de la différence des deux valeurs). Ou avec trois quadratures emboitées, Hairer propose de prendre comme quadrature la plus fine en h 30h^{30} (15 points), intermédiaire en h 14h^{14} (avec les mêmes points sauf le point central), moins fine en h 6h^6 (avec les points 1, 3, 5, 9, 11, 13), et d’estimer l’erreur par ε 1=|I 30I 14|,ε 2=|I 30I 6|;ε=ε 1(ε 1ε 2) 2\epsilon_1=| I_{30}-I_{14}|, \epsilon_2=| I_{30}-I_{6}|; \epsilon = \epsilon_1 \left(\frac{\epsilon_1}{\epsilon_2} \right)^2 On observe en effet que ε\epsilon est en h 30h^{30}, comme l’ordre de la méthode.

20.11  Méthodes probabilistes.

Pour déterminer a bf(t)dt\int_a^b f(t) \ dt , on l’interprète comme une espérance, plus précisément comme (ba)E(f(X))(b-a)E(f(X))XX est une variable aléatoire qui suit la loi uniforme sur [a,b][a,b], et on approche cette valeur par ban k=1 nf(x k)\frac{b-a}{n} \sum_{k=1}^n f(x_k) x kx_k est obtenu par un générateur pseudo-aléatoire (selon la loi uniforme). Par exemple



La convergence en fonction de nn est assez lente, on peut l’observer en faisant plusieurs estimations :


En effet, les tirages sont équidistribués selon la même loi, la loi des grands nombres s’applique donc : on fait bab-a fois une moyenne de nn tirages, si nn est grand, on converge vers une loi normale dont l’écart-type est en (ba)σ/n(b-a)\sigma/\sqrt{n}. La valeur de la constante σ\sigma peut se calculer à partir de ff σ 2= a bf 2(t)dtba( a bf(t)dtba) 2\sigma^2 = \int_a^b f^2(t) \ \frac{dt}{b-a} - \left( \int_a^b f(t) \ \frac{dt}{b-a} \right)^2 par exemple ici


mais on ne fait pas ce calcul en pratique (puisqu’il faudrait calculer une intégrale), on estime l’écart-type σ/n\sigma/\sqrt{n} de la loi normale par l’écart-type de l’échantillon des estimations stddevp(I).

On peut donc obtenir rapidement une estimation de σ\sigma en prenant l’écart-type d’une séquence de valeurs de ff


Cette méthode converge donc beaucoup moins vite que les quadratures, en dimension 1. Mais elle se généralise très facilement en dimension plus grande en conservant la même vitesse de convergence alors que le travail nécessaire pour une méthode de quadrature croit comme une puissance de la dimension, et ne nécessite pas de paramétrer des domaines d’intégration compliqués (il suffit par exemple d’utiliser la méthode du rejet pour avoir un générateur uniforme dans un domaine inclus dans un cube).

Chapitre 21  Suites récurrentes et applications

Cette section comporte une première petite partie sur le calcul de l’expression exacte de suites récurrences (linéaires), puis une deuxième partie sur l’intérêt du calcul approché de limites de suites récurrentes (dont on ne sait en général pas déterminer l’expression générale).

21.1  Calcul de l’expression des suites récurrentes.

Le problème général est l’analogue discret de la recherche de solutions d’équations différentielles. On ne sait en général pas le résoudre, sauf pour certaines classes de suites, en particulier celles qui suivent une récurrence affine.

21.1.1  Récurrence affine

On peut toujours se ramener au cas d’une suite vectorielle dans d\mathbb{R}^d vérifiant un récurrence à un cran : v n+1=Av n+B(36) v_{n+1} = A v_n + B \qquad (36) AA est une matrice indépendante de nn, et BB un vecteur qui peut dépendre de nn. Par exemple pour une suite u nu_n récurrente à deux crans u n+2=au n+1+bu n+c u_{n+2}=au_{n+1}+bu_n+c on pose v n=(u n,u n+1)v_n=(u_n,u_{n+1}) qui vérifie alors : v n+1=(0 1 b a)v n+(0 c) v_{n+1}= \left( \begin{array}{cc} 0 & 1 \\ b & a \end{array}\right) v_n + \left( \begin{array}{c}0 \\ c\end{array}\right) La solution générale de (36) est la somme de la solution de l’équation homogène v n+1=Av nv_{n+1}=Av_n et d’une solution particulière, solution que l’on sait calculer lorsque BB est combinaison linéaire d’un produit d’exponentielle par un polynôme en nn. L’équation homogène a pour solution v n=A nv 0v_n=A^n v_0, où l’expression de A nA^n se calcule sur un corps algébriquement clos par réduction de Jordan (fonction matpow dans Xcas). On peut aussi utiliser un algorithme de puissance rapide pour calculer le reste de la division euclidienne de A nA^n par un polynôme annulateur de AA (minimal ou caractéristique) ce qui permet de rester dans le corps des coefficients.

Le calcul d’une solution particulière dans le cas où B=c nP(n)B=c^n P(n) avec PP un vecteur à coefficients polynomiaux de degré au plus pp se fait en posant v n=c nQ(n)v_n=c^n Q(n)QQ est un vecteur de polynôme de degré pp plus la multiplicité de cc comme valeur propre de AA. En effet, on doit alors résoudre : v n+1Av n=c n(cQ(n+1)AQ(n))=c nP(n)v_{n+1}-Av_n = c^n (c Q(n+1)- AQ(n)) = c^n P(n) soit cQ(n+1)AQ(n)=P(n)(37) c Q(n+1)- AQ(n) = P(n) \qquad (37) Si Q(n)= j=0 qQ jn jQ(n)=\sum_{j=0}^q Q_j n^j, alors le coefficient de n qn^q de cette équation est (cI dA)Q q=P q(c I_d -A)Q_q=P_q. Si cc n’est pas valeur propre de AA, alors on peut calculer Q qQ_q en fonction de P qP_q et en descendant de degré en degré on peut trouver QQ solution de même degré que PP. Si cc est valeur propre de AA, la résolution de cette façon est plus compliquée, il faut séparer les Q jQ_j en deux composantes, l’une sur l’espace caractéristique associé à cc et l’autre sur la somme des autres sous-espaces caractéristiques, ce qui peut se faire avec l’identité de Bézout, si MM un polynôme annulateur de AA est M(x)=(xc) mN(x)M(x)=(x-c)^m N(x)mm est la multiplicité de cc dans MM, alors il existe UU et VV tels que (xc) mU(x)+N(x)V(x)=1(x-c)^mU(x)+N(x)V(x)=1, donc (AcI) mU(A)y+N(A)V(A)y=y (A-cI)^m U(A)y+N(A)V(A)y= y on a écrit yy comme somme de deux vecteurs, le premier dans le noyau de N(A)N(A) et le second dans le noyau de (AcI) m(A-cI)^m. Pour la première composante on est ramené au cas où cc n’est pas valeur propre de AA, pour la seconde composante, on jordanise puis on travaille composante par composante, pour chaque composante on aura une équation du type c(Q(n+1)Q(n))=c(Q(n+1)-Q(n))=polynôme connu, équation que l’on peut résoudre efficacement avec la base de Newton (voir section ci-dessous).

21.1.2  Utilisation de la base de Newton si A=I dA=I_d et c=1c=1

Plutôt que d’exprimer les polynômes dans la base canonique, il est intéressant d’utiliser la base 1,n,n(n1),n(n1)(n2),...,n(n1)...(np+1)1,n,n(n-1),n(n-1)(n-2),...,n(n-1)...(n-p+1). En effet (37) appliqué à Q k+1n(n1)..(nk)Q_{k+1} n(n-1)..(n-k) s’écrit Q k+1((n+1)(nk))n(n1)...(nk+1)=Q k+1(k+1)n(n1)...(nk+1)Q_{k+1}((n+1)-(n-k))n(n-1)...(n-k+1)=Q_{k+1}(k+1)n(n-1)...(n-k+1), on obtient donc Q k+1=P k/(k+1)Q_{k+1}=P_{k}/(k+1). Le calcul des coefficients P kP_k s’effectue efficacement par l’algorithme des différences divisées à partir du polynôme PP et de sa valeur en 0,1,2,...,degré(P)(P).

21.2  Le point fixe dans \mathbb{R}

Soit ff une fonction continue sur un intervalle I=[a,b]I=[a,b] de \mathbb{R}, et à valeurs dans II (attention à bien choisir II pour que l’image de II par ff reste dans II). On s’intéresse à la suite u n+1=f(u n),u 0I(38) u_{n+1}=f(u_n), \quad u_0 \in I \qquad (38) Supposons que u nu_n converge vers une limite lIl \in I lorsque n+n \rightarrow +\infty, alors la limite doit vérifier f(l)=l f(l)=l puisque ff est continue. On dit que ll est un point fixe de ff. Ceci amène à l’idée d’utiliser ces suites pour résoudre numériquement l’équation f(x)=xf(x)=x. Nous allons donner un théorème permettant d’assurer que la suite (38) converge, et que la limite est l’unique solution de f(l)=lf(l)=l sur II.

Définition 50   On dit que ff est contractante de rapport k<1k&lt;1 sur II si x,yI,|f(y)f(x)|k|yx| \forall x,y \in I, \quad |f(y)-f(x)| \leq k |y-x|

En pratique, les fonctions ff que l’on considèrera seront continument dérivables, donc d’après le théorème des accroissements finis f(y)f(x)=f(θ)(yx),θ[x,y] f(y)-f(x)=f'(\theta) (y-x), \quad \theta \in [x,y] ainsi pour vérifier que ff est contractante, on étudie la valeur absolue de ff' sur II, il suffit de montrer que cette valeur absolue est strictement inférieure à un réel k<1k&lt;1 pour conclure (il faut donc chercher le maximum de |f||f'| sur II. Attention, il s’agit du maximum de |f||f'| et pas du maximum de ff', ce qui revient à chercher le maximum de ff' et de f-f').

On a alors le

Théorème 51   (du point fixe)
si
ff est contractante de I=[a,b]I=[a,b] dans II de rapport kk alors la suite (38) converge vers l’unique solution de f(l)=lf(l)=l dans II. On a de plus les encadrements : |u nl|k n|ba|,|u nl||u n+1u n|1k(39) |u_n-l| \leq k^n |b-a|, \quad |u_n -l | \leq \frac{|u_{n+1}-u_n|}{1-k} \qquad (39)

Démonstration : Tout d’abord si ff est contractante, on montre à partir de la définition de la continuité que ff est continue. Soit g(x)=f(x)xg(x)=f(x)-x, alors gg est continue, positive en aa et négative en bb, il existe donc l[a,b]l\in[a,b] tel que g(l)=0g(l)=0 (théorème des valeurs intermédiaires). Soit u nu_n une suite définie par (38). On a alors pour tout nn |u n+1l|=|f(u n)f(l)|k|u nl| |u_{n+1}-l|=|f(u_n)-f(l)| \leq k |u_n-l| Donc par une récurrence évidente : |u nl|k n|u 0l| |u_n-l| \leq k^n |u_0-l| ce qui entraine d’ailleurs que |u nl|k n|ab||u_n-l| \leq k^n |a-b|. Comme k[0,1[k \in [0,1[ , la suite géométrique k nk^n converge vers 0 lorsque nn tend vers l’infini, donc u nu_n tend vers ll. Notons que ll est unique car si ll' est une autre solution alors |ll|=|f(l)f(l)|k|ll||l-l'|=|f(l)-f(l')| \leq k|l-l'| donc (1k)|ll|0(1-k)|l-l'| \leq 0, or 1k>01-k&gt;0 et |ll|0|l-l'| \geq 0 donc |ll||l-l'| doit être nul. Passons à la preuve de la majoration (39) qui est importante en pratique car elle donne un test d’arrêt de calcul des termes de la suite récurrente, on écrit pour m>0m&gt;0 : u nl=u nu n+1+u n+1u n+2+...+u n+m1u n+m+u ml u_n-l= u_n - u_{n+1} + u_{n+1} - u_{n+2} + ... + u_{n+m-1}- u_{n+m} + u_m-l puis on majore avec l’inégalité triangulaire |u nl| j=0 m1|u n+ju n+j+1|+|u ml| |u_n-l| \leq \sum_{j=0}^{m-1} |u_{n+j}-u_{n+j+1}| + |u_m-l| puis on applique le fait que ff est contractante de rapport kk |u nl| j=0 m1k j|u nu n+1|+|u ml| |u_n-l| \leq \sum_{j=0}^{m-1} k^j |u_{n}-u_{n+1}| + |u_m-l| soit |u nl|1k m1k|u nu n+1|+|u ml| |u_n-l| \leq \frac{1-k^m}{1-k} |u_{n}-u_{n+1}| + |u_m-l| On fait alors tendre mm vers l’infini d’où le résultat.

Remarque : on peut aussi (voir plus bas le point fixe en dimension nn) montrer l’existence de la limite en montrant que (u n)(u_n) est une suite de Cauchy. On peut alors faire a=a=-\infty ou b=+b=+\infty dans l’énoncé du théorème. On remarque aussi que l’existence d’un point fixe dans [a,b][a,b] pour aa et bb finis ne nécessite pas la contractance de rapport k<1k&lt;1, il suffit de préserver [a,b][a,b].

Exemples : Cherchons une valeur approchée de 2\sqrt{2} par cette méthode. Il faut d’abord trouver une fonction ff dont 2\sqrt{2} est un point fixe, par exemple f(x)=x+2x+1 f(x)=\frac{x+2}{x+1} On vérifie que f(2)=2)f(\sqrt{2})=\sqrt{2}), puis que f=1/(x+1) 2f'=-1/(x+1)^2 donc ff décroit. On va voir si les hypothèses du théorème du point fixe s’appliquent sur par exemple [1,2][1,2]. Comme ff est décroissante f([1,2])=[f(2),f(1)]=[4/3,3/2]f([1,2])=[f(2),f(1)]=[4/3,3/2] qui est bien inclus dans [1,2][1,2] . De plus ff' est comprise entre 1/(1+1) 2=1/4-1/(1+1)^2=-1/4 et 1/(2+1) 2=1/9-1/(2+1)^2=-1/9 donc |f|<1/4|f'|&lt;1/4, ff est contractante de rapport 1/41/4. On peut donc itérer la suite à partir par exemple de u 0=1u_0=1 et on va converger vers 2\sqrt{2} (en s’en rapprochant à chaque cran d’un rapport inférieur à 1/41/4).

Considérons l’équation en xx xesin(x)=t,e[0,1[ x- e \sin(x) =t, \quad e \in [0,1[ c’est l’équation du temps utilisée en astronomie pour trouver la position d’une planète sur son orbite elliptique (ee étant l’excentricité de l’ellipse). Il n’y a pas de formule exacte permettant de calculer xx en fonction de tt. Si on a une valeur numérique pour tt, on peut trouver une valeur numérique approchée de xx par la méthode du point fixe, en réécrivant l’équation sous la forme f(x)=t+esin(x)=x f(x)=t+e\sin(x) = x On observe que ff envoie \mathbb{R} dans [te,t+e][t-e,t+e] donc on peut prendre I=[te,t+e]I=[t-e,t+e], de plus |f|e<1|f'|\leq e &lt;1, ff est contractante de rapport e[0,1[e \in [0,1[, le théorème s’applique, il suffit de prendre une valeur initiale dans [te,t+e][t-e,t+e] et d’itérer la suite jusqu’à obtenir la précision désirée. Par exemple si on veut une valeur approchée de xx à 10 610^{-6} près, il suffira que la différence entre deux termes successifs de la suite u nu_n vérifie |u n+1u n|10 6(1e) |u_{n+1}-u_n| \leq 10^{-6} (1-e) on aura alors bien : |u nx||u n+1u n|1e10 6 |u_n-x| \leq \frac{|u_{n+1}-u_n|}{1-e} \leq 10^{-6}

Cette méthode n’est pas toujours optimale, car la vitesse de convergence vers la limite ll est dite “linéaire”, c’est-à-dire que le temps de calcul pour avoir nn décimales est proportionnel à nn (ou encore il faut effectuer un nombre d’itérations proportionnel à nn, chaque itération faisant gagner en précision de l’ordre du rapport kk de contractance). En effet, supposons que ff' est continue en ll et que 0<L=|f(l)|<10&lt;L=|f'(l)|&lt;1 . Il existe alors un intervalle I=[lη,l+η]I=[l-\eta,l+\eta] tel que xIL2|f(x)|1+L2 x \in I \Rightarrow \frac{L}{2} \leq |f'(x)| \leq \frac{1+L}{2} Le théorème des accroissements finis donne alors |u n+1l|=|f(u n)f(l)|=|f(θ)||u nl|,θ[u n,l] |u_{n+1} - l | = |f(u_n)-f(l)| = |f'(\theta)| |u_n-l|, \quad \theta \in [u_n,l] Si u 0Iu_0 \in I, alors θI\theta \in I donc |u 1l||u 0l||u_1-l| \leq |u_0-l| et u 1Iu_1 \in I, par récurrence on a pour tout nn, u nIu_n \in I L2|u nl||u n+1l|1+L2|u nl| \frac{L}{2} |u_n-l| \leq |u_{n+1} - l| \leq \frac{1+L}{2} |u_n-l| on a donc par récurrence (L2) n|u 0l||u nl|(1+L2) n|u 0l| \left(\frac{L}{2}\right)^n|u_0-l| \leq |u_n-l| \leq \left( \frac{1+L}{2} \right)^n|u_0-l| Donc pour avoir |u nl|ε|u_n-l| \leq \epsilon il suffit que (1+L2) n|u 0l|εnln(ε|u 0l|)ln(1+L2) \left( \frac{1+L}{2} \right)^n|u_0-l| \leq \epsilon \Rightarrow n \geq \frac{\ln(\frac{\epsilon}{|u_0-l|})}{\ln( \frac{1+L}{2}) } et il faut que (L2) n|u 0l|εnln(ε|u 0l|)ln(L2) \left(\frac{L}{2}\right)^n |u_0-l| \leq \epsilon \Rightarrow n \geq \frac{\ln(\frac{\epsilon}{|u_0-l|})}{\ln( \frac{L}{2}) }

On peut accélerer la convergence par la méthode dite de relaxation, au lieu de résoudre f(x)=xf(x)=x, on résoud f(x)+αx=(1+α)xf(x)+\alpha x=(1+\alpha)x soit x=(f(x)+αx)/(1+α)x=(f(x)+\alpha x)/(1+\alpha), on choisira alors α\alpha proche de f(l)-f'(l).

Si ff est suffisamment régulière, il existe une méthode plus rapide lorsqu’on est proche de la racine ou lorsque la fonction a des propriétés de convexité, c’est la méthode de Newton (voir aussi la méthode de la sécante). Et même si Newton n’est pas applicable, une simple dichotomie peut être plus efficace si la constante de contractance est supérieure à 1/21/2 (y compris prés de la solution de f(x)=xf(x)=x). Toutefois la méthode du point fixe reste intéressante si la constante de contractance est suffisamment petite (par exemple k=0.1k=0.1 garantit 15 décimales en 15 itérations) et présente l’avantage de se généraliser en dimension plus grande, cf. la section suivante.

21.3  Le point fixe dans n\mathbb{R}^n

Le théorème précédent se généralise.

Théorème 52   Soit II un ensemble fermé de n\mathbb{R}^n (ou d’un espace métrique complet) tel que ff envoie II dans II et tel que ff soit contractante sur II k<1,x,yI,|f(x)f(y)|k|xy|\exists k&lt;1, \forall x,y \in I, \quad |f(x)-f(y)| \leq k |x-y| Alors pour tout u 0Iu_0 \in I, la suite (u n)(u_n) définie par u n+1=f(u n)u_{n+1}=f(u_n) converge vers l’unique solution dans II de f(l)=lf(l)=l.

La démonstration de la convergence est un peu différente de celle donnée en dimension 1, on montre que (u n)(u_n) est une suite de Cauchy, car pour n>mn&gt;m |u nu m| j=m n1|u j+1u j|k m11k|u 1u 0||u_n-u_m| \leq \sum_{j=m}^{n-1}|u_{j+1}-u_j | \leq k^m \frac{1}{1-k} |u_1-u_0| donc (u n)(u_n) est convergente puisque nous sommes dans un fermé d’un espace complet. (Cela permet d’ailleurs de généraliser l’énoncé donné en dimension 1 au cas où aa ou bb est infini).

La vitesse de convergence est linéaire, la démonstration est identique à celle de la dimension 1.

Remarque :

21.4  La méthode de Newton dans \mathbb{R}.

La méthode de Newton est une méthode de résolution de l’équation f(x)=0f(x)=0, attention à la différence avec le théorème du point fixe qui permet de résoudre numériquement f(x)=xf(x)=x. Si x 0x_0 est proche de la racine rr on peut faire un développement de Taylor à l’ordre 1 de la fonction ff en x 0x_0 : f(x)=f(x 0)+(xx 0)f(x 0)+O((xx 0) 2) f(x)=f(x_0)+(x-x_0)f'(x_0)+O((x-x_0)^2) Pour trouver une valeur approchée de rr, on ne garde que la partie linéaire du développement, on résout : f(r)=0f(x 0)+(rx 0)f(x 0) f(r)=0 \approx f(x_0) + (r-x_0) f'(x_0) donc (si f(x 0)0f'(x_0)\neq 0) : rx 0f(x 0)f(x 0) r \approx x_0 -\frac{f(x_0)}{f'(x_0)} Graphiquement, cela revient à tracer la tangente à la courbe représentative de ff et à chercher où elle coupe l’axe des xx. On considère donc la suite récurrente définie par une valeur u 0u_0 proche de la racine et par la relation : u n+1=u nf(u n)f(u n) u_{n+1} = u_n -\frac{f(u_n)}{f'(u_n)}

Il y a deux théorèmes importants, l’un d’eux prouve que si u 0u_0 est “assez proche” de rr alors la suite u nu_n converge vers rr, malheureusement il est difficile de savoir en pratique si on est “assez proche” de u 0u_0 pour que ce théorème s’applique. Le second théorème donne un critère pratique facile à vérifier qui assure la convergence, il utilise les propriétés de convexité de la fonction.

Théorème 53   Soit ff une fonction de classe C 2C^2 (2 fois continument dérivable) sur un intervalle fermé II. Soit rr une racine simple de ff située à l’intérieur de II (telle que f(r)=0f(r)=0 et f(r)0f'(r)\neq 0). Alors il existe ε>0\varepsilon&gt;0 tel que la suite définie par u n+1=u nf(u n)f(u n),|u 0r|ε u_{n+1} = u_n -\frac{f(u_n)}{f'(u_n)}, \quad |u_0-r| \leq \varepsilon converge vers rr.

Si on a |f|M|f'{'}| \leq M et |1/f|m|1/f'| \leq m sur un intervalle [rη,r+η][r-\eta,r+\eta] contenu dans II, alors on peut prendre tout réel ε>0\varepsilon&gt;0 tel que ε<2/(mM)\varepsilon &lt; 2/(mM) et εη\varepsilon \leq \eta.

Démonstration : on a u n+1r=u nrf(u n)f(u n)=(u nr)f(u n)f(u n)f(u n) u_{n+1}-r = u_n - r - \frac{f(u_n)}{f'(u_n)} = \frac{(u_n-r)f'(u_n)-f(u_n)}{f'(u_n)} En appliquant un développement de Taylor de ff en u nu_n à l’ordre 2, on obtient pour un réel θ\theta situé entre rr et u nu_n : 0=f(r)=f(u n)+(ru n)f(u n)+(ru n) 2f(θ)2 0 = f(r)=f(u_n)+(r-u_n) f'(u_n) + (r-u_n)^2 \frac{f'{'}(\theta)}{2} donc : (u nr)f(u n)f(u n)=(u nr) 2f(θ)2 (u_n-r)f'(u_n)-f(u_n)= (u_n-r)^2 \frac{f'{'}(\theta)}{2} d’où : |u n+1r||u nr| 21|f(u n)||f(θ)|2 |u_{n+1}-r| \leq |u_n-r|^2 \frac{1}{|f'(u_n)|} \frac{|f'{'}(\theta)|}{2} On commence par choisir un intervalle [rε,r+ε][r-\varepsilon,r+\varepsilon] contenant strictement rr et tel que |f|<M|f'{'}|&lt;M et |1/f|<m|1/f'|&lt;m sur [rε,r+ε][r-\varepsilon,r+\varepsilon] (c’est toujours possible car ff'{'} et 1/f1/f' sont continues au voisinage de rr puisque f(r)0f'(r)\neq 0). Si u nu_n est dans cet intervalle, alors θ\theta aussi donc |u n+1r||u nr| 2Mm2|u nr|Mm2|u nr|,(40) |u_{n+1}-r| \leq |u_n-r|^2 \frac{Mm}{2} \leq \frac{|u_n-r|Mm}{2} |u_n-r|, \qquad (40) On a |u nr|ε|u_n-r| \leq \varepsilon, on diminue si nécessaire ε\varepsilon pour avoir ε<2/(Mm)\varepsilon &lt; 2/(Mm), on a alors : |u n+1r|k|u nr|,k=εMm2<1 |u_{n+1}-r| \leq k |u_n-r|, \quad k=\frac{\varepsilon Mm}{2}&lt;1 donc d’une part u n+1u_{n+1} est encore dans l’intervalle [rε,r+ε][r-\varepsilon,r+\varepsilon] ce qui permettra de refaire le même raisonnement au rang suivant, et d’autre part on a une convergence au moins géométrique vers rr. En fait la convergence est bien meilleure lorsqu’on est proche de rr grace au carré dans |u nr| 2|u_n-r|^2, plus précisément, on montre par récurrence que |u nr||u 0r| 2 n(Mm2) 2 n1 |u_n-r| \leq |u_0 - r|^{2^n} \left( \frac{Mm}{2} \right)^{2^n-1} il faut donc un nombre d’itérations proportionnel à ln(n)\ln(n) pour atteindre une précision donnée.

Remarque : ce théorème se généralise sur \mathbb{C} et même sur n\mathbb{R}^n (cf. la section suivante).

Exemple : pour calculer 2\sqrt{2}, on écrit l’équation x 22=0x^2-2=0 qui a 2\sqrt{2} comme racine simple sur I=[1/2,2]I=[1/2,2], on obtient la suite récurrente u n+1=u nu n 222u n u_{n+1} = u_n - \frac{u_n^2-2}{2u_n} Si on prend η=1/2\eta=1/2, on a f=2xf'=2x et f=2f'{'}=2 donc on peut prendre M=2M=2 et m=1m=1 car |1/f|1|1/f'|\leq 1 sur [21/2,2+1/2][\sqrt{2}-1/2,\sqrt{2}+1/2]. On a 2/(mM)=12/(mM)=1, on peut donc prendre ε=1/2\varepsilon=1/2, la suite convergera pour tout u 0[21/2,2+1/2] u_0 \in [\sqrt{2}-1/2,\sqrt{2}+1/2].

Plus généralement, on peut calculer une racine kk-ième d’un réel aa en résolvant f(x)=x kaf(x)=x^k-a par la méthode de Newton.

L’inconvénient de ce théorème est qu’il est difficile de savoir si la valeur de départ qu’on a choisie se trouve suffisamment près d’une racine pour que la suite converge. Pour illustrer le phénomène, on peut par exemple colorer les points du plan complexe en n+1n+1 couleurs selon que la suite définie par la méthode de Newton converge vers l’une des nn racines d’un polynôme de degré nn fixé au bout de par exemple 50 itérations (la n+1n+1-ième couleur servant aux origines de suite qui ne semblent pas converger).

Passons maintenant à un critère très utile en pratique :

Définition 54   (convexité)
Une fonction
ff continument dérivable sur un intervalle II de \mathbb{R} est dite convexe si son graphe est au-dessus de la tangente en tout point de II.

Il existe un critère simple permettant de savoir si une fonction de classe C 2C^2 est convexe :

Théorème 55   Si ff est C 2C^2 et f0f'{'} \geq 0 sur II alors ff est convexe.

Démonstration :
L’équation de la tangente au graphe en x 0x_0 est y=f(x 0)+f(x 0)(xx 0) y=f(x_0)+f'(x_0)(x-x_0) Soit g(x)=f(x)(f(x 0)+f(x 0)(xx 0)) g(x)=f(x)-(f(x_0)+f'(x_0)(x-x_0)) on a : g(x 0)=0,g(x)=f(x)f(x 0),g(x 0)=0,g=f0 g(x_0)=0, \quad g'(x)=f'(x)-f'(x_0), \quad g'(x_0)=0, \quad g'{'}=f'{'} \geq 0 donc gg' est croissante, comme g(x 0)=0g'(x_0)=0, gg' est négative pour x<x 0x&lt;x_0 et positive pour x>x 0x&gt;x_0, donc gg est décroissante pour x<x 0x&lt;x_0 et croissante pour x>x 0x&gt;x_0. On conclut alors que g0g \geq 0 puisque g(x 0)=0g(x_0)=0. Donc ff est bien au-dessus de sa tangente.

On arrive au deuxième théorème sur la méthode de Newton

Théorème 56   Si f(r)=0,f(r)>0f(r)=0, f'(r)&gt;0 et si f0f'{'} \geq 0 sur [r,b][r,b] alors pour tout u 0[r,b]u_0 \in [r,b] la suite de la méthode de Newton u n+1=u nf(u n)f(u n), u_{n+1} = u_n -\frac{f(u_n)}{f'(u_n)}, est définie, décroissante, minorée par rr et converge vers rr. De plus 0u nrf(u n)f(r) 0 \leq u_n -r \leq \frac{f(u_n)}{f'(r)} (On prendra garde dans cette estimation aux erreurs en calcul approché, le calcul de la valeur de f(u n)f(u_n), proche de 0, va typiquement faire intervenir la différence de deux termes très proches, d’où perte de précision sur la mantisse)

Démonstration :
On a f0f'{'} \geq 0 donc si f(r)>0f'(r)&gt;0 alors f>0f'&gt;0 sur [r,b][r,b], ff est donc strictement croissante sur [r,b][r,b] on en déduit que f>0f&gt;0 sur ]r,b]]r,b] donc u n+1u nu_{n+1} \leq u_n. Comme la courbe représentative de ff est au-dessus de la tangente, on a u n+1ru_{n+1} \geq r (car u n+1u_{n+1} est l’abscisse du point d’intersection de la tangente avec l’axe des xx). La suite u nu_n est donc décroissante minorée par rr, donc convergente vers une limite lrl\geq r. À la limite, on a l=lf(l)f(l)f(l)=0 l=l-\frac{f(l)}{f'(l)} \Rightarrow f(l)=0 donc l=rl=r car f>0f&gt;0 sur ]r,b]]r,b].

Comme (u n)(u_n) est décroissante, on a bien 0u nr0 \leq u_n -r, pour montrer l’autre inégalité, on applique le théorème des accroissements finis, il existe θ[r,u n]\theta \in [r,u_n] tel que f(u n)f(r)=(u nr)f(θ) f(u_n)-f(r)=(u_n-r)f'(\theta) comme f(r)=0f(r)=0, on a u nr=f(u n)f(θ) u_n-r = \frac{f(u_n)}{f'(\theta)} et la deuxième inégalité du théorème en découle parce que ff' est croissante.

Variantes :
Il existe des variantes, par exemple si f(r)<0f'(r)&lt;0 et f0f'{'} \geq 0 sur [a,r][a,r]. Si f0f'{'} \leq 0, on considère g=fg=-f.

Application :
On peut calculer la valeur approchée de la racine kk-ième d’un réel a>0a&gt;0 en appliquant ce deuxième théorème. En effet si a>0a&gt;0, alors x kax^k-a est 2 fois continument dérivable et de dérivée première kx k1kx^{k-1} et seconde k(k1)x k2k(k-1)x^{k-2} strictement positives sur +*\mathbb{R}^{+\ast} (car k2k \geq 2). Il suffit donc de prendre une valeur de départ u 0u_0 plus grande que la racine kk-ième, par exemple 1+a/k1+a/k (en effet (1+a/k) k1+ka/k=1+a(1+a/k)^k \geq 1+k a/k=1+a). En appliquant l’inégalité du théorème, on a : 0u naku n kakak k1u n kakaaku n kaka(1+ak) 0 \leq u_n - \sqrt[k]{a} \leq \frac{u_n^k - a}{k\sqrt[k]{a}^{k-1} } \leq \frac{u_n^k-a}{ka} \sqrt[k]{a} \leq \frac{u_n^k-a}{ka} (1+\frac{a}{k}) Pour avoir une valeur approchée de ak\sqrt[k]{a} à ε\varepsilon près, on peut donc choisir comme test d’arrêt u n kaka1+akε u_n^k -a \leq \frac{ka}{1+\frac{a}{k}} \varepsilon Par exemple pour 2\sqrt{2}, le test d’arrêt serait u n 222εu_n^2-2 \leq 2 \varepsilon.

21.5  La méthode de Newton dans n\mathbb{R}^n.

Le premier énoncé du cas de la dimension 1 se généralise en :

Théorème 57   Soit ff une fonction de classe C 2C^2 (2 fois continument dérivable) sur un fermé II de n\mathbb{R}^n. Soit rr une racine simple de ff située à l’intérieur de II (telle que f(r)=0f(r)=0 et f(r)=( jf i)(r)f'(r)=(\partial_j f_i)(r) inversible). Alors il existe ε>0\varepsilon&gt;0 tel que la suite définie par u n+1=u n(f(u n)) 1f(u n),|u 0r|ε u_{n+1} = u_n -(f'(u_n) )^{-1}f(u_n), \quad |u_0-r| \leq \varepsilon converge vers rr.

Si on a |f|M|f'{'}| \leq M et |(f) 1|m|(f')^{-1}| \leq m sur une boule centré en rr de rayon η>0\eta&gt;0 contenue dans II, alors on peut prendre tout réel ε>0\varepsilon&gt;0 tel que ε<2/(mM)\varepsilon &lt; 2/(mM) et εη\varepsilon \leq \eta.

La démonstration est calquée sur la dimension 1, mais il faut prendre le reste intégral dans la formule de Taylor u n+1r=u nrf(u n) 1f(u n)=f(u n) 1(f(u n)(u nr)f(u n)) u_{n+1}-r = u_n - r - f'(u_n)^{-1} f(u_n) = f'(u_n)^{-1} (f'(u_n)(u_n-r)-f(u_n) ) puis on applique Taylor le long du segment [r,u n][r,u_n] : 0=f(r)=f(u n)+f(u n)(ru n)+ 0 1(1θ)(ru n)f(r+θ(u nr))(ru n)dθ 0 = f(r)=f(u_n)+ f'(u_n) (r-u_n)+ \int_0^1 (1-\theta)(r-u_n) f'{'}(r+\theta (u_n-r)) (r-u_n) \, d\theta donc : u n+1r=f(u n) 1(ru n)( 0 1(1θ)f(r+θ(u nr))dθ)(ru n)u_{n+1}-r =-f'(u_n)^{-1} (r-u_n) \left(\int_0^1 (1-\theta)f'{'}(r+\theta (u_n-r)) \, d\theta \right) (r-u_n) et on en déduit (40) et on conclut de même en remplaçant intervalle centré en rr de rayon ε\varepsilon par boule de rayon ε\varepsilon.

Remarque : la convergence “numérique” (au sens du calcul en flottant) de la suite u nu_n ne suffit pas à montrer l’existence d’une racine proche de u nu_n. Une méthode de preuve alternative au calcul des constantes mm et MM consiste à trouver un rectangle ou une boule autour de u nu_n préservée par l’application xxf(x) 1f(x)x\rightarrow x-f'(x)^{-1} f(x).

21.6  Vitesse de convergence, accélération de convergence.

On distingue en pratique trois importants types de convergence :

Bien sur, pour trouver des valeurs approchées de limites (qui ne sont pas des rationnels), on préfère des suites qui convergent le plus rapidement possible. Il existe des procédés d’accélération de convergence, dont deux bien connus :

Exemple de programme pour Aitken, il prend en argument une liste de valeurs successives de la suite :

def Aitken(L):
    n=size(L)-2
    A=[]
    for j in range(n):
        u0=L[j]
        d1=L[j+1]-u0 # u1-u0
        d2=L[j+2]-L[j+1] # u2-u1
        u0 -= d1*d1/(d2-d1)
        A.append(u0)
    return A


Par exemple, on calcule dans L la suite des sommes partielles de j(1) jj+1\sum_j \frac{(-1)^{j}}{j+1}

def somme_partielle(N):
    L=[]
    S=0.0
    for j in range(1,N):
        S -= 1.0*(-1)^j/j
        L.append(S)
    return L




puis on applique l’accélération, qui marche quand même bien que la suite ne converge pas à vitesse linéaire :


21.7  Calcul approché des racines complexes simples

La section précédente nous a montré qu’on pouvait se ramener à la recherche de racines simples, ce qui donne envie d’essayer la méthode de Newton. On a malheureusement rarement la possibilité de pouvoir démontrer qu’à partir d’une valeur initiale donnée, la méthode de Newton converge, parce que les racines peuvent être complexes, et même si elles sont réelles, on n’a pas forcément de résultat sur la convexité du polynôme (cf. cependant une application des suites de Sturm qui permet de connaitre le signe de PP'{'} sur un intervalle sans le factoriser).

Par contre, on peut montrer à postériori des estimations sur la distance entre une racine approchée et la racine la plus proche d’un polynôme, plus précisément cette distance est inférieure ou égale au degré du polynôme multiplié par le module de P/PP/P' en la racine approchée (7.3).

On effectue donc souvent des itérations de Newton, en partant de 0.0, en espérant s’approcher suffisamment d’une racine pour que le théorème de convergence théorique s’applique. On se fixe un nombre maximal d’itérations, si on le dépasse on prend alors une valeur initiale aléatoire complexe et on recommence.

Une fois une racine déterminée, on l’élimine en calculant le quotient euclidien QQ de PP par XrX-r (par l’algorithme de Horner), puis on calcule les racines du quotient QQ (qui sont des racines de PP).

Un problème pratique apparait alors, c’est que rr n’est pas exact donc le quotient QQ non plus, au fur et à mesure du calcul des racines de PP, on perd de plus en plus de précision. Il existe une amélioration simple, si rr' est une racine approchée de QQ, alors elle est racine approchée de PP et on a toutes les chances qu’elle soit suffisamment proche d’une racine de PP pour que le théorème s’applique, on effectue alors 1 ou 2 itérations de Newton avec rr' mais pour PP (et non QQ) afin d’améliorer sa précision comme racine de PP.

Une autre amélioration simple due à Maehly consiste à ne pas calculer QQ mais à utiliser l’identité QQ=PP1xr\frac{Q'}{Q}=\frac{P'}{P} - \frac{1}{x-r} dans les itérations de Newton.

Une méthode de calcul assez stable utilise la recherche des valeurs propres de la matrice companion en double précision, puis affine par la méthode de Newton pour obtenir des valeurs approchées multi-précision, c’est ce que fait proot, par exemple proot(x^3+x+1,50). Il existe aussi un algorithme de recherche de racines dû à Schönhage dont la convergence est garantie, cet algorithme est implémenté dans PARI (voir la thèse de Xavier Gourdon et l’article Splitting circle method de Wikipedia) et est appelé par Xcas pour des polynômes mals conditionnés.

Une autre méthode consiste à appliquer directement la méthode de Newton pour trouver dans n\mathbb{C}^n toutes les racines simultanément, c’est la méthode de Durand-Kerner, Weierstrass. On pose g x(z)= i=1 n(xz i)g_x(z)=\prod_{i=1}^n (x-z_i), il s’agit de résoudre en zz g x(z)=P(x)g_x(z)=P(x). On a a l’ordre 1 en zz g x(z+w)=g x(z) i=1 nw i ji(xz j)+O(w 2)=P(x)g_x(z+w)=g_x(z) - \sum_{i=1}^n w_i \prod_{j \neq i} (x-z_j) +O(w^2) =P(x) pour trouver w iw_i, on pose x=z ix=z_i, on obtient ji(z iz j)w i=P(z i)-\prod_{j \neq i}(z_i-z_j) w_i = P(z_i) donc w i=P(z i) ji(z iz j)w_i=-\frac{P(z_i)}{\prod_{j \neq i}(z_i-z_j)} On peut aussi calculer le produit du dénominateur en effectuant g x(z i)g_x'(z_i) (la dérivée porte sur xx). On retrouve la méthode de Newton à une variable où la dérivée du polynôme au dénominateur est remplacée par la valeur approchée du polynôme. D’où le programme

dw(P,N,eps):={ // Weierstrass, Durand-Kerner polynomial rooter
  local l,v,w,n,j,k,q,q1;
  P:=P/lcoeff(P);
  n:=degree(P);
  assume(l,symbol);
  v:=seq(exp(i*l/n*2.0*pi),l,0,n-1); w:=v;
  for k from 1 to N do
    q:=pcoeff(v);
    q1:=q';
    for j from 0 to n-1 do
      w[j]:=v[j]-horner(P,v[j])/horner(q1,v[j]);
    od;
    if (l2norm(w-v)<eps*l2norm(v))
      return w;
    v:=w;
  od;
  retourne "max iter reached";
}:;

Par exemple dw(x^3+x+1,100,1e-10) renvoie des valeurs approchées des racines de x 3+x+1x^3+x+1.

La méthode d’Aberth applique la méthode de Newton racine par racine, mais au lieu de l’appliquer à P(z)=0P(z)=0 pour améliorer la précision d’une racine z iz_i en z iP(z i)/P(z i)z_i-P(z_i)/P'(z_i), on l’applique à P i(z)=P(z)/ ji(zz j)P_i(z)=P(z)/\prod_{j\neq i} (z-z_j) et on améliore z iz_i en z iP i(z i)P i(z i)=z i11dp,d=P(z i)/P(z i),p= ji1z iz jz_i -\frac{P_i(z_i)}{P'_i(z_i)} = z_i-\frac{1}{\frac{1}{d}-p}, \quad d=P(z_i)/P'(z_i), \ p=\sum_{j \neq i} \frac{1}{z_i-z_j} On peut d’ailleurs voir la méthode d’Aberth comme une méthode de Newton avec préfacteur 1/(1dp)1/(1-dp), car z iP i(z i)P i(z i)=z id1dpz_i -\frac{P_i(z_i)}{P'_i(z_i)} = z_i-\frac{d}{1-dp} Lorsque les z iz_i sont assez proches des racines de PP, P iP_i est presque linéaire (sauf au voisinage immédiat des z j,jiz_j, j \neq i) ce qui assure une convergence rapide vers la racine r ir_i depuis un très grand bassin d’attraction. Contrairement à la méthode de Newton, le facteur p= ji1/(z iz j)p=\sum_{j\neq i}1/(z_i-z_j) assure que pendant les itérations successives plusieurs racines approchées ne tendent pas vers une même racine (simple et isolée des autres).

Pour trouver un bon jeu de valeurs initiales pour les z iz_i afin de limiter le nombre total d’itérations, on calcule l’enveloppe convexe des points (j,log(|a j|))(j,\log(|a_j|)) où les a ja_j sont les coefficients du polynôme (cf. Numerical computation of polynomial zeros by means of Aberth’s method, Dario A. Bini et le logiciel MPSolve), ce qui donne des anneaux dans le plan complexe où se trouvent un certain nombre de racines de PP.

Si les racines sont bien isolées les unes des autres, la convergence est rapide (une dizaine d’itérations pour un polynôme de degré quelques dizaines). Pour traiter les aggrégats de racines proches, on peut calculer le barycentre zz des approximations, et faire un shift de taylor du polynôme en zz puis changer zz en 1/z1/z ce qui revient à inverser l’ordre des coefficients du polynôme. On repousse ainsi la distance entre racines d’autant plus qu’elles sont proches.

Pour calculer P/PP/P', on utilise la méthode de Horner en calculant simultanément P(z)P(z) et P(z)P'(z). Lorsque |z|>1|z|&gt;1, on utilise les évaluations du polynôme avec coefficients inversés et de sa dérivée en 1/z1/z.

Si on s’intéresse seulement à la racine de module maximal d’un polynôme, on peut en trouver une estimation assez simplement en appliquant la méthode de la puissance à la matrice companion du polynôme. On peut améliorer la précision d’une racine par des itérations inverses ou par la méthode de Newton en une variable.

21.8  Méthodes de gradient (sans contrainte)

Il s’agit ici de minimiser une fonction ff d’un ouvert UU de n\mathbb{R}^n à valeurs dans \mathbb{R}. Lorsque la fonction ff est suffisamment régulière sur UU, une condition nécessaire en un extremum local de l’ouvert est que la différentielle dfdf s’annulle. Réciproquement, la recherche d’une solution de f(x)=0f(x)=0 peut se ramener à minimiser f 2\|f\|^2. Les méthodes de gradient en dimension 2 peuvent se comprendre à partir de la représentation des lignes de niveau de la fonction. Le long de la tangente à une ligne de niveau ff reste constant (la tangente est dans le noyau de dfdf), si on est en un point vv de la ligne de niveau, intuitivement suivre la direction perpendiculaire à la ligne de niveau devrait permettre de faire diminuer ff efficacement, c’est la ligne de plus grande pente choisie par l’eau pour s’écouler vers le bas le plus rapidement possible. Ceci n’est toutefois pas intrinsèque mais dépendant du produit scalaire choisi, toutefois si on ne choisit pas la direction du gradient, on choisira une direction de descente ww telle que d vf(w)<0d_vf(w)&lt;0. Pour le gradient on a bien d vf(f)=<f|f><0d_vf(-\nabla f)=-&lt;\nabla f|\nabla f&gt;&lt;0 Une fois la direction de descente choisie, il faut déterminer quelle distance parcourir dans cette direction, c’est le pas ρ\rho et le nouveau vv s’obtient par la formule v˜=v+ρw=vρ vf\tilde{v}=v + \rho w = v-\rho \nabla_v f pour la méthode de gradient. Plusieurs choix sont possibles pour ρ\rho

Proposition 58   Les conditions de Wolfe permettent d’assurer la convergence d’une suite itérative v k+1=v k+ρ kw kv_{k+1}=v_k+\rho_k w_k si la direction de descente est “suffisante”, plus précisément si ff est C 1C^1 de dérivée lipschitizienne et bornée inférieurement, si on pose cos(θ k)=<f(v k)|w k>f(v k)w k\cos(\theta_k)=\frac{&lt;\nabla f(v_k)|w_k&gt;}{\| \nabla f(v_k)\| \|w_k\|} alors la série cos(θ k) 2f(v k) 2 \sum \cos(\theta_k)^2 \| \nabla f(v_k)\|^2 converge. Ainsi si la direction de descente forme un angle minimal avec la tangente à la courbe de niveau (en dimension 2), cos(θ k) 2\cos(\theta_k)^2 est borné indépendamment de kk et f(v k) 2\sum \| \nabla f(v_k)\|^2 est convergente donc le gradient de ff tend vers 0.

Preuve : on a avec la deuxième condition de Wolfe <f(v k+1)|w k>=d v k+1f(w k)ε 2d v kf(w k)=ε 2<f(v k)|w k>&lt;\nabla f(v_{k+1})|w_k&gt;=d_{v_{k+1}}f(w_k) \geq \varepsilon_2 d_{v_k}f(w_k)= \varepsilon_2&lt;\nabla f(v_k)|w_k&gt; donc <f(v k+1)f(v k)|w k>(ε 21)<f(v k)|w k>&lt;\nabla f(v_{k+1})-\nabla f(v_k)|w_k&gt; \ \geq (\varepsilon_2-1) &lt;\nabla f(v_k)|w_k&gt; Par Cauchy-Schwartz et en notant M 2M_2 la constante de Lipschitz de f\nabla f le membre de gauche est plus petit que f(v k+1)f(v k)w kM 2v k+1v kw k=M 2ρ kw k 2\| \nabla f(v_{k+1})-\nabla f(v_k) \| \| w_k \| \leq M_2\|v_{k+1}-v_k\| \| w_k\| = M_2 \rho_k \| w_k \|^2 Donc (ε 21)<f(v k)|w k>M 2ρ kw k 2(41) (\varepsilon_2-1)&lt;\nabla f(v_k)|w_k&gt; \leq M_2 \rho_k \| w_k \|^2 \qquad (41) On considère ensuite la série de terme général f(v k)f(v k+1)f(v_{k})-f(v_{k+1}) qui est à terme positif, donc convergente (elle ne peut tendre vers l’infini car ff est bornée inférieurement). La première condition de Wolfe donne f(v k)f(v k+1)ε 1ρ k<f(v k)|w k>f(v_{k})-f(v_{k+1}) \ \geq \ \varepsilon_1 \rho_k &lt;-\nabla f(v_k)|w_k&gt; puis (41) : f(v k)f(v k+1)ε 1(1ε 2)<f(v k)|w k> 21M 2w k 20f(v_{k})-f(v_{k+1}) \geq \ \varepsilon_1 (1-\varepsilon_2)&lt;\nabla f(v_k)|w_k&gt;^2\frac{1}{M_2 \| w_k \|^2} \geq 0 d’où le résultat.

L’existence de pas de Wolfe se montre en considérant le max rr des pas vérifiant la première condition de Wolfe f(v+ρw)f(v)+ε 1ρd vf(w)f(v+\rho w) \leq f(v) +\varepsilon_1 \rho d_vf(w) C’est bien un max si la fonction ff est bornée inférieurement. On a alors l’égalité pour le pas rr (par passage à la limite des deux cotés de rr) f(v+rw)=f(v)+ε 1rd vf(w)f(v+r w) = f(v) +\varepsilon_1 r d_vf(w) et l’inégalité dans l’autre sens pour un pas ρ>r\rho&gt;r f(v+ρw)>f(v)+ε 1ρd vf(w)f(v+\rho w) &gt; f(v) +\varepsilon_1 \rho d_vf(w) Donc f(v+ρw)f(v+rw)>ε 1d vf(w)(ρr)f(v+\rho w)-f(v+r w) &gt; \varepsilon_1 d_vf(w) (\rho -r) A la limite lorsque ρ\rho tend vers rr, on a : d v+rwf(w)ε 1d vf(w)d v+rwf(w)ε 1(d vf(w))d_{v+rw}f(w) \geq \varepsilon_1 d_vf(w) \Rightarrow -d_{v+rw}f(w) \leq \varepsilon_1 (-d_vf(w)) et comme ε 1<ε 2\varepsilon_1&lt;\varepsilon_2 on vérifie la deuxième condition de Wolfe.

La recherche d’un pas de Wolfe peut se faire par dichotomie. On initialise s ,s +,s=0,+,s_-,s_+,s=0,+\infty,estimation initiale. Puis on fait une boucle

  1. On teste si ss vérifie la première condition de Wolfe:
  2. Si c’est le cas, on teste la deuxième condition de Wolfe
    1. si la deuxième condition est vérifiée, on renvoie ss qui est un pas de Wolfe.
    2. Sinon on pose s =ss_-=s et (s=2ss=2s si s=+s=+\infty ou s=(s +s +)/2s=(s_-+s_+)/2 si s ++s_+\neq +\infty).
  3. Si ce n’est pas le cas, ss est trop grand, on pose donc s +=ss_+=s, et s=(s +s +)/2s=(s_-+s_+)/2 et on reéssaie.

Cette dichotomie est couteuse car exécutée à chaque itération de la descente, on peut l’accélérer en interpolant f(v+sw)f(v+sw) (par exemple par un polynôme de Lagrange/Hermite de degré 3 en 0,0,ss, ss).

Chapitre 22  Algèbre linéaire

On présente ici des algorithmes autour de la résolution exacte et approchée de systèmes (réduction des matrices sous forme échelonnée) et la recherche de valeurs propres et de vecteurs propres (diagonalisation et jordanisation des matrices).

22.1  Résolution de systèmes, calcul de déterminant.

22.1.1  La méthode du pivot de Gauß.

Algorithme du pivot de Gauss (sur un corps)
Soit MM une matrice ayant LL lignes et CC colonnes. On numérote à partir de 0.

  1. initialiser les indices du pivot ligne ll et cc à 0.
  2. Tant que l<Ll&lt;L et c<Cc&lt;C faire :
    1. Parcourir la colonne cc à partir de la ligne ll et chercher un coefficient non nul.
      Si tous les coefficients sont nuls, incrémenter cc de 1 et passer à l’itération suivante de la boucle Tant que.
    2. Si nécessaire, échanger la ligne ayant un coefficient non nul avec la ligne ll
    3. Maintenant M l,c0M_{l,c}\neq 0. Si M l,c1M_{l,c} \neq 1 on effectue : L l1M l,cL lL_l \leftarrow \frac{1}{M_{l,c}} L_l Cette opération est réversible car on multiplie la ligne par un coefficient non nul.
    4. Pour jj de l+1l+1 à L1L-1 effectuer la manipulation de ligne sur la matrice MM (dont la ligne ll a été modifiée) : L jL jM j,cL l,L_j \leftarrow L_j - M_{j,c} L_l, Cette opération crée un 0 à la ligne jj en colonne cc sans détruire les 0 existants en ligne jj pour des indices de colonne strictement inférieurs à cc.
      Cette opération est réversible d’inverse L jL j+M j,cL lL_j \leftarrow L_j+M_{j,c} L_l (avec le coefficient de la matrice avant l’opération)
    5. Incrémenter ll et cc de 1.

Toutes les opérations sont réversibles, donc le système obtenu est équivalent au système initial. Mais il est plus simple, car triangulaire supérieur, il y a des 0 en-dessous d’une “diagonale généralisée” (normalement c’est une diagonale, mais elle peut se décaler vers la droite s’il y a des colonnes où on n’a pas trouvé de 0). On résoud alors le système de bas en haut.

On peut aussi faire l’étape 2d pour jj de 0 jusque L1L-1 et jLj\neq L et obtenir une matrice échelonnée, avec des 0 de part et d’autre de la diagonale, plus précisément des 0 dans toutes les colonnes correspondant à des coefficients non nuls sur la diagonale généralisée. On peut aussi ne pas faire l’étape 2c, et remplacer 2d par L jL jM j,cM l,cL l, L_j \leftarrow L_j - \frac{M_{j,c}}{M_{l,c}} L_l,

def piv(M):
    L,C=dim(M)
    l,c=0,0
    while l<L and c<C:
        for j in range(l,L):
            if M[j,c]!=0: 
                break
        if j==L:
            c += 1
            continue
        if j!=l: 
            M[j],M[l]=M[l],M[j]
        if M[l,c]!=1:
            M[l]=inv(M[l,c])*M[l]
        for j in range(l+1,L):
            M[j] -= M[j,c]*M[l]
        c += 1
        l += 1
    return M

onload
Exemple :

On a donc triangularisé le système : {2x +2y +3z =4[11] x 2y +z =2[11] 2x +2y +3z =5[11]{x +y 4z =2[11] y +2z =0[11] z =1[11]\left\{ \begin{array}{cccc} 2x&+2y&+3z&=4 [11]\\ x&-2y&+z&=2 [11] \\ -2x&+2y&+3z&=5 [11] \end{array} \right. \Leftrightarrow \left\{\begin{array}{cccc} x&+y&-4z&=2 [11]\\ &y&+2z&=0 [11] \\ & &z&=1 [11] \end{array} \right. sa solution s’obtient en résolvant l’équation correspondant à la dernière ligne de la matrice réduite, donc z=1[11]z=1 [11], puis l’avant-dernière ligne donne y=2z=2[11]y=-2z=-2[11] puis la première équation donne x=y+4z+2=8[11]=3[11]x=-y+4z+2=8[11]=-3[11].
On vérifie

N.B.: on verra à la section 22.4 que l’algorithme du pivot de Gauss peut s’effectuer directement sur la matrice AA d’un système sans son second membre, c’est la factorisation PA=LUPA=LU d’une matrice, qui permet de se ramener à résoudre deux systèmes triangulaires.

Variantes en fonction du corps des coefficients :

Vérifions qu’on n’introduit pas de dénominateur dans la méthode de Bareiss. Sans restreindre la généralité, il suffit de le montrer avec une matrice 3x3 à coefficients symboliques génériques.

Pivot(M,n,m,r):={ 
 // n ligne du pivot, m colonne, r ligne a modifier
 local COL,j,a,b; 
 COL:=ncols(M);
 a:=M[n,m];
 b:=M[r,m];
 for j from 0 to COL-1 do
   // afficher(j,a,b,n,m,r);
   M[r,j]:=a*M[r,j]-b*M[n,j];
 end_for;
 return(M);
}:; 
M:=matrix(3,3,[[A,B,C],[D,E,F],[G,H,J]]);
M:=Pivot(M,0,0,1); M:=Pivot(M,0,0,2); /* 1ere colonne */
M:=Pivot(M,1,1,2); M:=Pivot(M,1,1,0); /* 2eme colonne */
factor(M[2,2]);

Ce qui met bien en évidence le facteur AA dans M 3,3M_{3,3}.

22.1.2  Le déterminant.

On peut bien sûr appliquer les méthodes ci-dessus en tenant compte des pivots utilisés et du produit des coefficients diagonaux. Dans le cas de la méthode de Bareiss, si on effectue la réduction sous-diagonale uniquement, il n’est pas nécessaire de garder une trace des pivots et de calculer le produit des coefficients diagonaux, montrons que la valeur du déterminant est égal au dernier coefficient diagonal : en effet si RR désigne la matrice réduite et que l’on pose R 0,0=1R_{0,0}=1, alors la réduction par la méthode de Bareiss de la colonne ii a pour effet de multiplier le déterminant de la matrice initiale MM par (R i,i/(R i1,i1) ni(R_{i,i}/(R_{i-1,i-1})^{n-i}. Donc : det(R) = det(M) i=1 n1(R i,i/(R i1,i1) ni i=1 nR i,i = det(M) i=1 n1R i,i R n,n = det(M) \begin{matrix} \mbox{det}(R)&=&\mbox{det}(M) \ \prod_{i=1}^{n-1} (R_{i,i}/(R_{i-1,i-1})^{n-i} \\ \prod_{i=1}^{n} R_{i,i}&=& \mbox{det}(M) \ \prod_{i=1}^{n-1} R_{i,i} \\ R_{n,n} &=& \mbox{det}(M) \end{matrix}

Pour les matrices à coefficients entiers, on peut aussi utiliser une méthode modulaire : on calcule une borne à priori sur le déterminant et on calcule le déterminant modulo suffisamment de petits nombres premiers pour le reconstruire par les restes chinois. En effet si le produit des nombres premiers utilisés est supérieur au double d’un majorant de la valeur absolue du déterminant, alors le déterminant est le résultat des restes chinois écrit en représentation symétrique. L’avantage de cet algorithme est qu’il est simple et facile à paralléliser.

On utilise souvent la borne d’Hadamard sur le déterminant : |det(M)| 1in 1jn|m i,j| 2 |\det(M)| \leq \prod_{1\leq i \leq n} \sqrt{\sum_{1\leq j \leq n} |m_{i,j}|^2} Preuve de la borne : on majore le déterminant par le produit des normes des vecteurs colonnes de MM.

L’algorithme de calcul modulaire du déterminant d’une matrice bornée de taille nn est en O(n 4ln(n))O(n^4 \ln(n)) opérations, en effet chaque calcul modulaire nécessite O(n 3)O(n^3) opérations, et il faut O(nln(n))O(n\ln(n)) nombres premiers d’une taille donnée (par exemple 31 bits) pour dépasser le double de la borne de Hadamard (on montre facilement que la norme euclidienne d’une colonne de AA est nA \leq \sqrt{n}\|A\|_\infty, on en prend la puissance nn-ième). C’est meilleur que la méthode de Bareiss, qui est en O(n 5ln(n) 2O(n^5 \ln(n)^2 (avec multiplication naïve des entiers). En effet lors de la réduction de la kk-ième colonne, on manipule des entiers qui sont des mineurs de taille kk donc de taille O(kln(k))O(k\ln(k)), d’où une complexité en O( k=1 n1(nk) 2(kln(k)) 2)O(\sum_{k=1}^{n-1} (n-k)^2 (k\ln(k))^2 ). Mais la méthode de Bareiss fonctionne dans bien d’autres situations, par exemple si les coefficients sont des polynômes.

Remarque :
Si on veut juste prouver l’inversibilité d’une matrice à coefficients entiers, il suffit de trouver un nombre premier pp tel que le déterminant de cette matrice modulo pp soit non nul.

Développement par rapport à une ligne ou une colonne
On a tendance à oublier ce type de méthode car le développement complet du déterminant (faisant intervenir une somme sur toutes les permutations du groupe symétrique) nécessite d’effectuer n!n! produits de nn coefficients et n!n! additions ce qui est gigantesque. Or on peut "factoriser" une partie des calculs et se ramener à n.2 nn.2^n opérations élémentaires au lieu de n.n!n.n!. Remarquons aussi que le nombre d’opérations élémentaires n’a guère de sens si on ne tient pas compte de la complexité des expressions, l’avantage principal de la méthode de développement étant d’éviter d’effectuer des divisions.

Calcul du déterminant par développement de Laplace
On calcule d’abord tous les mineurs 2x2 des colonnes 1 et 2 que l’on place dans une table de mineurs, puis on calcule les mineurs 3x3 des colonnes 1 à 3 en développant par rapport à la colonne 3 et en utilisant les mineurs précédents, puis les mineurs 4x4 avec les mineurs 3x3, etc.. On évite ainsi de recalculer plusieurs fois les mêmes mineurs. Cf. par exemple l’implémentation en C++ dans giac/xcas (www-fourier.ujf-grenoble.fr/~parisse/giac.html) qui utilise le type générique map<> de la librairie standard C++ (STL) pour stocker les tables de mineurs (fonction det_minor du fichier vecteur.cc).
Nombre d’opérations élémentaires : il y a ( 2 n)(^n_2) mineurs d’ordre 2 à calculer nécessitant chacun 2 multiplications (et 1 addition), puis ( 3 n)(^n_3) mineurs d’ordre 3 nécessitant 3 multiplications et 2 additions, etc. donc le nombre de multiplications est de 2( 2 n)+3( 3 n)+...+n( n n)2(^n_2)+3(^n_3)+...+n(^n_n), celui d’additions est ( 2 n)+2( 3 n)+...+(n1)( n n)(^n_2)+2(^n_3)+...+(n-1)(^n_n) soit un nombre d’opérations élémentaires majoré par n.2 nn.2^n.

On observe "expérimentalement" que cet algorithme est intéressant lorsque le nombre de paramètres dans le déterminant est grand et que la matrice est plutôt creuse (majorité de coefficients nuls). Il existe des heuristiques de permutation des lignes ou des colonnes visant à optimiser la position des zéros (par exemple, les auteurs de GiNaC (www.ginac.de) suite à des expérimentations privilégient la simplification des petits mineurs en mettant les colonnes contenant le maximum de zéros à gauche selon la description faite ici).

Pour se convaincre de l’intérêt de cet algorithme, on peut effectuer le test O1 de Lewis-Wester
http://www.bway.net/~lewis/calatex.html
il s’agit de calculer un déterminant de taille 15 avec 18 paramètres.

22.1.3  Systèmes linéaires

On peut appliquer la méthode du pivot de Gauß ou les règles de Cramer (matrices creuses avec beaucoup de paramètres par exemple).

Pour les systèmes à coefficients entiers non singuliers, on peut aussi utiliser une méthode pp-adique asymptotiquement plus efficace. On calcule d’abord une borne sur les coefficients des fractions solutions de l’équation Ax=bAx=b en utilisant les règles de Cramer et la borne d’Hadamard. On calcule ensuite CC, l’inverse de AA modulo pp (en changeant de pp si AA n’est pas inversible modulo pp), puis, si x= ix ip i,A( i<kx ip i)=b(modp k) x=\sum_i x_i p^i, \quad A(\sum_{i&lt;k} x_i p^i)=b \pmod{p^k} on ajoute x kp kx_k p^k et on obtient l’équation : Ax k=b i<kx ip ip k(modp) Ax_k = \frac{b-\sum_{i &lt;k} x_i p^i}{p^k} \pmod p qui détermine x kx_k. On s’arrête lorsque kk est suffisamment grand pour pouvoir reconstruire les fractions à l’aide de l’identité de Bézout (cf. infra), ce qui est le cas si p kp^k est supérieur à 4 fois la borne de Hadamard de AA au carré. Pour éviter de recalculer plusieurs fois b i<kx ip ib-\sum_{i &lt;k} x_i p^i, on utilise la récurrence suivante y 0=b,x k=Cy k(modp),y k+1=y kAx kp y_0=b, \quad x_{k}=Cy_k \pmod p, \quad y_{k+1} = \frac{y_k-Ax_{k}}{p} Pour une matrice de taille nn, il faut O(n 3)O(n^3) opérations pour calculer CC, puis kn 2ln(n)kn^2 \ln(n) opérations pour calculer x kx_k (le terme ln(n)\ln(n) vient de la taille des coefficients de y ky_k dans le produit Cy kCy_k), donc pour pouvoir reconstruire xx, il faut prendre kk de l’ordre de nln(n)n\ln(n), ce qui nécessite finalement O(n 3ln(n) 2)O(n^3\ln(n)^2) opérations.

22.1.4  Bézout et les pp-adiques.

Soit nn et a/ba/b une fraction irréductible d’entiers tels que bb est premier avec nn et |a|<n/2|a| &lt; \sqrt{n}/2 et 0bn/2 0 \leq b \leq \sqrt{n}/2. Il s’agit de reconstruire aa et bb connaissant x=a×(b 1)(modn)x=a \times (b^{-1}) \pmod n avec x[0,n[x\in [0,n[.

Unicité
S’il existe une solution (a,b)(a,b) vérifiant |a|<n/2|a| &lt; \sqrt{n}/2 et 0bn/2 0 \leq b \leq \sqrt{n}/2, soit (a,b)(a',b') une solution de x=a×(b 1)(modn)x=a \times (b^{-1}) \pmod n et vérifiant |a|<n|a'| &lt; \sqrt{n} et 0bn 0 \leq b' \leq \sqrt{n}, alors : ab=ab(modn) a b'=a' b \pmod n Comme |ab|<n/2|ab'| &lt; n/2, |ab|<n/2|a'b| &lt;n/2, on en déduit que ab=abab'=a'b. Donc a/b=a/ba/b=a'/b' donc a=aa=a' et b=bb=b' car a/ba/b et a/ba'/b' sont supposées irréductibles.

Reconstruction lorsqu’on sait qu’il y a une solution
On suit l’algorithme de calcul des coefficients de Bézout pour les entiers nn et xx. On pose : α kn+β kx=r k \alpha_k n + \beta_k x= r_k où les r kr_k sont les restes successifs de l’algorithme d’Euclide, avec la condition initiale : α 0=1,β 0=0,α 1=0,β 1=1,r 0=n,r 1=x \alpha_0=1, \beta_0=0, \alpha_1=0, \beta_1=1, r_0=n, r_1=x et la relation de récurrence : β k+2=β kq k+2β k+1,q k+2=r kr k+2r k+1 \beta_{k+2}=\beta_k - q_{k+2} \beta_{k+1}, \quad q_{k+2}=\frac{r_{k}-r_{k+2}}{r_{k+1}}

On a β kx=r k(modn) \beta_k x= r_k \pmod n pour tout rang mais il faut vérifier les conditions de taille sur β k\beta_k et r kr_k pour trouver le couple (a,b)(a,b). Montrons par récurrence que : β k+1r kr k+1β k=(1) kn(42) \beta_{k+1} r_k - r_{k+1} \beta_k = (-1)^k n \qquad (42) Au rang k=0k=0, on vérifie l’égalité, on l’admet au rang kk, alors au rang k+1k+1, on a : β k+2r k+1r k+2β k+1 = β kr k+1q k+2r k+1β k+1r k+2β k+1 = β kr k+1(r kr k+2)β k+1r k+2β k+1 = β kr k+1r kβ k+1 = (1) kn \begin{matrix} \beta_{k+2} r_{k+1} - r_{k+2} \beta_{k+1} & = & \beta_k r_{k+1} - q_{k+2} r_{k+1} \beta_{k+1} - r_{k+2} \beta_{k+1} \\ & = & \beta_k r_{k+1} - (r_{k}-r_{k+2}) \beta_{k+1} - r_{k+2} \beta_{k+1} \\ & = & \beta_k r_{k+1} - r_{k} \beta_{k+1} \\ & = & - (-1)^k n \end{matrix} On vérifie aussi que le signe de β k\beta_k est positif si kk est impair et négatif si kk est pair, on déduit donc de (42) : |β k+1|r k<n |\beta_{k+1}| r_k &lt; n (avec égalité si r k+1=0r_{k+1}=0)

Considérons la taille des restes successifs, il existe un rang kk tel que r knr_k \geq \sqrt{n} et r k+1<nr_{k+1}&lt;\sqrt{n}. On a alors |β k+1|<n/r kn|\beta_{k+1}| &lt; n/r_k \leq \sqrt{n}.

Donc l’algorithme de Bézout permet de reconstruire l’unique couple solution s’il existe.

Exemple
On prend n=101n=101, a=2a=2, b=3b=3, a/b=68(mod101)a/b=68 \pmod {101}. Puis on effectue Bézout pour 6868 et 101101 en affichant les étapes intermédiaires (par exemple avec IEGCD sur une HP49 ou exercice avec votre système de calcul formel) :

   = alpha*101+beta*68
101    1        0
 68    0        1  L1 - 1*L2
 33    1       -1  L2 - 2*L3
  2   -2        3  ...

On s’arrête à la première ligne telle que le coefficient de la 1ère colonne est inférieur à 101\sqrt{101}, on retrouve bien 22 et 33. Quand on programme l’algorithme de reconstruction, on ne calcule bien sûr pas la colonne des α\alpha, ce qui donne par exemple le programme xcas ou mupad suivant :

// Renvoie a/b tel que a/b=x mod n et |a|,|b|<sqrt(n)
padictofrac:=proc (n,x)
  local r0,beta0,r1,beta1,r2,q2,beta2;
begin
  r0:=n;
  beta0:=0;
  r1:=x;
  beta1:=1;
  sqrtn:=float(sqrt(n));
  while r1>sqrtn do
    r2:= irem(r0,r1); 
    q2:=(r0-r2)/r1;
    beta2:=beta0-q2*beta1;
    beta0:=beta1; r0:=r1; beta1:=beta2; r1:=r2;
  end_while;
  return(r1/beta1);
end_proc;

22.1.5  Base du noyau

On présente ici deux méthodes, la première se généralise au cas des systèmes à coefficients entiers, la deuxième utilise un peu moins de mémoire (elle travaille sur une matrice 2 fois plus petite).

Première méthode Soir MM la matrice dont on cherche le noyau. On ajoute à droite de la matrice transposée de MM une matrice identité ayant le même nombre de lignes que M tM^t. On effectue une réduction sous-diagonale qui nous amène à une matrice composée de deux blocs (M tI n)(UL˜) ( M^t I_n ) \ \rightarrow \ ( U \tilde{L} ) Attention, L˜\tilde{L} n’est pas la matrice LL de la décomposition LULU de M tM^t, on a en fait L˜M t=U \tilde{L} M^t = U donc ML˜ t=U t M \tilde{L}^t = U^t Les colonnes de L˜ t\tilde{L}^t correspondant aux colonnes nulles de U tU^t (ou si on préfère les lignes de L˜\tilde{L} correspondant aux lignes nulles de UU) sont donc dans le noyau de MM et réciproquement si Mv=0Mv=0 alors U t(L˜ t) 1v=0 U^t (\tilde{L}^t)^{-1} v =0 donc, comme UU est réduite, (L˜ t) 1v(\tilde{L}^t)^{-1} v est une combinaison linéaire des vecteurs de base d’indice les lignes nulles de UU. Finalement, les lignes de L˜\tilde{L} correspondant aux lignes nulles de UU forment une base du noyau de MM.

Deuxième méthode On commence bien sûr par réduire la matrice (réduction complète en-dehors de la diagonale), et on divise chaque ligne par son premier coefficient non nul (appelé pivot). On insère alors des lignes de 0 pour que les pivots (non nuls) se trouvent sur la diagonale. Puis en fin de matrice, on ajoute ou on supprime des lignes de 0 pour avoir une matrice carrée de dimension le nombre de colonnes de la matrice de départ. On parcourt alors la matrice en diagonale. Si le ii-ième coefficient est non nul, on passe au suivant. S’il est nul, alors tous les coefficients d’indice supérieur ou égal à ii du ii-ième vecteur colonne v iv_i sont nuls (mais pas forcément pour les indices inférieurs à ii). Si on remplace le ii-ième coefficient de v iv_i par -1, il est facile de se convaincre que c’est un vecteur du noyau, on le rajoute donc à la base du noyau. On voit facilement que tous les vecteurs de ce type forment une famille libre de la bonne taille, c’est donc bien une base du noyau.

22.2  Algèbre linéaire sur \mathbb{Z}

22.2.1  Calcul du déterminant d’une matrice à coefficient entiers

L’algorithme pp-adique de résolution de systèmes linéaires peut servir à accélérer le calcul du déterminant d’une matrice à coefficients entiers de grande taille. En effet, le PPCM ff des dénominateurs des composantes de xx est un diviseur du déterminant, et si bb est choisi avec des coefficients aléatoires, on a une forte probabilité d’obtenir le dernier facteur invariant de la matrice AA. Comme le déterminant de AA a une très faible probabilité de contenir un gros facteur carré, ce dernier facteur invariant est très proche du déterminant. Ce dernier est pour une matrice AA aléatoire lui-même à un facteur de l’ordre de (2/π) n(2/\pi)^n proche de la borne de Hadamard. Il suffit donc de très peu de nombres premiers pour déterminer det(A)/f(A)/f par le théorème des restes chinois. En pratique pour des nn de l’ordre de 100 à 1000, cet algorithme est plus rapide que le calcul uniquement par les restes chinois. Pour des nn plus grands, il faut se rabattre sur des algorithmes probabilistes avec arrêt prématuré pour être plus rapide (on s’arrête lorsque le déterminant n’évolue plus par reconstruction par les restes chinois pour plusieurs nombres premiers successifs, le résultat n’est alors pas certifié, c’est ce qui se passe dans Xcas si proba_epsilon n’est pas nul), ou utiliser des méthodes d’inversion ou de réduction de type Strassen.

22.2.2  Réduction de Hermite et Smith

Lorsque MM est une matrice à coefficients entiers, on ne peut plus faire l’algorithme du pivot de Gauss ou de Gauss-Bareiss en restant dans \mathbb{Z} et en étant réversible. On peut toutefois effectuer des manipulations élémentaires réversibles dans \mathbb{Z}, grâce à l’idendité de Bézout. Si aa est le pivot en ligne ii, bb le coefficient en ligne jj à annuler, et u,v,du, v, d les coefficients de l’identité de Bézout au+bv=da u + b v =d on fait les changements : L iuL i+vL j,L jbdL i+adL j L_i \leftarrow uL_i +v L_j, \quad L_j \leftarrow -\frac{b}{d} L_i + \frac{a}{d} L_j qui est réversible dans \mathbb{Z} car le déterminant de la sous-matrice élémentaire correspondante est |u v bd ad|=1 \left| \begin{array}{cc} u & v \\ -\frac{b}{d} & \frac{a}{d} \end{array} \right| = 1 On peut donc créer des zéros en-dessous de la diagonale, il existe une matrice inversible LL telle que LM=ULM=UUU est triangulaire supérieure. On peut même rendre les coefficients hors diagonale de UU inférieur aux pivots de leurs colonnes respectives en faisant une combinaison linéaire de lignes L j=L jqL p,j<pL_j = L_j-qL_p, j&lt;pqq est le quotient de la division euclidienne de M jcM_{jc} par M pcM_{pc} (pp la ligne du pivot, en principe p=cp=c). On observe aussi que les pivots sont les pgcd des éléments de la colonne du pivot à partir de la ligne du pivot.

Applications : Cette réduction (dite forme normale de Hermite lorsqu’on réduit les lignes au-dessus de la diagonale par division euclidienne par le pivot) permet de trouver une base du noyau à coefficients entiers et telle que tout élément du noyau à coefficient entier s’écrit comme combinaison linéaire à coefficients entiers des éléments de la base. Il suffit d’appliquer la réduction de Hermite à (M t|I)(M^t|I), on obtient une matrice (U|L)(U|L) telle que U=LM tU=LM^t. Dans Xcas, on peut utiliser l’instruction ihermite (ou mathnf de PARI). L’aide détaillée de Xcas donne un exemple de calcul de \mathbb{Z}-base d’un noyau.

Exemple : soit à résoudre en entiers 2x+3y+5z=02x+3y+5z=0. On pose M:=[[2,3,5]] puis L,U:=ihermite(tran(M)), les lignes nulles de UU correspondent à des lignes de LL qui forment une base du noyau de MM, soit (6,1,3)(6,1,-3) et (5,0,2)(-5,0,2). En effet U=LM tU=L M^t donc U t=ML tU^t=M L^t, les colonnes nulle de U tU^t sont donc images par MM des colonnes correspondantes de L tL^t, ainsi les lignes de LL correspondant à des lignes nulles de UU sont dans le noyau. Et si un vecteur à coefficient entiers est dans le noyau, alors il se décompose sur les vecteurs colonnes de L tL^t avec des coefficients entiers (puisque LL\inGLn()_n(\mathbb{Z})), on applique MM et on conclut que ses composantes sur les colonnes non nulles de U tU^t sont nulles.

Remarque : l’algorithme du pivot de Gauss permet de trouver plus rapidement une base sur \mathbb{Q} du noyau de MM à coefficients entiers, par exemple ici {v 1=(3,2,0),v 2=(5,0,2)}\{ v_1=(-3,2,0), v_2=(-5,0,2)\} mais ce n’est pas une base sur \mathbb{Z}, par exemple 1/2v 1+1/2v 2 31/2v_1+1/2v_2 \in \mathbb{Z}^3.

Plus généralement, chercher une solution particulière du système MX=BMX=B revient à résoudre U tY=BU^t Y=B avec Y=(L t) 1XY=(L^t)^{-1} X, la recherche de YY est alors très simple puisque UU est échelonnée. Par exemple, M:=[[2,3,5],[7,5,3]] puis B:=[3,-2], puis L,U:=ihermite(tran(M)), donne pour tran(U) (1 0 0 0 1 0)\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \end{array}\right) on a donc y 1=3,y 2=2,y 3y_1=3, y_2=-2, y_3 quelconque puis on calcule X:=tran(L)*[3,-2,y3], on peut vérifier avec normal(M*X).

On peut aussi se servir de la forme normale de Hermite pour compléter un vecteur v=(a 1,...,a n)v=(a_1,...,a_n) de contenu 1 en une base de n\mathbb{Z}^n (si le contenu n’est pas 1, c’est bien sur impossible puisque le déterminant est un multiple du contenu), il suffit de prendre les colonnes de L 1L^{-1} (où L,U:=ihermite(tran(v))). En effet on a U=Lv tU=L v^t et UU est égal à (1,0,...,0)(1,0,...,0) car le contenu de vv vaut 1.

La réduction échelonnée sous la diagonale correspond à ihermite, la réduction complète correspond à ismith (ou matsnf de PARI) qui calcule la décomposition de Smith d’une matrice AA à coefficients entiers et en donne les coefficients invariants. Il faut pour cela alterner plusieurs décomposition de Hermite en ligne et en colonne. En effet un élément hors diagonale a ija_{ij} non nul d’une réduction de Hermite est un reste de division euclidienne par le pivot a jja_{jj} (respectivement a iia_{ii} selon qu’on réduit en lignes ou en colonnes) sur la diagonale, il est donc strictement plus petit et donnera lieu à l’étape de réduction suivante à un pgcd soit égal en a iia_{ii} [resp. a jja_{jj}] (dans ce cas a ija_{ij} deviendra nul et on effectue une seule manipulation de lignes de type Gauss et non deux, ce qui ne changera pas les 0 dans la ligne du pivot), soit strictement plus petit, donc soit l’un des pivots décroit, soit l’un des a ija_{ij} hors diagonale s’annule. On obtient en un nombre fini d’étapes une matrice diagonale. La forme normale de Smith d’une matrice AA impose également que les coefficients diagonaux non nuls d 1|d 2|...|d rd_1|d_2|...|d_r se divisent. Pour réaliser cela, si par exemple d 1d_1 ne divise pas d 2d_2, on remplace C 1C_1 par C 1+C 2C_1+C_2, puis on fait apparaitre le pgcd de d 1d_1 et d 2d_2 en ligne 1 colonne 1 en créant un 0 en ligne 2 colonne 1.

La réduction de Smith sert par exemple à montrer qu’un sous-module de n\mathbb{Z}^n obtenu par quotient par l’image d’une application linéaire de matrice AA est isomorphe à /d i×...×/d r× nr\mathbb{Z}/d_i \times ... \times \mathbb{Z}/d_r \times \mathbb{Z}^{n-r}. C’est ce qu’on obtient pour un module présenté par des générateurs et relations entre générateurs. Les coefficients d id_i sont appelés facteurs invariants de la matrice AA, leur factorisation en produit de nombres premiers à une certaine puissance donne les diviseurs élémentaires.

Exemple 1 : on se donne le groupe abélien engendré par x 1x_1 et x 2x_2 vérifiant les relations 2x 1+4x 2=0,2x 1+6x 2=02x_1+4x_2=0, -2x_1+6x_2=0. On fait L 2=L 2+L 1L_2=L_2+L_1 et C 2=C 2C 1C_2=C_2-C_1 ce qui donne la matrice réduite de diagonale 2 et 10, qui en sont les facteurs invariants, le groupe est isomorphe à /2×/10\mathbb{Z}/2 \times \mathbb{Z}/10 (parfois noté \oplus au lieu de ×\times).

Exemple 2 : on se donne un module sur \mathbb{Z} engendré par m 1,m 2,m 3m_1,m_2,m_3 et les relations 2m 1+3m 2+5m 3=0,7m 1+3m 25m 3=02m_1+3m_2+5m_3=0, 7m_1+3m_2-5m_3=0. On pose A:=[[2,3,5],[7,3,-5]], puis U,B,V:=ismith(A), on a donc B=UAVB=UAV. Si M=(m 1,m 2,m 3)M=(m_1,m_2,m_3), on a AM=0AM=0 donc BV 1M=UAM=0B V^{-1}M=UAM=0. On pose (n 1,n 2,n 3)=N=V 1M(n_1,n_2,n_3)=N=V^{-1}M, les générateurs n 1=m 16m 220m 3,n 2=m 2+3m 3,n 3=m 3n_1=m_1-6m_2-20m_3, n_2=m_2+3m_3,n_3=m_3 vérifient donc b 1n 1=0,b 2n 2=0,b 1=1,b 2=15b_1 n_1=0, b_2n_2=0, b_1=1, b_2=15, le module est donc isomorphe à /1×/15×\mathbb{Z}/1 \times \mathbb{Z}/15 \times \mathbb{Z} soit encore /15×\mathbb{Z}/15\mathbb{Z} \times \mathbb{Z}.

22.2.3  L’algorithme LLL.

Il s’agit d’une méthode permettant d’obtenir rapidement une base courte d’un réseau. Ce n’est pas la base la plus courte possible mais un compromis temps d’exécution rapide/base pas trop grande. Voir par exemple Cohen pour la définition et les propriétés. L’instruction Xcas correspondante est lll (ou qflll de PARI).

Cet algorithme est très utile en calcul formel, pour éviter une explosion combinatoire dans certaines opérations de recombinaison. Par exemple, supposons que nous souhaitions factoriser un polynôme PP à coefficients entiers sur [X]\mathbb{Z}[X] en utilisant ses racines approchées. Si plusieurs racines r kr_k correspondent à un facteur entier, alors p nr kp_n \sum r_k doit être un entier aux erreurs d’arrondi près. Tester toutes les combinaisons possibles serait beaucoup trop long, en particulier si PP est irréductible (en gros 2 n12^{n-1} tests de recombinaison). Pour éviter ce problème, on construit un réseau engendré par degré PP lignes dont les premières coordonnées sont celles de la matrice identité, complétées par la partie réelle et imaginaire des racines de PP multipliée par le coefficient dominant de PP et par une puissance de 10 assez grande. On ajoute deux lignes qui“annulent” les parties entières des combinaisons linéaires des parties réelles et imaginaires. L’existence d’un facteur irréductible se lira sur un vecteur court du réseau avec des 1 et des 0 comme combinaison linéaire des vecteurs initiaux.

f(P):={
  local l,n,prec,M,S,A,L,O;
  n:=degree(P);
  prec:=2*n;
  l:=proot(P,prec+n);
  M:=round(tran([op(idn(n)),
     lcoeff(P)*10^prec*re(l),lcoeff(P)*10^prec*im(l)]));
  M:=[op(M),[op(seq(0,n)),10^prec,0],[op(seq(0,n+1)),10^prec]];
  S,A,L,O:=lll(M);
  retourne l,A;
}:;

Par exemple, P:=(x^3+x+1)*(x^4+x+1) suivi de l,A:=f(P) fait apparaitre en première ligne de AA le vecteur (1,1,1,0,0,0,0,0,0)(1,1,1,0,0,0,0,0,0). On essaie donc de recombiner les trois premières racines de l
pcoeff(l[0],l[1],l[2])
renvoie bien un facteur presqu’entier de PP. Il faut bien entendu des encadrements rigoureux pour déterminer la précision à utiliser pour les racines pour prouver l’irréductibilité de PP si AA ne contient pas de vecteur court contenant uniquement des 1 et 0.

22.3  Le pivot de Gauss numérique.

22.3.1  Efficacité de l’algorithme

Si la matrice possède LL lignes et CC colonnes, le nombre maximal d’opérations pour réduire une ligne est CC opérations (une opération=1 multiplication + 1 soustraction, en calculant une seule fois le quotient). Il y a L1L-1 lignes à réduire à chaque étape et min(L,C)(L,C) étapes à effectuer, on en déduit que le nombre maximal d’opérations pour réduire une matrice est LCLCmin(L,C)(L,C). Pour une matrice carrée de taille nn, cela fait n 3n^3 opérations. En fait c’est moins, parce que lorsqu’on crée des 0 dans la kk-ième colonne, la ligne du pivot à retrancher commence par k1k-1 zéros, on peut donc commencer la combinaison linéaire à la colonne kk, donc pour une matrice carrée de taille nn cela fait en réalité n 3/2n^3/2 opérations. Si on effectue une réduction en-dessous de la diagonale, toujours pour une matrice carrée, le nombre d’opérations devient n 3/3n^3/3 ( k=2 nk 2\sum_{k=2}^n k^2). On peut ensuite réduire au-dessus de la diagonale.

22.3.2  Erreurs d’arrondis du pivot de Gauss

Comme |a jc||a lc||a_{jc}| \leq |a_{lc}|, une étape de réduction multiplie au plus l’erreur absolue des coefficients par 2. Donc la réduction complète d’une matrice peut multiplier au pire l’erreur absolue sur les coefficients par 2 n2^n (où nn est le nombre d’étapes de réduction, inférieur au plus petit du nombre de lignes et de colonnes). Ceci signifie qu’avec la précision d’un double, on peut au pire perdre toute précision pour des matrices pas si grandes que ça (n=52n=52). Heureusement, il semble qu’en pratique, l’erreur absolue ne soit que très rarement multipliée par un facteur supérieur à 10.

Par contre, si on ne prend pas la précaution de choisir le pivot de norme maximale dans la colonne, les erreurs d’arrondis se comportent de manière bien moins bonnes, cf. l’exemple suivant.

Exemple
Soit à résoudre le système linéaire εx+1.0y=1.0,x+2.0y=3.0 \epsilon x + 1.0 y = 1.0 , \quad x + 2.0 y = 3.0 avec ε=2 54\epsilon =2^{-54} (pour une machine utilisant des doubles pour les calculs en flottant, plus généralement on choisira ε\epsilon tel que (1.0+3ε)1.0(1.0+3\epsilon)-1.0 soit indistinguable de 0.0).
Si on résoud le système exactement, on obtient x=1/(12ε)x=1/(1-2\epsilon) (environ 1) et y=(13ε)/(12ε)y=(1-3\epsilon)/(1-2\epsilon) (environ 1). Supposons que l’on n’utilise pas la stratégie du pivot partiel, on prend alors comme pivot ε\epsilon, donc on effectue la manipulation de ligne L 2L 21/εL 1L_2 \leftarrow L_2 - 1/\epsilon L_1 ce qui donne comme 2ème équation (2.01.0/ε)y=3.01.0/ε(2.0-1.0/\epsilon)y=3.0-1.0/\epsilon. Comme les calculs sont numériques, et à cause des erreurs d’arrondis, cette 2ème équation sera remplacée par (1.0/ε)y=1.0/ε(-1.0/\epsilon)y=-1.0/\epsilon d’où y=1.0y=1.0, qui sera remplacé dans la 1ère équation, donnant εx=1.01.0y=0.0\epsilon x = 1.0-1.0y=0.0 donc x=0.0x=0.0.
Inversement, si on utilise la stratégie du pivot partiel, alors on doit échanger les 2 équations L 2=L 1L_2'=L_1 et L 1=L 2L_1'=L_2 puis on effectue L 2L 2εL 1L_2 \leftarrow L_2' - \epsilon L_1', ce qui donne (1.02.0ε)y=1.03.0ε(1.0-2.0\epsilon) y = 1.0 - 3.0 \epsilon , remplacée en raison des erreurs d’arrondi par 1.0*y=1.01.0*y=1.0 donc y=1.0y=1.0, puis on remplace yy dans L 1L_1' ce qui donne x=3.02.0y=1.0x=3.0-2.0y=1.0.
On observe dans les deux cas que la valeur de yy est proche de la valeur exacte, mais la valeur de xx dans le premier cas est grossièrement eloignée de la valeur correcte.

On peut aussi s’intéresser à la sensibilité de la solution d’un système linéaire à des variations de son second membre. Cela fait intervenir le nombre de conditionnement de la matrice AA (voir plus bas) du système (qui est essentiellement la valeur absolue du rapport de la valeur propre la plus grande sur la valeur propre la plus petite), plus ce nombre est grand, plus la solution variera (donc plus on perd en précision).

22.4  La méthode de factorisation LULU

Dans sa forme la plus simple, elle permet d’écrire une matrice AA comme produit de deux matrices triangulaire inférieures et supérieures, ce qui ramène la résolution de système à la résolution de deux systèmes triangulaires. Pour tenir compte d’éléments diagonaux nuls et pour optimiser les erreurs d’arrondi, il est nécessaire d’effectuer des permutations sur les lignes de la matrice.

22.4.1  Interprétation matricielle du pivot de Gauss

On notera ll et cc le nombre de lignes et colonnes de AA (pour éviter la confusion avec le facteur LL) et on supposera AA non singulière pour simplifier l’exposition.

Lorsqu’on réduit la colonne jj d’une matrice A˜\tilde{A} (partiellement réduite) à partir de la ligne j+1j+1 (en supposant A˜ j,j0\tilde{A}_{j,j} \neq 0), cela revient à multiplier A˜\tilde{A} à gauche par une matrice L˜ j\tilde{L}_j créée en partant de la matrice identité de taille ll où on remplace les 0 colonne jj, lignes j+1j+1 à ll par le coefficient de la combinaison de ligne effectuée : l il iA˜ i,jA˜ j,jl jl_i \rightarrow l_i - \frac{\tilde{A}_{i,j}}{\tilde{A}_{j,j}} l_j donc : L˜ j=(1 ... 0 0 0 ... 0 ... ... ... ... ... ... 0 0 ... 1 0 ... ... 0 0 ... 0 1 ... ... 0 0 ... 0 A˜ j+1,jA˜ j,j 1 ... 0 0 ... 0 .... 0 ... 0 0 ... 0 A˜ l,jA˜ j,j 0 ... 1 ) \tilde{L}_j = \left( \begin{array}{ccccccc} 1 & ... & 0 & 0 & 0 & ... & 0\\ ...& ... & ... & ... & ... & ... & 0\\ 0 & ... & 1 & 0 & ... & ... & 0\\ 0 & ... & 0 & 1 & ... & ... & 0 \\ 0 & ... & 0 & - \frac{\tilde{A}_{j+1,j}}{\tilde{A}_{j,j}} & 1 & ... & 0 \\ 0 & ... & 0 & .... & 0 & ... & 0 \\ 0 & ... & 0 & - \frac{\tilde{A}_{l,j}}{\tilde{A}_{j,j}} & 0 & ... & 1\\ \end{array} \right) On vérifie facilement que l’inverse de cette matrice est L j=L˜ j 1=(1 ... 0 0 0 ... 0 ... ... ... ... ... ... 0 0 ... 1 0 ... ... 0 0 ... 0 1 ... ... 0 0 ... 0 A˜ j+1,jA˜ j,j 1 ... 0 0 ... 0 .... 0 ... 0 0 ... 0 A˜ l,jA˜ j,j 0 ... 1 ) L_j = \tilde{L}_j^{-1} = \left( \begin{array}{ccccccc} 1 & ... & 0 & 0 & 0 & ... & 0\\ ...& ... & ... & ... & ... & ... & 0\\ 0 & ... & 1 & 0 & ... & ... & 0\\ 0 & ... & 0 & 1 & ... & ... & 0 \\ 0 & ... & 0 & \frac{\tilde{A}_{j+1,j}}{\tilde{A}_{j,j}} & 1 & ... & 0 \\ 0 & ... & 0 & .... & 0 & ... & 0 \\ 0 & ... & 0 & \frac{\tilde{A}_{l,j}}{\tilde{A}_{j,j}} & 0 & ... & 1\\ \end{array} \right) Donc AA est le produit des matrices L jL_j par une matrice réduite UU qui est triangulaire supérieure A=L 1...L l1U A= L_1...L_{l-1} U On vérifie ensuite que le produit des matrices L 1...L l1L_1...L_{l-1} revient à remplacer les coefficients de la colonne jj sous la diagonale par ceux de L jL_j, ce qui donne une matrice LL triangulaire inférieure (avec des 1 sur la diagonale). Pour l’obtenir il suffit au cours de l’algorithme de réduction sous-diagonale du pivot de Gauss de stocker le coefficient de la combinaison linéaire dans une matrice initialisée à la matrice identité (on peut aussi le faire en place dans la matrice á réduire).

Attention, le produit L˜ l1...L˜ 1\tilde{L}_{l-1}...\tilde{L}_1 ne s’obtient pas en copiant la colonne jj de L˜ j\tilde{L}_j pour jj variant de 1 à l1l-1! On peut l’obtenir en faisant une réduction sous-diagonale de la matrice bloc obtenue en collant AA avec la matrice identité ayant ll lignes.

22.4.2  Factorisation PA=LUPA=LU

Si on veut mettre en oeuvre la stratégie du pivot partiel (ou en calcul exact si un coefficient diagonal est nul), il est nécessaire d’intervertir une ligne de la matrice partiellement réduite avec une ligne en-dessous. Cela revient à réduire la matrice AA de départ après échange de ces mêmes lignes. En conséquence ce n’est pas AA qui est le produit LULU mais une matrice obtenue par permutations de lignes de AA, que l’on peut écrire comme produit à gauche de AA par une matrice de permutation PP.

Remarque : si à une étape de réduction, tous les coefficients de la colonne jj à partir de la ligne jj sont nuls, on peut simplement ignorer cette colonne et incrémenter jj de 1 (L jL_j sera l’identité). Mais ceci différe de la réduction sous forme échelonnée où on incrémente jj de 1, mais pas ii (on ne peut plus alors déduire le rang de UU du nombre de lignes non nulles). On peut aussi effectuer un échange de colonnes (ce qui revient à multiplier à droite par une matrice de permutation).

22.4.3  Applications de la décomposition LULU

On peut résoudre des systèmes linéaires par la factorisation LULU. En effet soit à résoudre Ax=bAx=b. On effectue la permutation de lignes sur AA et bb (correspondant à la matrice de permutation PP), ce qui donne PAx=Pb=LUxPAx=Pb=LUx, puis on résoud Ly=PbLy=Pb (système triangulaire inférieur), puis on résoud Ux=yUx=y (système triangulaire supérieur).

Comparaison avec la réduction complète sous forme échelonnée de (A|b)(A|b) :

On peut inverser une matrice en utilisant la décomposition LULU. Supposons pour simplifier que la permutation est l’identité. On calcule d’abord L 1L^{-1} en utilisant le fait que LL est triangulaire inférieure, voici comment cela est implémenté dans Xcas (LL est noté l) :

first step compute l^-1, 
solve l*a=y for y a canonical basis vector
  a0=y0, a1=y1-l_{1,0}*a0, ..., ak=yk-sum_{j=0..k-1}(l_kj*aj)
if y=(0,..,0,1,0,...0) (1 at position i), 
  a0=..=a_{i-1}=0, a_i=1 and we start at equation k=i+1 and sum_{j=i...}
-> n^3/6 operations
To store the result in place of l
we first compute all the a2 (there is only 1), then all the a3 (2), etc.
a0=y0, a1=y1-l_{1,0}*a0, ..., ak=yk-sum_{j=0..k-1}(l_kj*aj)

Puis on résoud UA 1=L 1U A^{-1}=L^{-1} colonne par colonne

second step, solve u*inverse=l^-1 (now under the diagonal)
we compute a column of inverse by solving the system: 
u*col(inverse)=corresponding row of l^-1, 
and overwrite the row of l^-1 by solution
u*[x0,..,xn-1]=[a0,...,an]
x_{n-1}=a_{n-1}/u_{n-1,n-1}
x_{n-2}=(a_{n-2}-u_{n-2,n-1}*x_{n-1})/u_{n-2,n-2}
...
x_k=(a_{k}-sum_{j=k+1..n-1} u_{k,j}x_j)/u_{k,k}
-> n^3/2 operations
To store the solution in place, we first compute all the x_{n-1}
put them in the last line of m, then all the x_{n-2}, etc.

Pour une analyse des erreurs d’arrondis dans la décomposition LULU, voir par exemple Higham et les références citées
www.maths.manchester.ac.uk/~higham/narep/narep173.pdf

22.5  La factorisation de Cholesky

Dans le cas où la matrice est réelle symétrique définie positive (ou plus généralement hermitienne), on peut obtenir une écriture analogue mais où UU est la transconjuguée de LL A=U *U=LL * A=U^* U = L L^* LL reste triangulaire inférieure, mais n’a plus des 1 sur sa diagonale en général. Si AA est définie positive, on peut rendre l’écriture unique en imposant aux coefficients diagonaux de LL d’être réels positifs.

L’algorithme de calcul de UU est la traduction matricielle de l’algorithme de Gauss de réduction des formes quadratiques. On a en effet x *Ax=x *U *Ux=||Ux|| 2 x^* A x=x^* U^* U x = ||Ux||^2 les lignes de UU (ou les colonnes de LL) sont donc les coefficients des formes linéaires indépendantes qui interviennent dans l’écriture de la forme quadratique comme somme/différence de carrés de formes linéaires. Si AA est définie positive, seules des sommes interviennent, et les variables s’éliminent l’une après l’autre (le coefficient de x 2x_2 est forcément non nul lorsqu’on a éliminé x 1x_1 et ainsi de suite), ceci explique la forme triangulaire de UU et LL.

Le calcul de LL se fait donc colonne par colonne, en calculant d’abord le coefficient diagonal comme racine carrée du coefficient diagonal α j=A j,j\alpha_j=\sqrt{A_{j,j}}. Ensuite on effectue les combinaisons de ligne sous la forme l j1α jl j,l iα jl iA i,jα jl j l_j \rightarrow \frac{1}{\alpha_j}l_j, \quad l_i \rightarrow \alpha_j l_i - \frac{A_{i,j}}{\alpha_j} l_j

On peut aussi tout simplement effectuer le produit de LL *L L^* et chercher les inconnues en commencant par l 1,1l_{1,1} puis on calcule les l i,1l_{i,1} pour i>1i&gt;1, etc. En suivant wikipedia, pour une matrice réelle : L=[l 11 0 0 l 21 l 22 0 l n1 l n2 l nn] L=\begin{bmatrix} l_{11}& 0 & \cdots & 0 \\ l_{21} & l_{22}& \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ l_{n1} & l_{n2} & \cdots & l_{nn} \end{bmatrix} a ij=(LL T) ij= k=1 nl ikl jk= k=1 min{i,j}l ikl jk,1i,jn a_{ij}=\left(LL^{T}\right)_{ij}={\sum_{k=1}^{n}l_{ik}l_{jk}}= {\sum_{k=1}^{\min\left\{ i,j\right\} }l_{ik}l_{jk}},\;1\leq i,j\leq n La matrice AA étant symétrique, il suffit que les relations ci-dessus soient vérifiées pour iji \leq j, c’est-à-dire que les éléments l i,jl_{i,j} de la matrice LL doivent satisfaire a ij= k=1 il ikl jk,1ijn a_{ij}={\sum_{k=1}^{i}l_{ik}l_{jk}},\;1\leq i\leq j\leq n Pour i=1i=1, on détermine la première colonne de LL a 11=l 11l 11,a 1j=l 11l j1 a_{11}=l_{11}l_{11}, \quad a_{1j}=l_{11}l_{j1} donc l 11=a 11,l j1=a 1jl 11(pour j>1) l_{11}=\sqrt{a_{11}}, \quad l_{j1}=\frac{a_{1j}}{l_{11}} \ (\mbox{pour } j&gt;1) On détermine la ii-ième colonne de LL (2in)2\leq i\leq n) après avoir calculé les i1i-1 premières colonnes a ii=l i1l i1++l iil ii,a ij=l i1l j1++l iil ji a_{ii}=l_{i1}l_{i1}+\ldots+l_{ii}l_{ii}, \quad a_{ij}=l_{i1}l_{j1}+\ldots+l_{ii}l_{ji} d’où l ii=a ii k=1 i1l ik 2,l ji=a ij k=1 i1l ikl jkl ii(pour j>i) l_{ii}= \sqrt{{a_{ii}-{\sum_{k=1}^{i-1}l_{ik}^{2}}}}, \quad l_{ji}=\frac{a_{ij}-{\sum_{k=1}^{i-1}l_{ik}l_{jk}}}{l_{ii}} \ (\mbox{pour } j &gt; i) Pour une matrice hermitienne complexe, il suffit de remplacer l ikl jkl_{ik}l_{jk} par l ikl jk¯l_{ik}\overline{l_{jk}} et l ik 2l_{ik}^{2} par |l ik| 2|l_{ik}|^{2}.

Le nombre d’opérations à effectuer est asymptotiquement 2 fois plus faible que celui pour LULU. En effet, pour la première ligne, il faut 1 racine et n1n-1 divisions, pour la deuxième ligne, 1 racine, n1n-1 additions, multiplications et n2n-2 divisions, ..., pour la ii-ième ligne 1 racine, (i1)(ni)(i-1)(n-i) additions, multiplications et n2n-2 divisions, au final le cout est dominé par les additions et multiplications en 1/6n 31/6n^3 pour chaque, contre 1/3n 31/3n^3 pour la factorisation LULU.

La commande Xcas correspondante est cholesky et renvoie la matrice LL.

22.6  Conditionnement

Le conditionnement mesure la sensibilité de la solution renvoyée d’un système linéaire aux données du problème.

Soit le système linéaire Ax=bAx=b de solution x=A 1bx=A^{-1}b, supposons bb connu avec une erreur ee, alors la solution renvoyée sera x+A 1ex+A^{-1}e, on a donc une erreur relative sur la solution de A 1eA 1b=A 1eeebbA 1b|||A 1||||e||b||||A||| \frac{\|A^{-1}e\|}{\|A^{-1}b\|} = \frac{\|A^{-1}e\|}{\|e\|} \frac{\|e\|}{\|b\|} \frac{\|b\|}{\|A^{-1}b\|} \leq |||A^{-1}||| \frac{|e|}{|b|} |||A||| (la dernière inégalité s’obtient en écrivant b=A(A 1b)b=A(A^{-1}b)). On en déduit que le rapport de l’erreur relative sur la solution par l’erreur relative du second membre est majorée par le produit de la norme de AA (en tant qu’application linéaire) par la norme de A 1A^{-1}, ce produit est appelé conditionnement de la matrice AA (ou parfois nombre de condition de AA en adoptant la terminologie anglo-saxonne).

On remarquera que le conditionnement dépend du choix de la norme sur l’espace vectoriel. Si on prend comme norme la norme L 2L^2, le calcul de |||A||||||A||| nécessite de maximiser <Ab|Ab>\sqrt{&lt;Ab|Ab&gt;} pour bb de norme 1, ce qui revient à maximiser <b|A *Ab>\sqrt{&lt;b|A^* A b&gt;}. En diagonalisant la matrice hermitienne A *AA^* A, on voit qu’il suffit d’en trouver la plus grande valeur propre et d’en prendre la racine carrée. Les valeurs propres de A *AA^*A sont appelées valeurs singulières de AA (ce sont des réels positifs). Le même raisonnement pour A 1A^{-1} (dont les valeurs singulières sont les inverses des valeurs singulières de AA1) nous donne alors le :

Théorème 59   Lorsqu’on résoud un système linéaire Ax=bAx=b, AA matrice connue précisément et inversible, bb connu avec une erreur relative en norme L 2L^2, l’erreur relative en norme L 2L^2 sur xx est au plus multipliée par K 2(A)=λ nλ 1 K_2(A)= \frac{\lambda_n}{\lambda_1} λ n\lambda_n [resp. λ 1\lambda_1] est la plus grande [resp. plus petite] valeur singulière de AA (racines carrées des valeurs propres de A *AA^*A).
Ce facteur d’amplification des erreurs relatives est évidemment supérieur ou égal à 1. Il est égal à 1 si la matrice est unitaire (puisque
AA est une matrice d’isométrie ou car AA *=IAA^*=I). S’il est de l’ordre de 2 c2^c on perdra (au plus) cc bits de précision sur la mantisse de xx.

Avec Xcas, les valeurs singulières s’obtiennent par l’instruction SVL(A), le conditionnement L 2L^2 par COND(A,2). Attention, les valeurs singulières de AA ne sont pas les valeurs absolues des valeurs propres de AA (c’est le cas si AA commute avec sa transconjuguée mais ce n’est pas général). On peut utiliser la méthode de la puissance (cf. infra) pour estimer la plus grande valeur singulière de AA (donc sans diagonaliser complètement la matrice A *AA^*A), et de même sur A 1A^{-1} (en utilisant LULU ou Cholesky pour trouver les itérées sans calculer A 1A^{-1}).

On peut aussi prendre la norme L 1L^1 sur l’espace vectoriel, dans ce cas la norme de matrice correspondante est la norme de colonne (exercice!), le maximum des sommes valeurs absolues des éléments des colonnes (colNorm(A) en Xcas) et le conditonnement est le produit de colNorm(A) par colNorm(inv(A)) qui est renvoyé par COND(A) en Xcas.

Si la matrice du système AA (de nombre de condition noté κ(A)\kappa(A)) est elle-même connue avec une certaine incertitude, alors pour ||ΔA||||\Delta A|| suffisamment petit, la solution de (A+ΔA)(x+Δx)=b+Δb(A+\Delta A)(x+\Delta x)=b+\Delta b vérifie |Δx||x|κ(A)1κ(A)||ΔA||||A||(|Δb||b|+||ΔA||||A||)\frac {|\Delta x |}{|x|}\leq \frac{\kappa(A)}{1-\kappa(A)\frac{||\Delta A||}{||A||}} \left(\frac{|\Delta b|}{|b|}+\frac{||\Delta A||}{||A||} \right) En effet, on a AΔx=ΔbΔA(x+Δx)Δx=A 1(ΔbΔA(x+Δx))A \Delta x =\Delta b - \Delta A(x+\Delta x) \Rightarrow \Delta x = A^{-1}(\Delta b - \Delta A(x+\Delta x)) donc en norme Δx|||A 1|||(ΔbbAx+|||ΔA||||||A||||||A|||(x+Δx))\| \Delta x \| \leq |||A^{-1}||| \left( \frac{\|\Delta b\|}{\|b\|}\|Ax\| + \frac{||| \Delta A |||}{|||A|||} |||A||| (\|x\|+\|\Delta x\|) \right) puis : Δxxκ(A)(Δbb+|||ΔA||||||A|||(1+Δxx))\frac{\| \Delta x \|}{\|x\|} \leq \kappa(A) \left(\frac{\|\Delta b\|}{\|b\|} + \frac{||| \Delta A |||}{|||A|||} \left(1+\frac{\| \Delta x \|}{\|x\|}\right) \right)

22.7  Réduction des endomorphismes

22.7.1  Le polynôme minimal (Krylov)

On prend un vecteur vv au hasard et on calcule la relation linéaire de degré minimal entre vv, AvAv, ..., A nvA^nv en cherchant le premier vecteur ww du noyau de la matrice obtenue en écrivant les vecteurs vv, AvAv, etc. en colonne dans cet ordre. Les coordonnées de ww donnent alors par ordre de degré croissant un polynôme PP de degré minimal tel que P(A)v=0P(A)v=0 donc PP divise le polynôme minimal MM. Donc si PP est de degré nn, P=MP=M. Sinon, il faut vérifier que le polynôme obtenu annule la matrice AA. On peut aussi calculer le polynôme PP précédent pour quelques vecteurs aléatoires et prendre le PPCM des polynômes obtenus, il suffit de s’arrêter lorsque l’espace engendré par les vecteurs et les images par les puissances de AA engendrent tout n\mathbb{R}^n. On peut aussi utiliser l’algorithme de Danilevsky (voir plus bas) qui est intéressant sur les corps finis.

Exemple 1
Polynôme minimal de (1 1 2 4)\left(\begin{array}{cc} 1 & -1 \\ 2 & 4 \end{array}\right) . On prend v=(1,0)v=(1,0), la matrice à réduire est alors : (1 1 11 2 10 38)(1 0 6 0 1 5) \left(\begin{array}{ccc} 1 & -1 & -11 \\ 2 & 10 & 38 \end{array}\right) \rightarrow \left(\begin{array}{ccc} 1 & 0 & -6 \\ 0 & 1 & 5 \end{array}\right) Le noyau est engendré par (6,5,1)(-6,5,-1) donc P=x 2+5x6P=-x^2+5x-6.

Exemple 2
A=(3 2 2 1 0 1 1 1 0) A=\left(\begin{array}{ccc} 3 & 2 & -2 \\ -1 &0 &1 \\ 1 & 1 & 0 \end{array}\right) en prenant v=(1,0,0)v=(1,0,0) on obtient la matrice : A=(1 3 5 7 0 1 2 3 0 1 2 3)(1 0 1 2 0 1 2 3 0 0 0 0) A=\left(\begin{array}{cccc} 1 & 3 & 5 & 7 \\ 0 & -1 & -2 & -3 \\ 0 & 1 & 2 & 3 \end{array}\right) \rightarrow \left(\begin{array}{cccc} 1 & 0 & -1 & -2 \\ 0 & 1 & 2 & 3 \\ 0 & 0 & 0 & 0 \end{array}\right) le permier vecteur du noyau est (1,2,1)(-1,2,-1) d’où un polynôme divisant le polynôme minimal x 2+2x1-x^2+2x-1.

Cout
Le calcul de la suite des v k=A kvv_k=A^kv se fait par valeurs de kk croissantes v k+1=Av kv_{k+1}=Av_k en n×O(n 2)n \times O(n^2) opérations soit en O(n 3)O(n^3) (il ne faut pas calculer A kA^k ce qui nécessiterait O(n 4)O(n^4) opérations).
On peut améliorer la complexité asymptotique de la manière suivante : on calcule v,Avv, Av et A 2A^2 avec une multiplication rapide de matrices à la Strassen, on multiplie A 2A^2 par v,Avv,Av obtenant ainsi A 2v,A 3vA^2v, A^3v, on calcule A 4=(A 2) 2A^4=(A^2)^2 on multiplie A 4A^4 par v,Av,A 2v,A 3vv,Av,A^2v,A^3v obtenant ainsi A 4v,...,A 7vA^4v,...,A^7v, etc. Il faut faire log 2(n)\log_2(n) multiplications de matrices, on a donc une complexité en O(n log 2(7)log(n))O(n^{\log_2(7)}\log(n)) avec une multiplication à la Strassen, mais il faudrait des valeurs de nn vraiment grandes (plus d’une dizaine de millions donc impossible à stocker en mémoire) pour que cet algorithme soit intéressant comme le montre le calcul

22.7.2  Le polynôme caractéristique

Pour une matrice générique, le polynôme caractéristique est égal au polynôme minimal, il est donc intéressant de chercher si le polynôme annulateur de AA sur un vecteur aléatoire est de degré nn, car le temps de calcul du polynôme caractéristique est alors en O(n 3)O(n^3). Si cette méthode probabiliste échoue, on se rabat sur une des méthode déterministe ci-dessous:

22.7.3  La méthode de Hessenberg

Pour les matrices à coefficients de taille bornée (modulaires par exemple) on préfère la méthode de Hessenberg qui est plus efficace, car elle nécessite de l’ordre de n 3n^3 opérations sur les coefficients.

On se raméne d’abord à une matrice triangulaire supérieure à une diagonale près qui est semblable à la matrice de départ puis on applique une formule de récurrence pour calculer les coefficients du polynôme caractéristique.

Algorithme de réduction de Hessenberg:
Dans une colonne mm donnée de la matrice HH, on cherche à partir de la ligne m+1m+1 un coefficient non nul. S’il n’y en a pas on passe à la colonne suivante. S’il y en a un en ligne ii, on échange les lignes m+1m+1 et ii et les colonnes m+1m+1 et ii. Ensuite pour tout im+2i\geq m+2, soit u=H i,m/H m+1,mu=H_{i,m}/H_{m+1,m}, on remplace alors la ligne L iL_i de HH par L iuL m+1L_i-uL_{m+1} et la colonne C m+1C_{m+1} par C m+1+uC iC_{m+1}+uC_i ce qui revient “à remplacer le vecteur e m+1e_{m+1} de la base par le vecteur e m+1+ue ie_{m+1}+ue_i” ou plus précisément à multiplier à gauche par (1 0 u 1)\left(\begin{array}{cc} 1 & 0 \\ -u & 1\end{array}\right) et à droite par la matrice inverse (1 0 u 1)\left(\begin{array}{cc} 1 & 0 \\ u & 1\end{array}\right) (en utilisant les lignes et colonnes m+1m+1 et ii au lieu de 1 et 2 pour ces matrices). Ceci a pour effet d’annuler le coefficient H i,mH_{i,m} dans la nouvelle matrice.

On obtient ainsi en O(n 3)O(n^3) opérations une matrice HH' semblable à HH de la forme : (H 1,1 H 1,2 ... H 1,n2 H 1,n1 H 1,n H 2,1 H 2,2 ... H 2,n2 H 2,n1 H 2,n 0 H 3,2 ... H 3,n2 H 3,n1 H 3,n 0 0 ... H 4,n2 H 4,n1 H 4,n ... 0 0 ... 0 H n,n1 H n,n) \left(\begin{array}{cccccc} H'_{1,1} & H'_{1,2} & ... & H'_{1,n-2} & H'_{1,n-1} & H'_{1,n}\\ H'_{2,1} & H'_{2,2} & ... & H'_{2,n-2} & H'_{2,n-1} & H'_{2,n} \\ 0 & H'_{3,2} & ... & H'_{3,n-2} & H'_{3,n-1} & H'_{3,n} \\ 0 & 0 & ... & H'_{4,n-2} & H'_{4,n-1} & H'_{4,n} \\ \vdots & \vdots & ... & \vdots & \vdots & \vdots \\ 0 & 0 & ... & 0 & H'_{n,n-1} & H'_{n,n} \end{array} \right) On calcule alors le polynôme caractéristique de HH' par une récurrence qui s’obtient en développant le déterminant par rapport à la dernière colonne : h n(λ)=det(λI nH) = (λH n,n)h n1(λ)(H n1,n)(H n,n1)h n2(λ)+ +(H n2,n)(H n,n1)(H n1,n2)h n3(λ)... \begin{matrix} h_n(\lambda) = \mbox{det}(\lambda I_n-H)&=& (\lambda-H'_{n,n}) h_{n-1}(\lambda) -(-H'_{n-1,n}) (-H'_{n,n-1}) h_{n-2}(\lambda) + \\ & & + (-H'_{n-2,n}) (-H'_{n,n-1}) (-H'_{n-1,n-2}) h_{n-3}(\lambda) - ... \end{matrix} où les h ih_i s’entendent en gardant les ii premières lignes/colonnes de HH'. On peut écrire cette formule pour mnm\leq n : h m(λ)=(λH m,m)h m1(λ) i=1 m1H mi,m j=1 i1H mj+1,mjh i1(λ) h_m(\lambda)= (\lambda - H'_{m,m}) h_{m-1}(\lambda) -\sum_{i=1}^{m-1} H'_{m-i,m} \prod_{j=1}^{i-1} H'_{m-j+1,m-j} h_{i-1}(\lambda) Pour effectuer cette récurrence de manière efficace, on conserve les h m(λ)h_m(\lambda) dans un tableau de polynômes et on utilise une variable produit contenant successivement les H mj+1,mj\prod H'_{m-j+1,m-j}.

Remarques Une variante de la réduction ci-dessus utilise des matrices de rotation de Givens : il s’agit d’une rotation dans le plan engendré par deux vecteurs de base e i,e je_i,e_j prolongée par l’identité. On doit alors effectuer deux combinaisons linéaires de ligne et deux combinaisons linéaires de colonnes par transformation donc deux fois plus de calculs, mais l’avantage est que la matrice de transformation est unitaire (donc facile à inverser, et bien conditionnée).

On peut aussi utiliser des matrices de Householder pour se ramener à une forme de Hessenberg. La matrice de Householder associée à vv est définie par ; H=I2vv tv 2H=I-2\frac{v v^t}{\|v\|^2} c’est la matrice de la symétrie par rapport à l’hyperplan perpendiculaire à vv, Hv=vHv=-v et pour tout vecteur perpendiculaire à vv on a Hw=wHw=w, donc HH est orthogonale. On l’utilise en général pour v=abv=a-b avec a=b\|a\|=\|b\|, on a alors Ha=bHa=b puisque H(ab)=baH(a-b)=b-a car v=abv=a-b et H(a+b)=a+bH(a+b)=a+b car vv est orthogonal à a+ba+b (puisque a=b\|a\|=\|b\|).

On peut enfin utiliser l’algorithme de Danilevsky. Il s’agit un peu d’un analogue de la méthode du pivot de Gauss pour se ramener à une matrice companion semblable (avec des 1 sur la diagonale au-dessus de la diagonale principale et le polynôme caractéristique en dernière ligne). Cela se fait ligne par ligne en commençant par la ligne k=0k=0. On multiplie à gauche par PP une matrice identité dont la ligne k+1k+1 est remplacée par la ligne kk de la matrice et à droite par son inverse P 1P^{-1}, qui est une matrice identité sauf en ligne k+1k+1. Comme la k+1k+1-ième ligne de PP est la kk-ième ligne de la matrice AA, le produit à droite par P 1P^{-1} va remplacer la kk-ième ligne de la matrice AA par la k+1k+1-ième ligne de I=PP 1I=PP^{-1}. Le produit à gauche par PP préserve les kk premières lignes. Quand on programme cet algorithme, on traduit le produit à droite par une opération sur les colonnes, et le produit à gauche par une opération sur les lignes, on ne doit faire ces opérations qu’à partir de la ligne kk.

Exemple sur une matrice 3,3 :

Réduction de la 1ère ligne :
Deuxième ligne :
on lit le polynôme caractéristique en dernière ligne
Notons (a k,0,...,a k,n1)(a_{k,0},...,a_{k,n-1}) la kk-ième ligne de AA, donc la k+1k+1-i‘eme ligne de PP, alors la k+1k+1-ième ligne de P 1P^{-1} a comme coefficients a k,j/a k,k+1-a_{k,j}/a_{k,k+1} si jkj\neq k et 1/a k,k+11/a_{k,k+1} pour j=kj=k. Les opérations de colonnes correspondant à AP 1AP^{-1} sont donc C jC ja k,j/a k,k+1C k+1C_j \leftarrow C_j-a_{k,j}/a_{k,k+1}C_{k+1} si jkj \neq k et C k+1C k+1/a k,k+1C_{k+1} \leftarrow C_{k+1}/a_{k,k+1}. Puis l’opération de ligne correspondant à PAPA est L k+1 ja k,jL jL_{k+1} \leftarrow \sum_j a_{k,j} L_j (on peut commencer la somme à k+1k+1 si on initialise la ligne à (0,a k,0,..,a k,k,0,...0)(0,a_{k,0},..,a_{k,k},0,...0)). Dans l’exemple, pour k=0k=0 on a a 0,1=2a_{0,1}=2 donc on fait C 1=C 11/2C 2,C 2=C 2/2,C 3=C 33C 2/2C_1=C_1-1/2C_2, C_2=C_2/2, C_3=C_3-3C_2/2 puis L 2=L 1+2L 2+3L 3L_2=L_1+2L_2+3L_3. Pour k=1k=1, on a b 1,2=55/2b_{1,2}=55/2 donc on fait C 1=C 127/55C 3,C 2=C 2+9/55C 3,C 3=2/55C 3C_1=C_1-27/55C_3, C_2=C_2+9/55C_3, C_3=2/55C_3 puis L 3=27/2L 19/2L 2+55/2L 3L_3=27/2L_1-9/2L_2+55/2L_3.

Si au cours du calcul a k,k+1=0a_{k,k+1}=0, il faut chercher un “pivot” non nul sur la ligne kk à partir de la colonne k+1k+1, on échange ensuite les colonnes et les lignes k+1k+1 et kk' correspondantes. Si tout le reste de la ligne est nul, alors le polynomôme caractéristique est le produit du polynôme de la matrice companion lignes et colonnes 0 à kk incluses et de la matrice lignes et colonnes k+1k+1 à n1n-1. Si on s’intéresse au polynôme minimal, on prend le PPCM au lieu du produit.

Le coût de l’algorithme de Danilevsky est de O(n 3)O(n^3) opérations sur le corps. Si on travaille sur les entiers, on peut reconstruire le polynôme minimal ou caractéristique par les restes chinois, en estimant la taille des coefficients, on obtient un temps de calcul en O(n 4ln(n))O(n^4 \ln(n)). Si la matrice est à coefficients dépendant polynomialement d’un paramètre, on peut reconstruire par interpolation en majorant le degré du polynôme minimal ou caractéristique. Dans le cas du polynôme minimal, on prendra garde aux valeurs du paramètre de mauvaise réduction, c’est-à-dire dont le degré est trop petit, il ne faut garder pour l’interpolation que les valeurs du paramètre telles que le degré du polynôme minimal soit maximal. Le nombre de points d’interpolation nécessaire est égal à 1 plus le degré du polynome minimal de la matrice multiplié par le degré maximal de la matrice en le paramètre. Le polynôme interpolé est alors bien le polynôme minimal. En effet appliqué sur la matrice de départ on obtient une matrice à coefficients polynômiaux en le paramètre. Chaque coefficient est un polynôme dont le degré en le paramètre est majoré par le nombre de points d’interpolation utilisés moins 1, et est donc nul car sinon il aurait trop de racines avec tous les points d’interpolation utilisés.

22.7.4  Les traces et les identités de Newton

Une autre idée pour calculer le polynôme caractéristique, on calcule les A k,k=0..nA^k, k=0..n (en posant A k+1=AA kA_{k+1}=AA_k), puis les traces. Si le polynôme caractéristique est P=x n+c n1x n1...+c 0P=x^n+c_{n-1}x^{n-1}...+c_0 alors les c ic_i sont au signe et indice près les polynômes symétriques élémentaires e je_j en les racines r jr_j de PP (=valeurs propres de AA, dans une extension algébrique du corps si nécessaire). On pose e j= 1i 1<i 2<...<i jnr i 1...r i je_j=\sum_{1\leq i_1&lt;i_2&lt;...&lt;i_j\leq n} r_{i_1}...r_{i_j} On a alors (en considérant t nP(1/t)t^nP(1/t)) j=1 n(1r jt)= k=0 nt k(1) ke k(43) \prod_{j=1}^n(1-r_jt)=\sum_{k=0}^n t^k (-1)^k e_k \qquad (43) On peut passer facilement des e je_j aux p j= k=1 nr k j p_j=\sum_{k=1}^n r_k^j par les identtés de Newton. On calcule la dérivée par rapport à tt de (43) et on multiplie par tt j=1 nr jt1r jt k=1 n(1r kt)= k=0 nkt k(1) ke k\sum_{j=1}^n \frac{-r_jt}{1-r_jt} \prod_{k=1}^n(1-r_kt) =\sum_{k=0}^n kt^k (-1)^k e_k on développe en série entière r jt1r jt= k=1 (r jt) k\frac{r_jt}{1-r_jt}=\sum_{k=1}^\infty (r_jt)^k on inverse les sommes d’où ( k=1 t k( j=1 nr j k))× k=0 nt k(1) ke k= k=0 nkt k(1) ke k-\left(\sum_{k=1}^\infty t^k (\sum_{j=1}^n r_j^k) \right) \times \sum_{k=0}^n t^k (-1)^k e_k = \sum_{k=0}^n k t^k (-1)^k e_k on remplace j=1 nr j k\sum_{j=1}^n r_j^k par p kp_k et on écrit la relation induite pour la puissance t kt^k j=1 kp j(1) kje kj=(1) kke k-\sum_{j=1}^k p_j (-1)^{k-j} e_{k-j} =(-1)^k ke_k ou encore ke k= j=1 k(1) j1p je kjke_k=\sum_{j=1}^k (-1)^{j-1} p_j e_{k-j} Ainsi, connaissant les p k,k=0..np_k, k=0..n, on peut calculer les e k,k=0..ne_k,k=0..n par ordre croissant sur un corps de caractéristique nulle ou supérieure à nn: e 0 = 1, e 1 = p 1e 0=p 1, 2e 2 = p 1e 1p 2, 3e 3 = p 1e 2p 2e 1+p 3, 4e 4 = p 1e 3p 2e 2+p 3e 1p 4, ... \begin{matrix} e_0&=&1, \\ e_1&=&p_1e_0=p_1, \\ 2e_2&=&p_1e_1-p_2,\\ 3e_3&=&p_1e_2-p_2e_1+p_3, \\ 4e_4&=& p_1e_3-p_2e_2+p_3e_1-p_4, \\ &...& \end{matrix} Le cout de calcul par cette méthode est en O(n 4)O(n^4) (avec multiplication naïve des matrices, ce cout est amélioré avec une multiplication rapide à la Strassen) et n’est donc pas compétitif par rapport à l’algorithme de Danilevsky. La section suivante présente un algorithme assez proche, toujours en O(n 4)O(n^4), mais qui permet également de calculer facilement les vecteurs propres lorsqu’on peut trouver les racines du polynôme caractéristique.

22.7.5  La méthode de Leverrier-Faddeev-Souriau

Cette méthode permet le calcul simultané des coefficients p i(i=0..n)p_i \ (i=0..n) du polynôme caractéristique P(λ)=det(λIA)P(\lambda)=\det(\lambda I-A) et des coefficients matriciels B i(i=0..n1)B_i \ (i=0..n-1) du polynôme en λ\lambda donnant la matrice adjointe (ou transposée de la comatrice) B(λ)B(\lambda) de λIA\lambda I -A : (λIA)B(λ)=(λIA) kn1B kλ k=( knp kλ k)I=P(λ)I(44) (\lambda I -A)B(\lambda)=(\lambda I -A) \sum_{k\leq n-1} B_k \lambda^k = (\sum_{k\leq n} p_k \lambda^k)I =P(\lambda)I \qquad (44) Remarquons que cette équation donne une démonstration assez simple de Cayley-Hamilton puisque le reste de la division euclidienne du polynôme P(λ)IP(\lambda)I par λIA\lambda I -A est P(A)P(A).

Pour déterminer simultanément les p kp_k et B kB_k, on a les relations de récurrence : B n1=p nI=I,B kAB k+1=p k+1I(45) B_{n-1}=p_n I=I, \quad B_k-AB_{k+1}=p_{k+1} I \qquad (45) Il nous manque une relation entre les p kp_k et B kB_k pour pouvoir faire le calcul par valeurs décroissantes de kk, on va montrer le :

Théorème 60   La dérivée du polynôme caractéristique P(λ)P'(\lambda), est égale à la trace de la matrice adjointe de λIA\lambda I-A tr(B)=P(λ) \mbox{tr}(B)=P'(\lambda)

Le théorème nous donne tr(B k)=(k+1)p k+1\mbox{tr}(B_k) = (k+1)p_{k+1} . Si on prend la trace de (45), on a : tr(B n1)=np n,(k+1)p k+1tr(AB k+1)=np k+1 \mbox{tr}(B_{n-1})=n p_n, \quad (k+1)p_{k+1} -\mbox{tr}(AB_{k+1}) =np_{k+1} donc on calcule p k+1p_{k+1} en fonction de B k+1B_{k+1} puis B kB_k : p k+1=tr(AB k+1)k+1n,B k=AB k+1+p k+1I p_{k+1}=\frac{\mbox{tr}(AB_{k+1})}{k+1-n}, \quad B_k=AB_{k+1}+p_{k+1} I Démonstration du théorème:
Soient V 1(λ),...V n(λ)V_1(\lambda),...V_n(\lambda) les vecteurs colonnes de λIA\lambda I-A et b i,j(λ)b_{i,j}(\lambda) les coefficients de BB, on a : P(λ 0) = det(V 1(λ),V 2(λ),...,V n(λ)) |λ=λ 0 = det(V 1(λ 0),V 2(λ 0),...,V n(λ 0))+det(V 1(λ 0),V 2(λ 0),...,V n(λ 0))+ +...+det(V 1(λ 0),V 2(λ 0),...,V n(λ 0)) \begin{matrix} P'(\lambda_0) &=& \det(V_1(\lambda),V_2(\lambda),...,V_n(\lambda) )' _{|\lambda=\lambda_0}\\ &=&\det(V'_1(\lambda_0),V_2(\lambda_0),...,V_n(\lambda_0) )+ \det(V_1(\lambda_0),V'_2(\lambda_0),...,V_n(\lambda_0) )+ \\ & & +...+\det(V_1(\lambda_0),V_2(\lambda_0),...,V'_n(\lambda_0) ) \end{matrix} Il suffit alors de remarquer que V i(λ 0)V'_i(\lambda_0) est le ii-ième vecteur de la base canonique donc : det(V 1(λ 0),V 2(λ 0),...,V i(λ 0),...,V n(λ 0))=b i,i(λ 0) \det(V_1(\lambda_0),V_2(\lambda_0),...,V'_i(\lambda_0),...,V_n(\lambda_0) ) =b_{i,i}(\lambda_0) Finalement : P(λ 0)= i=1 nb i,i(λ 0)=tr(B(λ 0))P'(\lambda_0)=\sum_{i=1}^n b_{i,i}(\lambda_0)=\tr(B(\lambda_0))

Remarque :
En réindexant les coefficients de PP et BB de la manière suivante : P(λ) = λ n+p 1λ n1+p 2λ n2...+p n B(λ) = λ n1I+λ n2B 1+...+B n1 \begin{matrix} P(\lambda) &=& \lambda^n+p_1\lambda^{n-1}+p_2\lambda^{n-2}...+p_n \\ B(\lambda) &=& \lambda^{n-1}I+\lambda^{n-2}B_1+...+B_{n-1} \end{matrix} on a montré que : {A 1=A, p 1=tr(A), B 1=A 1+p 1I A 2=AB 1, p 2=12tr(A 2), B 2=A 2+p 2I A k=AB k1, p k=1ktr(A k), B k=A k+p kI \left\{ \begin{array}{ccc} A_1=A, & p_1=-\mbox{tr}(A), & B_1=A_1+p_1I \\ A_2=AB_1, & p_2=-\frac{1}{2}\mbox{tr}(A_2), & B_2=A_2+p_2I \\ \vdots & \vdots & \vdots \\ A_k=AB_{k-1}, & p_k=-\frac{1}{k}\mbox{tr}(A_k), & B_k=A_k+p_kI \end{array} \right. On peut alors vérifier que B n=A n+p nI=0B_n=A_n+p_nI=0. D’où ce petit programme :

Faddeev(A):={ // renvoie la liste des matrices B et le polynome P
  local Aj,AAj,Id,coef,n,pcara,lmat,j;
  n:=ncols(A);
  Id:=idn(n);     // matrice identite
  Aj:=Id;
  lmat:=[];      // B initialise a liste vide
  pcara:=[1];    // coefficient de plus grand degre de P
  for j from 1 to n do
    lmat:=append(lmat,Aj);  // rajoute Aj a la liste de matrices
    AAj:=Aj*A;
    coef:=-trace(AAj)/j;    
    pcara:=append(pcara,coef);  // rajoute coef au pol. caract.
    Aj:=AAj+coef*Id;
   end_for;
  return lmat,pcara;        // resultat
}:;

22.7.6  Les vecteurs propres simples.

On suppose ici qu’on peut factoriser le polynôme caractéristique (ou calculer dans une extension algébrique d’un corps). Lorsqu’on a une valeur propre simple λ 0\lambda_0, en écrivant la relation (Aλ 0I)B(λ 0)=P(λ 0)I=0(A-\lambda_0 I)B(\lambda_0)=P(\lambda_0)I=0, on voit que les vecteurs colonnes de la matrice B(λ 0)B(\lambda_0) sont vecteurs propres. Remarquer que B(λ 0)0B(\lambda_0) \neq 0 sinon on pourrait factoriser λλ 0\lambda-\lambda_0 dans B(λ)B(\lambda) et apres simplifications on aurait : (Aλ 0I)Bλλ 0(λ 0)=Pλλ 0(λ 0)I(A-\lambda_0 I)\frac{B}{\lambda-\lambda_0}(\lambda_0)= \frac{P}{\lambda-\lambda_0}(\lambda_0)I or le 2ème membre est inversible en λ 0\lambda_0 ce qui n’est pas le cas du premier. Pour avoir une base des vecteurs propres associés à λ 0\lambda_0, on calcule B(λ 0)B(\lambda_0) par la méthode de Horner appliquée au polynôme B(λ)B(\lambda) en λ=λ 0\lambda=\lambda_0. En fait il suffit de calculer chaque colonne l’une à la suite de l’autre et s’arrêter dès qu’on rencontre une colonne non nulle. Le calcul d’un vecteur propre associé à une valeur propre simple se fait donc génériquement en O(n 2)O(n^2) opérations.

22.7.7  La forme normale de Jordan

Pour les valeurs propres de multiplicité plus grande que 1, on souhaiterait généraliser la méthode ci-dessus pour obtenir une base de l’espace caractéristique, sous forme de cycles de Jordan. Soit λ i\lambda _i, n in_i les valeurs propres comptées avec leur multiplicité. On fait un développement de Taylor en λ i\lambda _i: P(λ)I = (AλI)(B(λ i)+B(λ i)(λλ i)+...+B (n1)(λ i)(n1)!(λλ i) n1) = (λλ i) n i ji(λλ j) n jI \begin{matrix} -P(\lambda )I&=&(A-\lambda I)\left( B(\lambda_i )+ B'(\lambda _i)(\lambda -\lambda _i) + ... + \frac{B^{(n-1)}(\lambda_i )}{(n-1)!} (\lambda -\lambda _i)^{n-1} \right) \\ &=& -(\lambda -\lambda _i)^{n_i} \prod _{j\neq i} (\lambda -\lambda _j)^{n_j} I \end{matrix} Comme AλI=Aλ iI(λλ i)IA-\lambda I=A-\lambda _i I - (\lambda -\lambda _i)I, on obtient pour les n in_i premières puissances de λλ i\lambda -\lambda _i: (Aλ iI)B(λ i) = 0 (Aλ iI)B(λ i) = B(λ i) ... (Aλ iI)B (n i1)(λ i)(n i1)! = B (n i2)(λ i)(n i2)! (Aλ iI)B (n i)(λ i)n i!B (n i1)(λ i)(n i1)! = ji(λ iλ j) n jI(46) \begin{matrix} (A-\lambda _i I) B(\lambda _i)&=&0\\ (A-\lambda _i I) B'(\lambda _i)&=&B(\lambda_i )\\ & ... & \\ (A-\lambda _i I) \frac{B^{(n_i-1)}(\lambda _i)}{(n_i-1)!} &=& \frac{B^{(n_i-2)}(\lambda _i)}{(n_i-2)!} \\ (A-\lambda _i I)\frac{B^{(n_i)}(\lambda_i)}{n_i!} - \frac{B^{(n_i-1)}(\lambda_i)}{(n_i-1)!} &= &-\prod_{j\neq i}(\lambda _i-\lambda _j)^{n_j} I \end{matrix} \qquad (46) Le calcul des matrices B (n)(λ i)/n!B^{(n)}(\lambda _i)/n! pour n<n in&lt;n_i se fait en appliquant n in_i fois l’algorithme de Horner (avec reste).

Théorème 61   L’espace caractéristique de λ i\lambda _i est égal à l’image de B (n i1)(λ i)/(n i1)!B^{(n_i-1)}(\lambda _i)/(n_i-1)!.

Preuve :
On montre d’abord que ImB (n i1)(λ i)/(n i1)!B^{(n_i-1)}(\lambda _i)/(n_i-1)! est inclus dans l’espace caractéristique correspondant à λ i\lambda_i en appliquant l’équation (46) et les équations précédentes. Réciproquement on veut prouver que tout vecteur caractéristique vv est dans l’image de B (n i1)(λ i)/(n i1)!B^{(n_i-1)}(\lambda _i)/(n_i-1)!. Prouvons le par récurrence sur le plus petit entier mm tel que (Aλ i) mv=0(A-\lambda _i)^{m}v=0. Le cas m=0m=0 est clair puisque v=0v=0. Supposons le cas mm vrai, prouvons le cas m+1m+1. On applique l’équation (46) à vv, il suffit alors de prouver que w=(Aλ i)B (n i)(λ i)n i!v w=(A-\lambda _i)\frac{B^{(n_i)}(\lambda_i)}{n_i!} v appartient à l’image de B (n i1)(λ i)/(n i1)!B^{(n_i-1)}(\lambda _i)/(n_i-1)!. Comme B (n i)(λ i)B^{(n_i)}(\lambda_i) commute avec AA (car c’est un polynôme en AA ou en appliquant le fait que B(λ)B(\lambda) inverse de AλIA-\lambda I): (Aλ i) mw=B (n i)(λ i)n i!(Aλ i) m+1v=0 (A-\lambda _i)^m w=\frac{B^{(n_i)}(\lambda_i)}{n_i!} (A-\lambda _i)^{m+1}v=0 et on applique l’hypothèse de récurrence à ww.

Pour calculer les cycles de Jordan, nous allons effectuer une réduction par le pivot de Gauß simultanément sur les colonnes des matrices B (k)(λ i)/k!B^{(k)}(\lambda _i)/k!k<n ik&lt;n_i. La simultanéité a pour but de conserver les relations (46) à (46) pour les matrices réduites. Pour visualiser l’algorithme, on se représente les matrices les unes au-dessus des autres, colonnes alignées. On commence par réduire la matrice B(λ i)B(\lambda _i) jusqu’à ce que l’on obtienne une matrice réduite en recopiant les opérations élémentaires de colonnes faites sur B(λ i)B(\lambda _i) sur toutes les matrices B (k)(λ i)/k!B^{(k)}(\lambda _i)/k!. On va continuer avec la liste des matrices réduites issues de B(λ i)B'(\lambda _i), ..., B (n i1)(λ i)/(n i1)!B^{(n_i-1)}(\lambda _i)/(n_i-1)!, mais en déplacant les colonnes non nulles de B(λ i)B(\lambda _i) d’une matrice vers le bas (pour une colonne non nulle de la matrice réduite B(λ)B(\lambda ) les colonnes correspondantes de B (k)(λ i)B^{(k)}(\lambda _i) réduite sont remplacées par les colonnes correspondantes de B (k1)(λ i)B^{(k-1)}(\lambda _i) réduite pour kk décroissant de n i1n_i-1 vers 1). À chaque étape, on obtient une famille (éventuellement vide) de cycles de Jordan, ce sont les vecteurs colonnes correspondants aux colonnes non nulles de la matrice réduite du haut de la colonne. On élimine bien sûr les colonnes correspondant aux fins de cycles déjà trouvés.

Par exemple, si B(λ i)0B(\lambda _i)\neq 0, son rang est 1 et on a une colonne non nulle, et un cycle de Jordan de longueur n in_i fait des n in_i vecteurs colonnes des matrices B (k)(λ i)/k!B^{(k)}(\lambda _i)/k! réduites. Plus généralement, on obtiendra plus qu’un cycle de Jordan (et dans ce cas B(λ i)=0B(\lambda _i)= 0).

22.7.8  Exemple 1

A=(3 1 1 2 0 1 1 1 2) A=\left(\begin{array}{ccc} 3 & -1 & 1 \\ 2 &0 &1 \\ 1 & -1 & 2 \end{array}\right) λ=2\lambda =2 est valeur propre de multiplicité 2, on obtient : B(λ)=λ 2I+λ(2 1 1 2 5 1 1 1 3)+(1 1 1 3 5 1 2 2 2) B(\lambda )= \lambda ^2 I + \lambda \left(\begin{array}{ccc} -2 & -1 & 1 \\ 2 & -5 &1 \\ 1 & -1 & -3 \end{array}\right) + \left(\begin{array}{ccc} 1 & 1 & -1 \\ -3 & 5 &-1 \\ -2 & 2 & 2 \end{array}\right) on applique l’algorithme de Horner : B(2) = (1 1 1 1 1 1 0 0 0), B(2) = (2 1 1 2 1 1 1 1 1) \begin{matrix} B(2)&=&\left(\begin{array}{ccc} 1 & -1 & 1 \\ 1& -1 &1 \\ 0 & 0 & 0 \end{array}\right) ,\\ B'(2)&=&\left(\begin{array}{ccc} 2 & -1 & 1 \\ 2 & -1 &1 \\ 1 & -1 & 1 \end{array}\right) \end{matrix} Comme B(2)0B(2)\neq 0, on pourrait arrêter les calculs en utilisant une colonne non nulle et le cycle de Jordan associé (2,2,1)(1,1,0)(0,0,0)(2,2,1)\rightarrow (1,1,0) \rightarrow (0,0,0) . Expliquons tout de même l’algorithme général sur cet exemple. La réduction de B(2)B(2) s’obtient en effectuant les manipulations de colonnes C 2+C 1C 2C_2+C_1 \rightarrow C_2 et C 3C 1C 3C_3-C_1 \rightarrow C_3. On effectue les mêmes opérations sur B(2)B'(2) et on obtient : (1 0 0 1 0 0 0 0 0), (2 1 1 2 1 1 1 0 0) \begin{matrix} \left(\begin{array}{ccc} 1 & 0 & 0 \\ 1& 0 &0 \\ 0 & 0 & 0 \end{array}\right), \\ \left(\begin{array}{ccc} 2 & 1 & -1 \\ 2 & 1 & -1\\ 1 & 0 & 0 \end{array}\right) \end{matrix} L’étape suivante consiste à déplacer vers le bas d’une matrice les colonnes non nulles de la matrice du haut, on obtient : (1 1 1 1 1 1 0 0 0) \left(\begin{array}{ccc} 1 & 1 & -1 \\ 1 & 1 & -1\\ 0 & 0 & 0 \end{array}\right) qui se réduit en : (1 0 0 1 0 0 0 0 0) \left(\begin{array}{ccc} 1 & 0 & 0 \\ 1 & 0 & 0\\ 0 & 0 & 0 \end{array}\right) on chercherait alors dans les colonnes 2 et 3 de nouveaux cycles (puisque la colonne 1 a déja été utilisée pour fournir un cycle).

22.7.9  Exemple 2

A=(3 2 2 1 0 1 1 1 0) A=\left(\begin{array}{ccc} 3 & 2 & -2 \\ -1 &0 &1 \\ 1 & 1 & 0 \end{array}\right) λ=1\lambda =1 est valeur propre de multiplicité 3. On trouve : B(1) = (0 0 0 0 0 0 0 0 0), B(1) = (2 2 2 1 1 1 1 1 1), B(1)2 = (1 0 0 0 1 0 0 0 1) \begin{matrix} B(1)&=& \left(\begin{array}{ccc} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{array}\right), \\ B'(1)&=&\left(\begin{array}{ccc} 2 & 2&-2 \\ -1 & -1 & 1 \\ 1 & 1 & -1 \end{array}\right), \\ \frac{ B'{'}(1)}{2} &=& \left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right) \end{matrix} Le processus de réduction commence avec B(1)B'(1) en haut de la liste de matrices, on effectue les opérations élémentaires de colonne C 2C 1C 2C_2-C_1\rightarrow C_2 et C 3+C 1C 3C_3+C_1 \rightarrow C_3 et on obtient: (2 0 0 1 0 0 1 0 0), (1 1 1 0 1 0 0 0 1) \begin{matrix} \left(\begin{array}{ccc} 2 & 0&0 \\ -1 & 0 & 0 \\ 1 & 0 & 0 \end{array}\right), \\ \left(\begin{array}{ccc} 1 & -1 & 1 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right) \end{matrix} La première colonne donne le premier cycle de Jordan (1,0,0)(2,1,1)(1,0,0) \rightarrow (2,-1,1). On déplace les premières colonnes d’une matrice vers le bas : (2 1 1 1 1 0 1 0 1) \left(\begin{array}{ccc} 2 & -1 & 1 \\ -1 & 1 & 0 \\ 1 & 0 & 1 \end{array}\right) qu’on réduit par les opérations 2C 2+C 1C 22C_2 +C_1 \rightarrow C_2 et 2C 3C 1C 32C_3-C_1\rightarrow C_3 en : (2 0 0 1 1 1 1 1 1) \left(\begin{array}{ccc} 2 & 0 & 0 \\ -1 & 1 & 1 \\ 1 & 1 & 1 \end{array}\right) Puis on effectue C 3C 2C 3C_3-C_2 \rightarrow C_3 et la deuxième colonne nous donne le deuxième cycle de Jordan, réduit ici à un seul vecteur propre (0,1,1)(0,1,1).

22.7.10  Le polynôme minimal par Faddeev

On vérifie aisément que le degré du facteur (λλ i)(\lambda-\lambda_i) dans le polynôme minimal de AA est égal à n ikn_i-kkk est le plus grand entier tel que : j<k,B (j)(λ i)=0 \forall j&lt;k, \quad B^{(j)}(\lambda_i)=0

22.7.11  Formes normales rationnelles

On se place ici dans une problématique différente : trouver une matrice semblable la plus simple possible sans avoir à introduire d’extension algébrique pour factoriser le polynôme caractéristique. Quitte à “compléter” plus tard la factorisation et la jordanisation à partir de la forme simplifiée. Il existe diverses formes associées à une matrice et plusieurs algorithmes permettant de les relier entre elles, forme de Smith, de Frobenius, forme normale de Jordan rationnelle.

On commence par un algorithme très simple qui donne la décomposition dite de Dunford A=D+NA=D+N (somme d’une matrice diagonalisable et d’une matrice nilpotente) sans calculer les valeurs propres (donc en faisant tous les calculs dans le corps des coefficients de la matrice). Il utilise la méthode de Newton, la partie diagonalisable annulant le polynôme qq déduit du polynôme caractéristique en ramenant à 1 toutes les multiplicités, la partie nilpotente étant vue comme le terme d’erreur (la taille de l’erreur se mesurant par l’exposant nécessaire pour annuler le nilpotent). On résoud donc q(x)=0q(x)=0 en considérant la suite récurrente u n+1=u nq(u n)/q(u n)u_{n+1}=u_n-q(u_n)/q'(u_n) avec comme valeur initiale de la suite u 0=Au_0=A. On observe que q(A)q(A) est nilpotente car q(D)=0q(D)=0.

dunford(A):={
  local U,p,q,q1,j,d,n;
  U:=A;
  n:=nrows(U);
  p:=charpoly(U);
  q:=p/gcd(p,p'); // partie sans multiplicite
  q1:=q';
  for (j:=1;j<=n;j:=2*j){
    d:=inv(horner(q1,U))*horner(q,U); // pas de Newton
    if (d==0*d) return U,A-U;
    U:=U-d;
  }
  return U,A-U;
}:;




Mais cet algorithme est un peu trop simple pour être efficace pour de grandes matrices, une itération est en O(n 4)O(n^4). Pour le rendre plus efficace, il faut travailler un peu en utilisant la factorisation la plus poussée possible sur le polynôme caractéristique (en tout cas au moins la décomposition sqrfree) et Bézout pour calculer les projecteurs spectraux, on diminue ainsi la dimension pour accélérer les évaluations du polynôme d’endomorphisme (en O(O(dimension) 4)^4). Et au demeurant la forme de Dunford n’a pas beaucoup d’applications pratiques.

On va maintenant présenter une méthode directe de calcul d’une forme normale contenant le maximum de zéros (dont la forme dite normale de Jordan rationnelle peut se déduire) en utilisant le même algorithme que pour la forme normale de Jordan. Soit Q(λ)=q 0+...+q dλ dQ(\lambda)=q_0+...+q_d \lambda^d un facteur irréductible de degré dd et de multiplicité qq du polynôme caractéristique PP. Il s’agit de construire un sous-espace de dimension dqdq formé de “cycles de Jordan rationnels”. On part toujours de la relation (λIA) kn1B kλ k=P(λ)I(\lambda I -A) \sum_{k\leq n-1} B_k \lambda^k=P(\lambda)I. On observe que Q(λ)IQ(A)Q(\lambda)I-Q(A) est divisible par (λIA)(\lambda I -A) donc il existe une matrice M(λ)M(\lambda) telle que : (Q(λ)IQ(A))( kn1B kλ k)=Q(λ) qM(λ) (Q(\lambda) I -Q(A)) (\sum_{k\leq n-1} B_k \lambda^k) =Q(\lambda)^q M(\lambda) On observe aussi que QQ a pour coefficient dominant 1 puisqu’il divise PP, on peut donc effectuer des divisions euclidiennes de polynômes donc de polynômes à coefficients matriciels par QQ sans avoir à diviser des coefficients. Ce qui nous permet de décomposer B(λ)= kn1B kλ kB(\lambda)=\sum_{k\leq n-1} B_k \lambda^k en puissances croissantes de QQ : B(λ)= kC k(λ)Q(λ) k,deg(C k)<q B(\lambda)=\sum_k C_k(\lambda) Q(\lambda)^k, \quad \mbox{deg}(C_k)&lt;q On remplace et on écrit que les coefficients des puissances inférieures à qq de QQ sont nulles (la kk-ième étant non nulle car M(λ)M(\lambda) n’est pas divisible par QQ pour les mêmes raisons que pour la forme normale de Jordan). On a donc les relations : Q(A)C 0=0,C k=Q(A)C k+1 Q(A)C_0 = 0, \quad C_k = Q(A) C_{k+1} ce qui donne une colonne de matrice C q1C q2...C 00C_{q-1} \rightarrow C_{q-2} ... \rightarrow C_0 \rightarrow 0 qui sont images l’une de l’autre en appliquant Q(A)Q(A). On peut alors faire l’algorithme de réduction simultanée sur les colonnes des C jC_j. On observe ensuite que le nombre de cycles de Jordan de Q(A)Q(A) de longueur donnée est un multiple de dd, en effet il suffit de multiplier un cycle par AA, ..., A d1A^{d-1} pour créer un autre cycle, de plus ces cycles forment des familles libres car on a supposé QQ irréductible. On peut donc choisir pour un cycle de longueur kk des bases de la forme (v k1,Av k1...,A d1v k1)...(v 0,Av 0...,A d1v 0)(0,...,0)(v_{k-1},Av_{k-1}...,A^{d-1}v_{k-1}) \rightarrow ... \rightarrow (v_{0},Av_{0}...,A^{d-1}v_{0}) \rightarrow (0,...,0) où la flèche \rightarrow désigne l’image par Q(A)Q(A). Si on écrit la matrice de AA dans la base v 0,Av 0...,A d1v 0,...,v k1,Av k1...,A d1v k1v_{0},Av_{0}...,A^{d-1}v_{0},...,v_{k-1},Av_{k-1}...,A^{d-1}v_{k-1} on obtient un “quasi-bloc de Jordan rationnel” de taille kdkd multiple de dd : (0 0 ... q 0 0 0 ... 1 ... 1 0 ... q 1 0 0 ... 0 ... 0 1 ... q 2 0 0 ... 0 ... ... ... ... 0 0 ... q d1 0 0 ... 0 ... 0 0 ... 0 0 0 ... q 0 ... 0 0 ... 0 1 0 ... q 1 ... ... ... ...) \left( \begin{array}{cccccccccc} 0 & 0 & ... & -q_0 & \ & 0 & 0 & ... & 1 & ... \\ 1 & 0 & ... & -q_1 & \ & 0 & 0 & ... & 0 & ...\\ 0 & 1 & ... & -q_2 & \ & 0 & 0 & ... & 0 & ...\\ \vdots & \vdots & ... & \vdots & \ & \vdots & \vdots & ... & \vdots & ...\\ 0 & 0 & ... & -q_{d-1} & \ & 0 & 0 & ... & 0 & ... \\ \\ 0 & 0 & ... & 0 & \ & 0 & 0 & ... & -q_{0} & ... \\ 0 & 0 & ... & 0 & \ & 1 & 0 & ... & -q_{1} & ... \\ \vdots & \vdots & ... & \vdots & \ & \vdots & \vdots & ... & \vdots & ... \end{array} \right)

Exemple
Soit la matrice A=(1 2 4 2 5 4 0 1 52 72 2 52 1 52 2 12 52 3 0 1 92 72 3 72 0 0 2 2 3 1 1 32 12 1 32 12) A=\left(\begin{array}{cccccc} 1 & -2 & 4 & -2 & 5 & -4 \\ 0 & 1 & \frac{5}{2} & \frac{-7}{2} & 2 & \frac{-5}{2} \\ 1 & \frac{-5}{2} & 2 & \frac{-1}{2} & \frac{5}{2} & -3 \\ 0 & -1 & \frac{9}{2} & \frac{-7}{2} & 3 & \frac{-7}{2} \\ 0 & 0 & 2 & -2 & 3 & -1 \\ 1 & \frac{-3}{2} & \frac{-1}{2} & 1 & \frac{3}{2} & \frac{1}{2} \end{array}\right) Son polynôme caractéristique est (x2) 2(x 22) 2(x-2)^2(x^2-2)^2 et on va déterminer la partie bloc de Jordan rationnel correspondant au facteur irréductible sur les entiers Q(x)=(x 22)Q(x)=(x^2-2) de multiplicité q=2q=2. On calcule B(x)B(x) et l’écriture de BB comme somme de puissances de QQ (ici avec xcas en mode xcas) :

A:=[[1,-2,4,-2,5,-4],[0,1,5/2,(-7)/2,2,(-5)/2],[1,(-5)/2,2,1/(-2),5/2,-3],
    [0,-1,9/2,(-7)/2,3,(-7)/2],[0,0,2,-2,3,-1],[1,(-3)/2,1/(-2),1,3/2,1/2]];
P:=det(A-x*idn(6));
B:=normal(P*inv(A-x*idn(6))); // preferer un appel a faddeev bien sur!
ecriture(B,Q,q):={
  local j,k,l,n,C,D,E;
  C:=B;
  D:=B;
  E:=NULL;
  n:=coldim(B);
  for (j:=0;j<q;j++){ 
    for (k:=0;k<n;k++){
      for (l:=0;l<n;l++){
        D[k,l]:=rem(C[k,l],Q,x);
        C[k,l]:=quo(C[k,l],Q,x);
      }
    }
    E:=E,D;
  }
  return E;
};
E:=ecriture(B,x^2-2,2);
QA:=A*A-2*idn(6);

On vérifie bien que normal(QA*E(0)) et normal(QA*E(1))-E(0)) sont nuls. On sait qu’on a un bloc de taille 2 de cycles de Jordan de longueur 2, donc il n’est pas nécessaire de faire des réductions ici, il suffit de prendre une colonne non nulle de E(0)E(0), par exemple la première colonne en x=0x=0 et la colonne correspondante de E(1)E(1) et leurs images par AA, ici cela donne (4,24,12,32,8,4)(4,24,12,32,8,-4) correspondant à (0,4,4,8,4,4)(0,4,-4,8,4,-4), on calcule les images par AA, la matrice de l’endomorphisme restreint à ce sous-espace est alors le bloc de taille 4 : (0 2 0 1 1 0 0 0 0 0 0 2 0 0 1 0) \left( \begin{array}{cccc} 0 & 2 & 0 & 1 \\ 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 2 \\ 0 & 0 & 1 & 0 \end{array} \right)

Cette forme normale minimise le nombre de coefficients non nuls, mais présente un inconvénient, la partie nilpotente ne commute pas avec la partie bloc-diagonale, contrairement à la forme normale rationnelle de Jordan qui contient des blocs identités au-dessus de la diagonale de blocs. Pour créer la forme normale rationnelle de Jordan, on doit donc remplacer les blocs (... 0 1 ... 0 0 ...)\left( \begin{array}{ccc} ... & 0 & 1 \\ ... & 0 & 0 \\ ... \end{array} \right) par des matrices identités. Supposons constitués les jj premiers blocs de taille dd numérotés de 0 à j1j-1 avec comme base de vecteurs (v 0,0,...,v 0,d1,...,v j1,d1)(v_{0,0},...,v_{0,d-1},...,v_{j-1,d-1}). Il s’agit de trouver un vecteur v j,0v_{j,0} pour commencer le bloc suivant. On définit alors v j,lv_{j,l} en fonction de v j,l1v_{j,l-1} en appliquant la relation Av j,l1=v j,l+v j1,l1Av_{j,l-1}=v_{j,l}+v_{j-1,l-1}. Il faut donc chercher v j,0v_{j,0} tel que Av j,d1=q 0v j,0...q d1v j,d1+v j1,d1(47) Av_{j,d-1}=-q_0 v_{j,0}-...-q_{d-1} v_{j,d-1}+v_{j-1,d-1} \qquad (47) En utilisant les relations de récurrence précédentes, on voit que cela revient à fixer Q(A)v j,0Q(A)v_{j,0} en fonction des v j,lv_{j',l} avec j<jj'&lt;j (ll quelconque). Ce qui est toujours possible en utilisant la colonne de matrices C jC_{j'} qui s’obtiennent en fonction des C j+1C_{j'+1} en appliquant Q(A)Q(A).

Plus précisément, calculons les v j,lv_{j,l} en fonction de v j,0v_{j,0} et des v j,lv_{j',l'} (j<jj'&lt;j). On utilise les coefficients binomiaux (lm)\left( ^l_m\right) calculés par la règle du triangle de Pascal et on montre par récurrence que : v j,l=A lv j,0 m=1 \small inf(l,j)(lm)v jm,lm(48) v_{j,l} = A^l v_{j,0} - \sum_{m=1}^{\mbox{\small inf}(l,j)} \left( ^l _m\right) v_{j-m,l-m} \qquad (48) On remplace dans (47) d’où : A dv j,0 m=1 \small inf(d,j)(dm)v jm,lm+ l=0 dq l(A lv j,0 m=1 \small inf(l,j)(lm)v jm,lm)=0 A^d v_{j,0} - \sum_{m=1}^{\mbox{\small inf}(d,j)} \left( ^d _m\right)v_{j-m,l-m} + \sum_{l=0}^d q_l (A^l v_{j,0} - \sum_{m=1}^{\mbox{\small inf}(l,j)} \left( ^l _m\right) v_{j-m,l-m} )=0 finalement : Q(A)v j,0= l=1 dq l m=1 \small inf(l,j)(lm)v jm,lm(49) Q(A) v_{j,0}= \sum_{l=1}^d q_l \sum_{m=1}^{\mbox{\small inf}(l,j)} \left( ^l _m\right) v_{j-m,l-m} \qquad (49)

Application à l’exemple :
Ici v 0,0=(4,24,12,32,8,4)v_{0,0}=(4,24,12,32,8,-4) et v 0,1=Av j,0v_{0,1}=Av_{j,0} dont une préimage par Q(A)Q(A) est w 1,0=(0,4,4,8,4,4)w_{1,0}=(0,4,-4,8,4,-4) et w 1,1=Aw 1,0w_{1,1}=Aw_{1,0}. On applique (49), comme q 1=0q_1=0 et q 2=1q_2=1 on doit avoir : Q(A)v 1,0= l=1 2q l m=1 \small inf(l,1)(lm)v 1m,lm=2v 0,1 Q(A) v_{1,0} = \sum_{l=1}^2 q_l \sum_{m=1}^{\mbox{\small inf}(l,1)} \left( ^l _m\right) v_{1-m,l-m} =2v_{0,1} donc  : v 1,0 = 2A(0,4,4,8,4,4) = (8,32,0,48,16,16) v 1,1 = Av 1,0v 0,0 = (4,40,4,64,24,20)\begin{array}{ccccc} v_{1,0}&=&2A(0,4,-4,8,4,-4)&=&(-8,-32,0,-48,-16,16) \\ v_{1,1}&=&Av_{1,0}-v_{0,0}&=&(4,40,-4,64,24,-20) \end{array} On vérifie bien que Av 1,1=2v 1,0+v 0,1Av_{1,1}=2v_{1,0}+v_{0,1}.

22.7.12  Fonctions analytiques

Soit ff une fonction analytique et MM une matrice. Pour calculer f(M)f(M), on calcule la forme normale de Jordan de M=P(D+N)P 1M=P(D+N)P^{-1}D=D=diag(d 1,...,d m)(d_1,...,d_m) est diagonale et NN nilpotente d’ordre nn. On calcule aussi le développement de Taylor formel de ff en xx à l’ordre n1n-1, on a alors : f(N)=P( j=0 n1diag(f (j)(d 1),...,f (j)(d m))j!N j)P 1 f(N)=P \left(\sum_{j=0}^{n-1} \frac{\mbox{diag}(f^{(j)}(d_1),..., f^{(j)}(d_m))}{j!} N^j \right) P^{-1}

22.8  Quelques autres algorithmes utiles

22.8.1  Complexité asymptotique

Pour calculer le produit de matrices, on peut utiliser l’algorithme de Strassen, on présente ici la variante de Winograd. Soit à calculer : (a 1,1 a 1,2 a 2,1 a 2,2)(b 1,1 b 1,2 b 2,1 b 2,2)=(c 1,1 c 1,2 c 2,1 c 2,2) \left(\begin{array}{cc} a_{1,1} & a_{1,2} \\ a_{2,1} & a_{2,2} \end{array}\right) \left(\begin{array}{cc} b_{1,1} & b_{1,2} \\ b_{2,1} & b_{2,2} \end{array}\right) =\left(\begin{array}{cc} c_{1,1} & c_{1,2} \\ c_{2,1} & c_{2,2} \end{array}\right) On calcule : s 1=a 2,1+a 2,2,s 2=s 1a 1,1,s 3=a 1,1a 2,1,s 4=a 1,2s 2 t 1=b 1,2b 1,1,t 2=b 2,2t 1,t 3=b 2,2b 1,2,t 4=b 2,1t 2 \begin{matrix} s_1=a_{2,1}+a_{2,2}, \quad s_2=s_1-a_{1,1}, \quad s_3=a_{1,1}- a_{2,1}, \quad s_4=a_{1,2}-s_2 \\ t_1=b_{1,2}-b_{1,1}, \quad t_2=b_{2,2}-t_1, \quad t_3=b_{2,2}-b_{1,2}, \quad t_4=b_{2,1}-t_2 \end{matrix} puis : p 1=a 1,1b 1,1,p 2=a 1,2b 2,1,p 3=s 1t 1,p 4=s 2t 2 p 5=s 3t 3,p 6=s 4b 2,2,p 7=a 2,2t 4 u 1=p 1+p 2u 2=p 1+p 4,u 3=u 2+p 5,u 4=u 3+p 7 u 5=u 3+p 3,u 6=u 2+p 3,u 7=u 6+p 6 \begin{matrix} p_1=a_{1,1} b_{1,1}, \quad p_2=a_{1,2}b_{2,1}, \quad p_3=s_1 t_1, \quad p_4=s_2 t_2 \\ p_5=s_3 t_3, \quad p_6=s_4 b_{2,2}, \quad p_7=a_{2,2} t_4 \\ u_1= p_1+p_2 \quad u_2=p_1+p_4, \quad u_3=u_2+p_5, \quad u_4=u_3+p_7\\ u_5=u_3+p_3, \quad u_6=u_2+p_3, \quad u_7=u_6+p_6 \end{matrix} Alors c 1,1=u 1,c 1,2=u 7,c 2,1=u 4,c 2,2=u 5c_{1,1}=u_1, c_{1,2}=u_7, c_{2,1}=u_4, c_{2,2}=u_5.
Cet algorithme utilise 7 multiplications et 15 additions ce qui économise 1 multiplication et permet en appliquant récursivement cet algorithme pour des matrices blocs de réduire la complexité d’un produit de grandes matrices normalement en O(n 3=n ln(8)/ln(2))O(n^3=n^{\ln(8)/\ln(2)}) à O(n ln(7)/ln(2))O(n^{\ln(7)/\ln(2)}) (la preuve est analogue à celle de la multiplication des polynômes par l’algorithme de Karatsuba).

En utilisant une factorisation LULU par blocs, on peut montrer que cette complexité asymptotique se généralise au calcul de l’inverse. On peut d’ailleurs améliorer l’exposant, mais la constante non explicitée dans le OO augmente aussi. En pratique, Strassen n’est pas utilisée pour des matrices de taille plus petites que plusieurs centaines de lignes et colonnes.

De même on peut gagner sur le calcul du polynôme minimal en faisant des opérations de multiplication par bloc.

22.9  Quelques méthodes alternatives au pivot

22.9.1  Factorisation QRQR

La factorisation QRQR consiste à écrire une matrice AA comme produit d’une matrice orthogonale (ou unitaire dans \mathbb{C}) et d’une matrice triangulaire supérieure. Les matrices orthogonales ayant un conditionnement de 1 (en norme L 2L^2) cette factorisation peut s’obtenir de manière numériquement stable.

Il existe plusieurs algorithmes pour effectuer cette factorisation. On peut voir cette factorisation comme l’orthonormalisation de Gram-Schmidt appliqué aux vecteurs colonnes de AA si AA est non singulière. Mais la procédure de Gram-Schmidt n’est pas numériquement stable (car on retranche d’un vecteur une combinaison linéaire des vecteurs précdents pour rendre le nouveau vecteur orthogonal et les erreurs d’arrondi s’accumulent rendant l’orthogonalité plus aléatoire). La méthode de Householder utilise des matrices de symétrie par rapport à un hyperplan et ne souffre pas de ce problème d’instabilité. Pour annuler les coefficients de la première colonne c 1c_1 de AA, on construit le vecteur u=c 1±c 1e 1u=c_1 \pm \|c_1\| e_1e 1e_1 est le premier vecteur de base et le signe ±\pm est le signe de la première composante de c 1c_1 (pour assurer la stabilité numérique). On fait alors la symétrie Q 1Q_1 par rapport à l’hyperplan HH orthogonal à uu, qui laisse HH invariant et transforme uu en u-u. Comme uu est vecteur directeur de la bissectrice intérieure ou extérieure de c 1c_1 et e 1e_1, la symétrie échange ces deux vecteurs, éventuellement au signe près. La matrice A 1=Q 1AA_1=Q_1A a donc comme première colonne un multiple de e 1e_1, on continue ensuite en faisant le même raisonnement sur la matrice A 1A_1 en se limitant et lignes et colonnes d’indice 2\geq 2. Après n1n-1 itérations, on a A n1=Q n1...Q 1AA_{n-1}=Q_{n-1}...Q_1A qui est triangulaire supérieure d’où la factorisation annoncée.

Matriciellement, Q 1=I2vv *Q_1=I-2vv^*v=u/uv=u/\|u\|, pour calculer Q 1AQ_1A il faut effectuer A2vv *AA-2vv^*A, on calcule donc w=v *Aw=v^*A en n 2n^2 opérations (ou une opération est une addition et une multiplication) puis on soustrait (2v) iw j(2v)_i w_j de a ija_{ij} en n 2n^2 opérations. En faisant de même aux étapes qui suivent, sans tenir compte de la simplification progressive du vecteur vv, on effectue 2n 32n^3 opérations. La constante 2 peut être un peu améliorée en tenant compte des 0 initiaux de vv aux étapes 2 et ultérieures, elle est toutefois supérieure à LU (et Cholesky), mais en contrepartie la méthode est très stable numériquement.

On peut aussi utiliser des rotations (méthode de Givens) pour annuler les coefficients de AA sous la diagonale. C’est par exemple très efficace pour des matrices tridiagonales.

Lorsque la matrice AA n’est pas carrée, mais possède nn lignes et cc colonnes, la factorisation QRQR est encore possible, la matrice QQ est alors une matrice carrée d’ordre nn, et RR a les mêmes dimensions que AA. En particulier si AA a plus de lignes que de colonnes (matrice verticale), RR aussi. Par exemple si AA est de rang maximal cc, alors RR se décompose en un premier bloc c,cc,c inversible R 1R_1 et un deuxième bloc nc,cn-c,c entièrement nul.

Applications :
On peut alors écrire Ax=bAx=b sous la forme QRx=bQRx=b donc Rx=Q *bRx=Q^*b qui est un système triangulaire supérieur, donc résoudre Ax=bAx=b en O(n 2)O(n^2) opérations une fois la factorisation QRQR effectuée.

Mais c’est surtout pour résoudre au sens des moindres carrés un système sur-déterminé que la factorisation QRQR trouve tout son intérêt. Soit AA la matrice d’un système sur-déterminé avec nn lignes et cc colonnes, n>cn&gt;c (matrice “verticale” ou mince). Le système n’a en général pas de solution, on cherche alors à minimiser Axb 2 2\| Ax-b \|_2^2. Ceci revient à chercher la projection orthogonale de bb sur Im(A)(A). Soit AxAx cette projection, on a b=Ax+pb=Ax+p avec pp orthogonal à Im(A)(A) donc dans Ker(A *)(A^*), donc A *b=A *(Ax+p)=A *AxA^*b=A^*(Ax+p)=A^*Ax.

Proposition 62   La solution xx du problème de minimisation de Axb 2\| Ax-b \|_2 est donnée par A *Ax=A *bA^*Ax=A^*b

Si A=QRA=QR on a alors R *Rx=R *Q *bR^* R x=R^* Q^*b. Si AA est de rang maximal cc, on décompose RR en ( R 2 R 1)(^{R_1}_{R_2}) avec R 1R_1 inversible de taille cc et R 2=0R_2=0, donc R *=(R 1 *,0)R^*=(R_1^*, 0) et le système devient R 1 *R 1x=(R 1 *,0)Q *bR_1^*R_1x =(R_1^*,0) Q^*b et comme R 1R_1 est inversible, on a R 1x=R_1x= les cc premières lignes de Q *bQ^*b. Il vaut mieux résoudre ce système que A *Ax=A *bA^* Ax=A^*b car le conditionnement de A *AA^* A est le carré du conditionnement de AA (le nombre d’opérations est un peu supérieur : QRQR a une constante nettement plus grande que Cholesky mais il n’y a pas de multiplication de matrice à faire, et le résultat est plus précis).

Notons qu’on peut résoudre de manière assez analogue un système sous-déterminé au sens des moindres carrés. On considère toujours le système Ax=bAx=b mais cette fois-ci AA est une matrice “horizontale” (nombre de lignes n<cn&lt;c le nombre de colonnes). Si bb \in Im(A)(A) (on peut génériquement supposer que AA est de rang nn), il y a une infinité de solutions, on cherche alors la solution de norme minimale. On cherche donc le projeté orthogonal de l’espace affine des solutions (dirigé selon Ker(A)(A)) sur l’orthogonal de Ker(A)(A) qui est ImA *A^*. Ainsi x=A *yx=A^*y vérifie Ax=bAx=b, donc AA *y=bAA^*y=b. Si AA est de rang nn alors AA *AA^* est inversible et y=(AA *) 1by=(AA^*)^{-1}b donc x=A(AA *) 1bx=A (AA^*)^{-1}b. En utilisant la factorisation QRQR de A *A^* (attention pas celle de AA), on a AA *=R *RAA^*=R^*R, donc x=QR(R *R) 1bx=QR(R^*R)^{-1}b. Si AA est de rang nn, on a alors en posant R=( 0 R 1)R=(^{R_1}_{0}) avec R 1R_1 matrice n,nn,n inversible : x=Q(R 1 0)R 1 1R 1 * 1b=Q(R 1 * 1 0)b=Q 1R 1 * 1bx=Q\left(\begin{array}{c}R_1\\0\end{array}\right)R_1^{-1} R_1^{*^{-1}}b=Q\left(\begin{array}{c} {R_1}^{*^{-1}} \\ 0\end{array}\right)b=Q_1 {R_1}^{*^{-1}} b Q 1Q_1 désigne les nn premières colonnes de QQ.

Proposition 63   Soit AA une matrice ayant nn lignes et c>nc&gt;n colonnes. Si AA est de rang maximal nn, posons A *=QRA^*=QR, R 1R_1 les nn premières lignes de R 1R_1, Q 1Q_1 les nn premières colonnes de QQ. La solution de Ax=bAx=b de norme minimale est donnée par Q 1cQ_1ccc est la solution de R 1 *c=bR_1^*c=b (système triangulaire).

Exemple 1 : la régression linéaire :
On se donne nn points de coordonnées (x i,y i)(x_i,y_i) où les x ix_i sont distincts 2 à 2 et on cherche la droite qui approche le mieux ces points au sens de l’écart en yy au carré. Il s’agit donc de trouver α\alpha et β\beta qui minimisent : j=1 n(α+βx iy i) 2\sum_{j=1}^n (\alpha+\beta x_i-y_i)^2 Ici on a : A=(1 x 1 ... ... 1 x n ),x=(α β),b=(y 1 ... y n )A=\left( \begin{array}{cc} 1 & x_1 \\ ... & ... \\ 1 & x_n \\ \end{array} \right), \quad x=\left( \begin{array}{c} \alpha \\ \beta \end{array}\right), \quad b=\left( \begin{array}{c} y_1 \\ ... \\ y_n \\ \end{array} \right) Pour trouver α,β\alpha, \beta de manière précise, on préferera donc calculer la factorisation QRQR de AA plutôt que calculer A *AA^*A, R 1R_1 est une matrice carrée d’ordre 2, QQ une matrice carrée d’ordre nn, la première colonne de QQ est le vecteur de coordonnées ±(1,...,1)/n\pm (1,...,1)/\sqrt{n}.

Exemple : on se donne les points (1,2),(2,1),(3,5),(4,4)(1,2), (2,1), (3,5), (4,4). La matrice AA et bb sont donc




Exemple 2: régression polynomiale :
C’est une généralisation de l’exemple précédent, on cherche un polynôme P(x)P(x) de degré fixé tel que i(y iP(x i)) 2\sum_i (y_i-P(x_i))^2 soit minimal. Si on choisit la base canonique des polynômes, la matrice AA est alors une matrice de Vandermonde et son conditionnement est en général très mauvais. De plus, plus le degré augmente, plus l’extrapolation est hasardeuse :



On préfèrera utiliser une base de polynômes orthogonaux pour le produit scalaire iP(x i)Q(x i)\sum_i P(x_i)Q(x_i) ou minimiser une autre fonctionnelle quadratique, par exemple une intégrale du carré de la différence entre une fonction à approcher et un polynôme ou un polynôme trigonométrique.

Remarque : La factorisation QRQR peut s’obtenir en calculant la factorisation de Cholesky de A *AA^* A qui donne RR, mais on lui préfère une méthode de calcul direct pour des raisons de stabilité, en tout cas pour des matrices denses (pour des matrices creuses des considérations d’efficacité peuvent faire préférer la factorisation de Cholesky).

22.9.2  Méthodes itératives de Jacobi, Gauss-Seidel, relaxation

Lorsqu’on a une matrice creuse (peu d’éléments non nuls), l’algorithme du pivot de Gauss a tendance à densifier rapidement la matrice réduite (surtout avec le pivot partiel où on ne controle pas le nombre de zéros de la ligne contenant le pivot). Il peut alors être intéressant d’utiliser des méthodes alternatives ne faisant intervenir que des produits de matrice, donnant éventuellement un résultat seulement approché.

Par exemple pour calculer l’inverse d’une matrice A=MNA=M-N, avec MM facile à inverser (par exemple diagonale) et NN petit en norme et creuse, on peut écrire : A 1=(MN) 1=(M(IM 1N)) 1=(I+M 1N+(M 1N) 2+...)M 1A^{-1}=(M-N)^{-1} = (M(I-M^{-1}N))^{-1}=(I+M^{-1}N+(M^{-1}N)^2+...)M^{-1}

De même pour résoudre un système linéaire Ax=bAx=b avec A=MNA=M-N, on considère la suite Mx n+1Nx n=bMx_{n+1}-Nx_n=b, donc x n+1x_{n+1} est obtenu en résolvant le système : Mx n+1=b+Nx n,x 0=0Mx_{n+1}=b+N x_n, \quad x_0=0 pour laquelle on vérifiera les hypothèses du théorème du point fixe, il suffit par exemple de vérifier que la plus grande valeur singulière de M 1NM^{-1}N est strictement plus petite que 1. Lorsque la matrice NN n’est pas creuse, le procédé est intéressant pour résoudre approximativement un système si nn est grand et si chaque itération est en O(n 2)O(n^2) (ceci veut dire qu’on ne calcule pas M 1M^{-1} sauf si c’est évident, par exemple si MM est diagonale), mais le procédé n’est pas intéressant pour le calcul de l’inverse de AA.

Notons DD la partie diagonale de AA, LL sa partie triangulaire inférieure stricte, UU sa partie triangulaire supérieure stricte, La méthode de Jacobi utilise pour MM la diagonale DD de AA, alors que la méthode de Gauss-Seidel prend pour MM la partie triangulaire inférieure D+LD+L de AA (diagonale comprise). Pour Jacobi, on a donc x n+1=D 1(b+(DA)x n)=x n+D 1(bAx n)x_{n+1}=D^{-1}(b+(D-A)x_n)=x_n+D^{-1}(b-Ax_n) En Xcas, l’instruction préprogrammée est jacobi_linsolve, on peut aussi programmer la méthode par

jacobi(A,b,eps,N):={
  local D,x0,x1,n,j;
  n:=size(A);
  D:=diag(A).^-1;
  x0:=seq(0,n);
  pour j de 1 jusque N faire
    x1:=b-A*x0;
    si l2norm(x1)<eps alors return x0; fsi;
    x0:=x0+D .*x1;
  fpour;
  return "non convergent";
}:;


Un cas simple où on a convergence :

Proposition 64   Lorsque la matrice AA est à diagonale strictement dominante, c’est-à-dire que l’élément diagonal est en valeur absolue strictement supérieur à la somme des éléments non diagonaux de la même ligne : |a ii|> ji|a ij||a_{ii}| &gt; \sum_{j\neq i} |a_{ij}| la méthode de Jacobi converge.

En effet, M 1Nx <x \|M^{-1}Nx\|_\infty &lt; \| x\|_\infty car : |(Nx) i| ji|a ij||x j| ji|a ij|x <|a ii|x |M 1(Nx) i|<x |(Nx)_i| \leq \sum_{j \neq i} |a_{ij}| |x_j| \leq \sum_{j \neq i} |a_{ij}| \|x\|_\infty &lt; |a_{ii}| \| x\|_\infty \quad \Rightarrow \quad |M^{-1}(Nx)_i| &lt; \| x\|_\infty On retrouve ce cas pour une petite perturbation d’une matrice diagonale, par exemple 








Pour nn assez grand, la méthode de Jacobi devient plus rapide. Cela se vérifie encore plus vite si AA est une matrice creuse.

Pour Gauss-Seidel, le calcul de M 1M^{-1} n’est pas effectué, on résoud directement le système triangulaire Mx n+1=b+Nx nMx_{n+1}=b+Nx_n soit (D+L)x n+1=bUx n(D+L)x_{n+1}=b-Ux_n Gauss-Seidel est moins adapté à la parallélisation que Jacobi. On adapte le programme précédent

seidel(A,b,N,eps):={
  local L,U,x0,x1,n,j;
  n:=size(A);
  L:=diag(A,left);
  U:=A-L;
  x0:=seq(0.0,n);
  pour j de 1 jusque N faire
    x1:=b-U*x0;
    x1:=linsolve(L,x1);
    si l2norm(x1-x0)<eps*l2norm(x0) alors return x0; fsi;
    x0:=x1;
  fpour;
  return "non convergent";
}:;


Dans la méthode de relaxation, on pose pour MM la matrice triangulaire inférieure M=1ωD+LM=\frac1\omega D+Lω>0\omega &gt;0, donc N=(1ω1)DUN=(\frac1\omega-1) D-U et on utilise la récurrence Mx n+1=b+Nx nMx_{n+1}=b+Nx_n donc Mx n+1=b+(MA)x nMx_{n+1}=b+(M-A)x_n puis M(x n+1x n)=bAx nM(x_{n+1}-x_n)=b-Ax_n puis (D+ωL)(x n+1x n)=ω(bAx n)(D+\omega L) (x_{n+1}-x_n) = \omega(b-Ax_n) On remarque que Gauss-Seidel correspond à ω=1\omega=1. L’instruction correspondante de Xcas est gauss_seidel_linsolve et peut prendre en paramètre le coefficient de relaxation, dont la valeur par défaut est 1.

Proposition 65   (Convergence ): si A=MNA=M-N est une matrice symétrique définie positive et si M *+NM^*+N est définie positive, alors la méthode converge.

On utilise la norme correspondant à la forme quadratique de matrice AA et on calcule la norme subordonnée de M 1NM^{-1}N, on a M 1Nx=xy M^{-1}Nx=x-y avec y=M 1Axy=M^{-1}Ax donc M 1Nx A 2 = <xy|A(xy))> = <x|Ax>+<y|Ay><y|Ax><x|Ay> = <x|Ax>+<y|Ay><y|My><My|y> = <x|Ax><y|(M *+N)y> < <x|Ax>=x A 2 \begin{matrix} \| M^{-1}Nx \|^2_A&=&&lt;x-y|A (x-y))&gt; \\ &=&&lt;x|Ax&gt;+&lt;y|Ay&gt;-&lt;y|Ax&gt;-&lt;x|Ay&gt; \\ &=&&lt;x|Ax&gt;+&lt;y|Ay&gt;-&lt;y|My&gt; -&lt;My|y&gt;\\ &=&&lt;x|Ax&gt;-&lt;y|(M^*+N)y&gt;\\ & &lt; & &lt;x|Ax&gt;=\|x\|_A^2 \end{matrix} Conséquence : si AA symétrique définie positive, alors Gauss-Seidel converge, car M *+N=DM^*+N=D. Pour la relaxation, on a M *+N=(2/ω1)DM^*+N=(2/\omega -1)D qui est définie positive si ω<2\omega&lt;2.

Remarque : Jacobi et Gauss-Seidel sont implémentées dans les commandes Xcas jacobi_linsolve et gauss_seidel_linsolve.

22.9.3  Méthode du gradient à pas constant

Soit AA est une matrice symétrique définie positive (relativement à un produit scalaire noté <|>&lt;|&gt;), on considère la fonctionnelle : J(v)=12<Av|v><b|v>J(v)=\frac{1}{2} &lt;Av|v&gt;-&lt;b|v&gt; J(v)J(v) tend vers ++\infty lorsque v\|v\| tend vers l’infini, car si λ 1>0\lambda_1&gt;0 est la plus petite valeur propre de AA, on a J(v)12λ 1v 2bvJ(v)\geq \frac{1}{2} \lambda_1 \|v\|^2-\|b\|\|v\|. Elle admet donc un minimum global, qui vérifie J(v)=J(v)=0J'(v)=\nabla J(v)=0 Or d vJ(w)=<Avb|w>d_vJ(w)=&lt;Av-b|w&gt;, en effet <A(v+hw)|(v+hw)><Av|v>=h<Aw|v>+h<Av|w>+O(h 2)=2h<Av|w>+O(h 2)&lt;A(v+hw)|(v+hw)&gt;-&lt;Av|v&gt;=h&lt;Aw|v&gt;+h&lt;Av|w&gt;+O(h^2)=2h&lt;Av|w&gt;+O(h^2) donc J(v)=Avb\nabla J (v)=Av-b Donc le minimum global est l’unique solution de Av=bAv=b.

La méthode du gradient à pas constant consiste à résoudre le système Av=bAv=b en minimisant JJ. Pour cela on calcule une suite récurrente de premier terme par exemple v 0=0v_0=0, et au rang k+1k+1 on suit la direction opposée au gradient de JJ en v kv_k selon un pas constant : v n+1=v kρ(Av kb)v_{n+1}=v_k-\rho (Av_k-b) La plus grande et plus petite valeur propre de IρAI-\rho A sont 1ρλ 11-\rho \lambda_1 et 1ρλ n1-\rho \lambda_n, si ces deux valeurs propres sont en module strictement inférieure à 1, alors v kv_k va converger à vitesse géométrique (de raison max(|1ρλ 1|,|1ρλ n||1-\rho \lambda_1|,|1-\rho \lambda_n|) vers l’unique point fixe de f(v)=(IρA)v+ρbf(v)=(I-\rho A)v+\rho b, qui est la solution du système Av=bAv=b. Il suffit de choisir ρ\rho (si on a une estimation sur λ 1\lambda_1 et λ n\lambda_n).

Par exemple, pour la matrice du laplacien discret (2 sur la diagonale, et -1 sur les 2 diagonales de part et d’autre), les valeurs propres sont les 2(1cos(kπ/(n+1)))2(1-\cos(k\pi/(n+1))), il faut donc que 1<12ρ(1+cos(π/(n+1))) -1 &lt; 1-2\rho (1+\cos(\pi/(n+1))) soit 0<ρ<11+cos(π/(n+1))0&lt;\rho&lt;\frac1{1+\cos(\pi/(n+1))}. La valeur optimale est obtenue lorsque les 2 valeurs extrêmales ont même valeur absolue 2ρ(1+cos(π/(n+1))1=12ρ(1cos(π/(n+1))ρ=122\rho (1+\cos(\pi/(n+1))-1=1-2\rho (1-\cos(\pi/(n+1)) \ \Rightarrow \ \rho = \frac{1}{2} La vitesse de convergence est assez lente, car |IρA||I-\rho A| a pour valeur propre maximale cos(π/(n+1))\cos(\pi/(n+1)), par exemple pour n=20n=20, cos(pi/21.)0.988\cos(pi/21.) \equiv 0.988 est très proche de 1.

22.9.4  Méthode itérative du gradient conjugué

Il s’agit de résoudre Ax=bAx=b, où AA est définie positive. Si on a une base orthogonale pour le produit scalaire induit par AA, on peut calculer la jj-ième coordonnée de xx dans cette base en faisant le produit scalaire de Ax=bAx=b par le jj-ième vecteur de la base. On construit donc petit à petit une base orthogonale {p 1,...,p n}\{ p_1,...,p_n \} pour AA par un procédé à la Gram-Schmidt, mais on ne part pas de la base canonique : on construit cette famille orthogonale pour AA en meme temps qu’on calcule les composantes de xx. Si x= j1α jp jx=\sum_{j\geq 1} \alpha_j p_j, alors <b|p j>=<Ax|p j>=α j<Ap j|p j>&lt;b|p_j&gt;=&lt;Ax|p_j&gt;=\alpha_j &lt;Ap_j|p_j&gt; Posons x i= jiα jp jx_i=\sum_{j\leq i} \alpha_j p_j, on a donc <bAx i|p j>=0 si ji,<bAx i|p j>=α j<Ap j|p j> sinon.&lt;b-Ax_i|p_j&gt;=0 \mbox{ si } j\leq i, \quad &lt;b-Ax_i|p_j&gt;=\alpha_j &lt;Ap_j|p_j&gt; \mbox{ sinon.} On peut donc construire x ix_i comme une suite récurrente de la manière suivante :

  1. on initialise par x 0=0x_0=0,
  2. à la ii-ième itération, on pose r i+1=bAx ir_{i+1}=b-Ax_i, on a donc <r i+1|p j>=0 si ji&lt;r_{i+1}|p_j&gt;=0 \mbox{ si } j\leq i
  3. On en déduit que si r i+1r_{i+1} est combinaison linéaire des p j,jip_j, j \leq i, alors r i+1=0r_{i+1}=0 donc on a terminé : x=x ix=x_i.
  4. Sinon, on complète la famille AA-orthogonale par un nouveau vecteur p i+1p_{i+1} tel que r i+1p i+1r_{i+1}-p_{i+1} soit dans Vect({p 1,...,p i}\{ p_1,...,p_{i}\}) et AA-orthogonal. On observe que r i+1r_{i+1} est combinaison linéaire des p jp_j pour ji+1j \leq i+1, donc <r i|r k>=0&lt;r_i|r_k&gt;=0 si i<ki&lt;k puisque r kr_k est orthogonal aux p jp_j pour ji<kj \leq i &lt;k.
  5. On calcule la i+1i+1-ième composante de xx sur la famille orthogonale augmentée : α i+1=<b|p i+1><Ap i+1|p i+1>\alpha_{i+1}=\frac{&lt;b|p_{i+1}&gt;}{&lt;Ap_{i+1}|p_{i+1}&gt;} On peut maintenant ajouter la i+1i+1-ième composante de xx à x ix_i pour obtenir x i+1=x i+α i+1p i+1x_{i+1}=x_i+\alpha_{i+1}p_{i+1}.
  6. Pour calculer efficacement p i+1p_{i+1}, on observe que r k+1r k=A(x k1x k)=α kAp kr_{k+1}-r_k=A(x_{k-1}-x_{k})=-\alpha_k A p_k Donc r i+1p i+1r_{i+1}-p_{i+1} est orthogonal à p kp_k pour k<ik&lt;i : <r i+1p i+1|Ap k>=1α k<r i+1|Ap k>=1α k<r i+1|r k+1r k>=0&lt;r_{i+1}-p_{i+1}|Ap_k&gt;=-\frac1\alpha_k&lt;r_{i+1}|Ap_k&gt;=-\frac1\alpha_k&lt;r_{i+1}|r_{k+1}-r_k&gt;=0 Ainsi r i+1p i+1=β ip ir_{i+1}-p_{i+1}=\beta_{i} p_i et : <r i+1p i+1|Ap i>=1α i<r i+1|r i+1>=β i<p i|Ap i>&lt;r_{i+1}-p_{i+1}|Ap_i&gt;=-\frac1\alpha_i&lt;r_{i+1}|r_{i+1}&gt;= \beta_i&lt;p_i|Ap_i&gt;
  7. De plus : α i+1=<r i+1|r i+1><Ap i+1|p i+1>\alpha_{i+1}=\frac{&lt;r_{i+1}|r_{i+1}&gt;}{&lt;Ap_{i+1}|p_{i+1}&gt;} En effet, comme b=Ax i+r i+1b=Ax_i+r_{i+1} et comme r i+1r_{i+1} est orthogonal aux p j,jip_j, j \leq i : <b|p i+1>=<Ax i+r i+1|p i+1>=<r i+1|p i+1>=<r i+1|r i+1>&lt;b|p_{i+1}&gt;=&lt;Ax_i+r_{i+1}|p_{i+1}&gt;=&lt;r_{i+1}|p_{i+1}&gt;=&lt;r_{i+1}|r_{i+1}&gt;
  8. Donc β i=<r i+1|r i+1><r i|r i>,p i+1=r i+1β ip i\beta_i=-\frac{&lt;r_{i+1}|r_{i+1}&gt;}{&lt;r_{i}|r_{i}&gt;}, \quad p_{i+1}=r_{i+1}-\beta_i p_i

On s’arrête en au plus la dimension itérations lorsque la famille orthogonale est devenue une base. En grande dimension, on peut décider de s’arrêter prématurément sur une solution approchée en testant si la norme de la valeur du résidu vérifie r i+1=bAx i<ε\|r_{i+1}\|=\|b-Ax_i\|&lt;\varepsilon.

La commande conjugate_gradient(A,b) de Xcas permet de faire ce calcul, on peut préciser une valeur initiale de recherche x0 et une précision eps en tapant conjugate_gradient(A,b,x0,eps). Voir aussi le programme en langage Xcas depuis le menu Exemple, analyse, gradconj

22.10  Réduction approchée des endomorphismes

On pourrait trouver des valeurs propres approchées d’une matrice en calculant le polynome caractéristique ou minimal puis en le factorisant numériquement. Mais cette méthode n’est pas idéale relativement aux erreurs d’arrondis (calcul du polynome caractéristiaue, de ses racines, et nouvelle approximation en calculant le noyau de AλIA-\lambda I), lorsqu’on veut calculer quelques valeurs propres on préfère utiliser des méthodes itératives directement sur AA ce qui évite la propagation des erreurs d’arrondi.

22.10.1  Méthode de la puissance

Elle permet de déterminer la plus grande valeur propre en valeur absolue d’une matrice diagonalisable lorsque celle-ci est unique. Supposons en effet que les valeurs propres de AA soient x 1,...,x nx_1,...,x_n avec |x 1||x 2|...|x n1|<|x n||x_1| \leq |x_2| \leq ... \leq |x_{n-1}| &lt; |x_n| et soient e 1,...,e ne_1,...,e_n une base de vecteurs propres correspondants. On choisit un vecteur aléatoire vv et on calcule la suite v k=Av k1=A kvv_k=Av_{k-1}=A^k v . Si vv a pour coordonnées V 1,...,V n)V_1,...,V_n) dans la base propre, alors v k= j=1 nV jx j ke j=x n kw k,w k= j=1 nV j(x jx n) ke j v_k = \sum_{j=1}^n V_j x_j^k e_j = x_n^k w_k, \quad w_k=\sum_{j=1}^n V_j \left(\frac{x_j}{x_n}\right)^k e_j L’hypothèse que x nx_n est l’unique valeur propre de module maximal entraine alors que lim k+w k=V ne n\lim_{k \rightarrow +\infty} w_k = V_n e_n puisque la suite géométrique de raison x j/x nx_j/x_n converge vers 0. Autrement dit, si V n0V_n\neq 0 (ce qui a une probabilité 1 d’être vrai pour un vecteur aléatoire), v kv_k est équivalent à V nx n ke nV_n x_n^k e_n. Lorsque nn est grand, v kv_k est presque colinéaire au vecteur propre e ne_n (que l’on peut estimer par v kv_k divisé par sa norme), ce que l’on détecte en testant si v k+1v_{k+1} et v kv_k sont presques colinéaires. De plus le facteur de colinéarité entre v k+1v_{k+1} et v kv_k est presque x nx_n, la valeur propre de module maximal.

En pratique, pour éviter des débordements d’exposant des coordonnées des v kv_k on normalise v kv_k à chaque étape, on pose donc w k+1=Av k,v k+1=w k+1/w k+1w_{k+1}=Av_k, v_{k+1}=w_{k+1}/\|w_{k+1}\| et on estime x nx_n en calculant λ k=(w k|v k)\lambda_k=(w_k|v_k).

Lorsque la matrice AA est symétrique réelle ou hermitienne complexe, on peut utiliser comme test d’arrêt w kλ kv kε\| w_k-\lambda_k v_k\| \leq \varepsilon . En effet, AA est alors diagonalisable dans une base orthonormale, on écrit la relation (Aλ k)v kε\| (A-\lambda_k)v_k \| \leq \varepsilon dans cette base et on obtient qu’il existe une valeur propre de AA à distance inférieure ou égale à ε\varepsilon de la valeur propre estimée λ k\lambda_k. Ce résultat n’est malheureusement plus vrai si AA est quelconque, car deux vecteurs propres peuvent faire un angle très petit. Par exemple la matrice A=(1 0 1ε 1)A=\left(\begin{array}{cc} -1 & 0\\ -\frac{1}{\epsilon}& 1 \end{array}\right) a pour valeurs propres 1-1 et 11 mais A(ε 1)=(ε 0)A\left(\begin{array}{c}\epsilon \\ 1\end{array}\right)= \left(\begin{array}{c}-\epsilon \\ 0\end{array}\right) donc 0 semble être une valeur propre approchée. Il vaut alors mieux tester l’écart entre deux estimations consécutives de la valeur propre, en effet au premier ordre λ kx n jβ j(x jx n) k\lambda_k-x_n \approx \sum_j \beta_j \left( \frac{x_j}{x_n}\right)^k où la somme porte sur les indices jj des valeurs propres de module sous-dominant. En général cette somme se réduit au seul indice j=n1j=n-1, et λ k+1λ k\lambda_{k+1}-\lambda_k se comporte comme une suite géométrique (de raison x j/x nx_j/x_n), on peut alors estimer l’erreur par |λ kx n|ε,ε k+|λ k+1λ k|1|λ k+2λ k+1λ k+1λ k||\lambda_k-x_n| \leq \epsilon, \quad \epsilon \approx_{k \rightarrow +\infty} \frac{|\lambda_{k+1}-\lambda_k|} {1-|\frac{\lambda_{k+2}-\lambda_{k+1}}{\lambda_{k+1}-\lambda_k}|} Mais cette estimation n’est plus correcte s’il y a plusieurs indices jj sous-dominants (cas par exemple d’une paire de valeurs propres conjuguées pour une matrice réelle). On peut dans ce cas utiliser une estimation en calculant la suite des itérées de la matrice transconjuguée z k=A *z k1z_k=A^*z_{k-1} x kλ kz k|(Aλ k)v kz k|v kx_k-\lambda_k \approx \frac{\langle z_k | (A-\lambda_k) v_k\rangle} {\langle z_k | v_k \rangle} En effet, les vecteurs propres e je_j de A *A^* sont orthogonaux aux vecteurs propres f j˜f_{\tilde{j}} de AA correspondant à des valeurs propres distinctes. Comme v k=e n+O(ε),z k=f n+O(ε),ε=(x n1/x n) kv_k=e_n+ O(\epsilon), \quad z_k=f_n+O(\epsilon), \quad \epsilon=(x_{n-1}/x_n)^k on en tire à cause de l’orthogonalité des O(ε)O(\epsilon) avec respectivement f nf_n et e ne_n: z k|v k=f n|e n+O(ε 2),z k|(Aλ k)v k=(x kλ k)f n|e n+O(ε 2)\langle z_k | v_k \rangle = \langle f_n|e_n \rangle + O(\epsilon^2), \quad \langle z_k | (A-\lambda_k) v_k \rangle = (x_k-\lambda_k)\langle f_n|e_n \rangle + O(\epsilon^2) On observe que le calcul des z kz_k est de toutes façons nécessaire si on veut éliminer la valeur propre. Exemple ;
















Exercice : tester la convergence de v k=A kvv_k=A^kv vers l’espace propre associé à λ=3\lambda=3 pour la matrice [[1,-1],[2,4]] et le vecteur v=(1,0)v=(1,0). Attention à ne pas calculer A kA^k pour déterminer v kv_k, utiliser la relation de récurrence!

Si on n’observe pas de convergence ou si elle est trop lente, alors |x n1||x_{n-1}| est proche de |x n||x_n| ou égal, il est judicieux de faire subir à la matrice un shift, on remplace AA par AλIA-\lambda I. On peut prendre λ\lambda aléatoirement, ou bien mieux faire des itérations inverses sur AλIA-\lambda I si λ\lambda est une estimation d’une valeur propre (voir les itérations inverses ci-dessous).

Lorsqu’on applique cette méthode a une matrice réelle, il peut arriver quíl y ait deux valeurs propres conjuguées de module maximal. On peut appliquer la méthode ci-dessus avec un shift complexe non réel, mais on doit alors travailler en arithmétique complexe ce qui est plus couteux. Le même type de raisonnement que ci-dessus montre que pour kk grand, v k+2v_{k+2} est presque colinéaire à l’espace engendré par v kv_k et v k+1v_{k+1}, la recherche d’une relation av k+2+bv k+1+v k=0 av_{k+2}+ b v_{k+1} + v_k=0 permet alors de calculer les valeurs propres qui sont les deux racines de ax 2+bx+1=0ax^2+bx+1=0.

La convergence est de type série géométrique, on gagne le même nombre de décimales à chaque itération.

Applications :

Ceci peut par exemple servir à déterminer pour un polynôme PP donné squarefree (de degré nn et coefficient dominant p np_n) l’écart minimal entre 2 racines, on calcule
R:=normal(resultant(P,subst(P,x=x+y),x)/x^degree(P))
c’est un polynôme bicarré dont on cherche la plus petite racine en calculant le carré de la plus grande racine en module de numer(subst(R,y=1/sqrt(x))).

On peut obtenir un minorant à priori de cette plus petit racine en calculant resultant(P,P)=±p n 2n1 1i<jn(r ir j) 2 \mbox{resultant}(P,P')= \pm p_n^{2n-1} \prod_{1 \leq i &lt; j \leq n} (r_i-r_j)^2 on isole l’écart minimal au carré, on majore les autres carrés en majorant les racines, et on peut minorer le résultant à priori par 1 si PP est à coefficients entiers.

22.10.2  Itérations inverses

La méthode précédente permet de calculer la valeur propre de module maximal d’une matrice. Pour trouver une valeur propre proche d’une quantité donnée xx, on peut appliquer la méthode précédente à la matrice (AxI) 1(A-xI)^{-1} (en pratique on effectue LULU sur AxIA-xI et on résoud (AxI)u n+1=u n(A-xI)u_{n+1}=u_n). En effet, les valeurs propres de cette matrice sont les (x ix) 1(x_i-x)^{-1} dont la norme est maximale lorsqu’on se rapproche de x ix_i. Attention à ne pas prendre xx trop proche d’une valeur propre, car le calcul de (AxI)u n+1=u n(A-xI)u_{n+1}=u_n est alors peu précis (la matrice étant mal conditionnée).

22.10.3  Elimination des valeurs propres trouvées

Si la matrice AA est symétrique, et si e ne_n est un vecteur propre normé écrit en colonne, on peut considérer la matrice B=Ax ne ne n tB=A-x_n e_n e_n^t qui possède les mêmes valeurs propres et mêmes vecteurs propres que AA avec même multiplicité, sauf x nx_n qui est remplacé par 0. En effet les espaces propres de AA sont orthogonaux entre eux, donc Be n=x ne nx ne ne n te n=0,Be k=x ke kx ne ne n te k=x ke k Be_n=x_ne_n -x_n e_n e_n^t e_n = 0, Be_k = x_k e_k - x_n e_n e_n^t e_k = x_k e_k On peut donc calculer la 2ème valeur propre (en valeur absolue), l’éliminer et ainsi de suite.

Si la matrice AA n’est pas symétrique, il faut considérer B=Ax ne nf n te n|f nB =A-x_n \frac{e_n f_n^t} {\langle e_n|f_n\rangle} f nf_n est vecteur propre de A tA^t associé à x nx_n. En effet f k|e j=0\langle f_k | e_j \rangle =0 si iji \neq j car Ae k|f j=x ke k|f j=e k|A tf j=x je k|f j\langle Ae_k | f_j \rangle =\langle x_ke_k | f_j \rangle =\langle e_k | A^tf_j\rangle =\langle x_je_k|f_j \rangle donc pour tout kk on a f k|e k0\langle f_k | e_k \rangle \neq 0 (sinon e ke_k serait dans l’orthogonal de n=\mathbb{R}^n=Vect(f 1,...,f n)(f_1,...,f_n).

22.10.4  Décomposition de Schur

Il s’agit d’une factorisation de matrice sous la forme A=PSP 1 A = P S P^{-1} PP est unitaire et SS diagonale supérieure. Existence (théorique) : on prend une valeur propre et un vecteur propre correspondant, puis on projette sur l’orthogonal de ce vecteur propre et on s’y restreint, on prend à nouveau une valeur propre et un vecteur propre correspondant, etc.

On peut approcher cette factorisation par un algorithme itératif qui utilise la factorisation QRQR d’une matrice quelconque comme produit d’une matrice unitaire par une matrice triangulaire supérieure à coefficients positifs sur la diagonale. On fait l’hypothèse que les valeurs propres de SS sur la diagonale sont classées par ordre de module strictement décroissant |λ 1|>|λ 2|>...>|λ n||\lambda_1|&gt;|\lambda_2|&gt;...&gt;|\lambda_n| (développement inspiré par Peter J. Olver dans le cas symétrique http://www.math.umn.edu/~olver/aims_/qr.pdf). On peut toujours s’y ramener quitte à remplacer AA par AαIA- \alpha I. Posons A 1=AA_1=A, et par récurrence A n=Q nR nA_n=Q_nR_n (avec Q nQ_n unitaire et RR triangulaire supérieure à coefficients diagonaux positifs), A n+1=R nQ nA_{n+1}=R_nQ_n. On a alors A k = (Q 1R 1)(Q 1R 1)(Q 1R 1)...(Q 1R 1)(Q 1R 1) = Q 1(R 1Q 1)(R 1Q 1)(R 1...Q 1)(R 1Q 1)R 1 = Q 1(Q 2R 2)(Q 2R 2)..(Q 2R 2)R 1 = Q 1Q 2(R 2Q 2)R 2..Q 2R 2R 1 = Q 1Q 2(Q 3R 3)...Q 3R 3R 2R 1 = Q 1...Q kR k...R 1 \begin{matrix} A^k & = & (Q_1 R_1) (Q_1 R_1) (Q_1 R_1) ... (Q_1 R_1) (Q_1 R_1) \\ & = & Q_1 (R_1 Q_1) (R_1 Q_1) (R_1 ... Q_1) (R_1 Q_1) R_1 \\ & = & Q_1 (Q_2 R_2) (Q_2 R_2) .. (Q_2 R_2) R_1 \\ & = & Q_1 Q_2 (R_2 Q_2) R_2 .. Q_2 R_2 R_1 \\ & = & Q_1 Q_2 (Q_3 R_3) ... Q_3 R_3 R_2 R_1 \\ & = & Q_1 ... Q_k R_k ...R_1 \end{matrix} D’autre part A=PSP 1A=PSP^{-1} donc A k=PS kP 1A^k = P S^k P^{-1}. Soit DD la forme diagonale de SS et UU la matrice de passage S=UDU 1S=UDU^{-1}, où UU est triangulaire supérieure et où on choisit la normalisation des coefficients sur la diagonale de UU valant 1. On a donc A k=PUD kU 1P 1 A^k = P U D^{k} U^{-1} P^{-1} Ensuite, on suppose qu’on peut factoriser U 1P 1=LU˜U^{-1}P^{-1}=L\tilde{U} sans permutations, donc qu’on ne rencontre pas de pivot nul, et quitte à multiplier les vecteurs unitaires de P 1P^{-1} par une constante complexe de module 1 on peut supposer que les pivots sont positifs donc que U˜\tilde{U} a des coefficients positifs sur la diagonale, on a alors A k=PUD kLU˜=Q 1...Q kR k...R 1 A^k = P U D^k L \tilde{U} = Q_1 ... Q_k R_k ...R_1 puis en multipliant par U˜ 1|D| k\tilde{U}^{-1} |D|^{-k} PUD kL|D| k=Q 1...Q kR k...R 1U˜ 1|D| k P U D^k L |D|^{-k} = Q_1 ... Q_k R_k ...R_1 \tilde{U}^{-1} |D|^{-k} R k...R 1U˜ 1|D| kR_k ...R_1 \tilde{U}^{-1} |D|^{-k} est triangulaire supérieure à coefficients positifs sur la diagonale et Q 1...Q kQ_1 ... Q_k est unitaire. On regarde ensuite les entrées de la matrice D kL|D| kD^k L |D|^{-k}, sous la diagonale elles convergent (géométriquement) vers 0, donc UD kL|D| kUD^k L |D|^{-k} tend vers une matrice triangulaire supérieure dont les coefficients diagonaux valent e ikarg(λ j)e^{i k\arg(\lambda_j)}. On montre que cela entraine que Q 1...Q kQ_1 ... Q_k est équivalent à P(D/|D|) kP(D/|D|)^k Q 1...Q kP(D/|D|) k,R k...R 1U˜ 1|D| k(D/|D|) kUD kL|D| k Q_1 ... Q_k \approx P (D/|D|)^{k}, \quad R_k ...R_1 \tilde{U}^{-1} |D|^{-k} \approx (D/|D|)^{-k} UD^k L |D|^{-k} Donc, Q kQ_k tend à devenir diagonale, et R kQ k=A k+1R_k Q_k=A_{k+1} triangulaire supérieure. De plus A=Q 1A 2Q 1 1=...=Q 1...Q kA k+1(Q 1...Q k) 1 A=Q_1 A_2 Q_1^{-1} = ... = Q_1 ... Q_k A_{k+1} (Q_1 ... Q_k)^{-1} la matrice A k+1A_{k+1} est donc semblable à AA.

En pratique, on n’impose pas la positivité des coefficients diagonaux de RR dans la factorisation QRQR, ce qui ne change évidemment pas le fait que Q kQ_k s’approche d’une matrice diagonale et A kA_k d’une matrice triangulaire supérieure (avec convergence à vitesse géométrique). On commence aussi par mettre la matrice AA sous forme de Hessenberg (par conjugaison par des matrices de Householder), c’est-à-dire presque triangulaire supérieure (on autorise des coefficients non nuls dans la partie inférieure seulement sur la sous-diagonale, a ij=0a_{ij}=0 si i>j+1i&gt;j+1). Cela réduit considérablement le temps de calcul de la décomposition QRQR, le produit RQRQ ayant encore cette propriété, une itération se fait en temps O(n 2)O(n^2) au lieu de O(n 3)O(n^3). Le calcul de RQRQ à partir de AA est d’ailleurs fait directement, on parle d’itération QRQR implicite.

On utilise aussi des “shifts” pour accélerer la convergence, c’est-à-dire qu’au lieu de faire QRQR et RQRQ sur la matrice A kA_k on le fait sur A kα kIA_k - \alpha_k Iλ k\lambda_k est choisi pour accélerer la convergence vers 0 du coefficient d’indice ligne nn colonne n1n-1 (idéalement il faut prendre α k\alpha_k proche de λ n\lambda_n la valeur propre de module minimal, afin de minimiser |λ nα k|/|λ n1α k||\lambda_n-\alpha_k|/|\lambda_{n-1}-\alpha_k|). En effet, si A kλ kI=Q kR kA_k - \lambda_k I = Q_k R_k et A k+1=R kQ k+λ kIA_{k+1}=R_kQ_k+\lambda_k I alors : (Aα 1I)...(Aα kI) = Q 1R 1(Q 1R 1(α 2α 1)I)...(Q 1R 1(α kα 1)I) = Q 1(R 1Q 1(α 2α 1)I)R 1(Q 1R 1(α 3α 1)I)...(Q 1R 1(α kα 1)I) = Q 1(A 2α 1I(α 2α 1)I)R 1Q 1(R 1Q 1(α 3α 1)I)R 1...(Q 1R 1(α kα 1)I) = Q 1(A 2α 2I)(A 2α 3I)...(A 2α kI)R 1 = ... = Q 1...Q kR k...R 1 \begin{matrix} (A-\alpha_1 I) ... (A-\alpha_k I) &= & Q_1R_1(Q_1R_1-(\alpha_2-\alpha_1)I) ...(Q_1R_1-(\alpha_k-\alpha_1)I) \\ &=& Q_1 (R_1Q_1 - (\alpha_2-\alpha_1)I)R_1 (Q_1R_1-(\alpha_3-\alpha_1)I) ...(Q_1R_1-(\alpha_k-\alpha_1)I) \\ &=& Q_1 (A_2 - \alpha_1 I -(\alpha_2-\alpha_1)I) R_1 Q_1(R_1Q_1-(\alpha_3-\alpha_1)I) R_1...(Q_1R_1-(\alpha_k-\alpha_1)I) \\ &=& Q_1 (A_2 - \alpha_2 I) (A_2 - \alpha_3 I) ... (A_2 - \alpha_{k}I) R_1 \\ &=& ... \\&=&Q_1 ... Q_k R_k ...R_1 \end{matrix} On peut aussi éliminer la dernière ligne et la dernière colonne de la matrice pour accélerer les calculs dès que le coefficient en ligne nn colonne n1n-1 est suffisamment petit.

On remarque que pour une matrice réelle si on choisit des shifts conjugués, alors Q 1...Q kR k...R 1Q_1...Q_k R_k...R_1 est réel. Or si QR=Q¯R¯QR=\overline{Q}\overline{R} et si RR est inversible Q¯ 1Q=R¯R 1 \overline{Q}^{-1} Q = \overline{R} R^{-1} On a donc une matrice symétrique (car Q¯ 1=Q t\overline{Q}^{-1}=Q^t) et triangulaire supérieure. On en déduit que Q¯ 1Q=D\overline{Q}^{-1} Q=D est diagonale, donc Q=Q¯DQ=\overline{Q} D. On peut donc rendre QQ réelle en divisant chaque colonne par un e iθe^{i\theta}, et rendre RR réelle en conjuguant par la matrice DD. Mais ce procédé de retour au réel après élimination de 2 valeurs propres complexes conjuguées d’une matrice réelle se heurte à un problème de conditionnement parce que le choix d’un shift intéressant pour la convergence va rendre la matrice RR proche d’une matrice non inversible (les deux derniers coefficients diagonaux de RR sont proches de 0). On a alors seulement Q¯ 1QR=R¯ \overline{Q}^{-1} Q R = \overline{R} Si on décompose Q¯ 1Q\overline{Q}^{-1} Q, RR, R¯\overline{R} par blocs n2,n2n-2,n-2, n2,2n-2,2, 2,n22,n-2 et 2,22,2, on a (QQ 11 QQ 12 QQ 21 QQ 22)(R 11 R 12 0 R 22) = (QQ 11R 11 QQ 21R 11 QQ 11R 12+QQ 12R 22 QQ 21R 12+QQ 22R 22) = (R¯ 11 R¯ 12 0 R¯ 22) \begin{matrix} \left(\begin{array}{cc} QQ_{11} & QQ_{12} \\ QQ_{21} & QQ_{22} \end{array} \right) \left(\begin{array}{cc} R_{11} & R_{12} \\ 0 & R_{22} \end{array} \right) &=& \left(\begin{array}{cc} QQ_{11} R_{11} & QQ_{21}R_{11} \\ QQ_{11} R_{12} + QQ_{12} R_{22} & QQ_{21} R_{12} + QQ_{22} R_{22} \end{array} \right) \\ &=& \left(\begin{array}{cc} \overline{R}_{11} & \overline{R}_{12} \\ 0 & \overline{R}_{22} \end{array} \right) \end{matrix} Donc on a QQ 11=R¯ 11R 11 1QQ_{11} =\overline{R}_{11} R_{11}^{-1}. Comme QQ est unitaire, QQ=Q¯ 1Q=Q tQQQ=\overline{Q}^{-1} Q=Q^t \, Q est symétrique, donc QQ 11QQ_{11} est diagonale puisque symétrique et triangulaire supérieure. On peut donc ramener Q 11Q_{11} et R 11R_{11} en des matrices réelles. L’algorihtme des itérations QRQR implicites traite de manière efficace le cas des couples de valeurs propres complexes conjuguées ou plus généralement de clusters de valeurs propres, c’est l’algorithme de Francis (aussi appelé bulge chasing en anglais, qu’on pourrait traduire par “à la poursuite du bourrelet”, cela vient de la forme que prend la matrice après application d’un shift, elle a des entrées non nulles en première colonne plus bas que la sous-diagonale qui forment un bourrelet non nul, l’annulation de ces entrées par des transformations de Householder déplace le bourrelet sur la colonne suivante).

Revenons à la localisation des valeurs propres On suppose qu’on a maintenant une matrice unitaire PP et une matrice triangulaire supérieure SS (aux erreurs d’arrondi près) telles que P 1AP=S P^{-1} A P = S Que peut-on en déduire ? 2 On va d’abord arrondir PP en une matrice exacte à coefficients rationnels, dont les dénominateurs sont une puissance de 2 (en fait c’est exactement ce que donne l’écriture d’un flottant en base 2, une fois ramené tous les exposants à la même valeur). On a donc une matrice P eP_e presque unitaire exacte et telle que S e=P e 1AP e S_e = P_e^{-1} A P_e est semblable à AA, et presque triangulaire supérieure. (comme P eP_e est presque unitaire, sa norme et la norme de son inverse sont proches de 1 donc S eS_e est proche de SS, les coefficients de S eS_e sont de la même taille que les coefficients de AA : le changement de base est bien conditionné et c’est la raison pour laquelle on a choisi d’effectuer des transformations unitaires).

Notons μ 1,...,μ n\mu_1, ..., \mu_n les coefficients diagonaux de S eS_e, soit ε\varepsilon un majorant de la norme des coefficients sous-diagonaux de S eS_e, et soit δ\delta un minorant de l’écart entre 2 μ j\mu_j distincts. On a donc S e=U+ES_e=U+EUU est triangulaire supérieure, EE est triangulaire inférieure avec des 0 sous la diagonale et des coefficients de module majorés par ε\varepsilon. Si ε\varepsilon est suffisamment petit devant δ\delta, on va montrer qu’on peut localiser les valeurs propres de S eS_e (qui sont celles de AA) au moyen des μ j\mu_j.

En effet, fixons jj et soit CC un cercle de centre μ=μ j\mu=\mu_j et de rayon αδ/2\alpha \leq \delta/2. Si AA est une matrice diagonalisable, on sait que nombre de valeurs propresC=12iπtrace C(AzI) 1 \mbox{nombre de valeurs propres} \in C = \frac{1}{2i\pi} \mbox{trace} \int_C (A-zI)^{-1} En prenant A=S eA=S_e, et en écrivant (S ezI) 1=(UzI+E) 1=(I+(UzI) 1E) 1(UzI) 1 (S_e-zI)^{-1} = (U-zI+E)^{-1} = ( I + (U-zI)^{-1}E)^{-1}(U-zI)^{-1} on développe le second terme si la norme de (UzI) 1E(U-zI)^{-1}E est strictement inférieure à 1 (S ezI) 1=(UzI) 1(UzI) 1E(UzI) 1+(UzI) 1E(UzI) 1E(UzI) 1+... (S_e-zI)^{-1} = (U-zI)^{-1} -(U-zI)^{-1}E(U-zI)^{-1} + (U-zI)^{-1}E(U-zI)^{-1}E(U-zI)^{-1} + ... puis on calcule la trace trace(S ezI) 1= j(μ jz) 1+η \mbox{trace}(S_e-zI)^{-1} = \sum_j (\mu_j-z)^{-1} + \eta avec |η|2πα||(UzI) 1||||(UzI) 1E||1||(UzI) 1E|| |\eta| \leq 2\pi \alpha || (U-zI)^{-1} || \frac{|| (U-zI)^{-1}E ||}{1-|| (U-zI)^{-1}E ||} Au final, le nombre de valeurs propres dans CC est donné par 1+η˜,|η˜|αmax zC||(UzI) 1||||(UzI) 1E||1||(UzI) 1E|| 1 + \tilde{\eta}, \quad |\tilde{\eta}| \leq \alpha \mbox{max}_{z \in C} || (U-zI)^{-1} || \frac{|| (U-zI)^{-1}E ||}{1-|| (U-zI)^{-1}E ||} Il suffit donc que le max soit plus petit que 1 pour avoir l’existence d’une valeur propre et une seule de S eS_e dans le cercle CC (à distance au plus α\alpha de μ\mu). Ce sera le cas si ε12(δ2||S e||) n1αn1 \varepsilon \leq \frac{1}{2} \left( \frac{\delta}{2 ||S_e||} \right)^{n-1} \frac{\alpha}{\sqrt{n-1}} on choisit donc α\alpha pour réaliser l’égalité ci-dessus, sous réserve que δ\delta ne soit pas trop petit, rappelons que α\alpha doit être plus petit ou égal à δ/2\delta/2. Si δ\delta est petit, il peut être nécessaire d’utiliser une précision plus grande pour les calculs de la décomposition de Schur en arithmétique flottante.

Typiquement, on peut espérer (pour un écart δ\delta pas trop petit) pouvoir localiser les racines d’un polynôme de degré nn par cette méthode avec précision bb bits en O(n 3b 2+n 2b 3)O(n^3 b^2 + n^2 b^3) opérations pour le calcul de la décomposition de Schur en flottant (n 3b 2n^3b^2 pour Hessenberg initial puis n 2b 2n^2b^2 par itération et un nombre d’itérations proportionnel à bb). Pour le calcul exact de S eS_e, il faut inverser une matrice de taille nn avec des coefficients de taille proportionnelle à bb donc O(n 4bln(n))O(n^4b\ln(n)) opérations (en modulaire, la taille des coefficients de l’inverse est O(nbln(n))O(nb \ln(n))) puis calculer un produit avec une matrice n,nn,n de coefficients de taille proportionnelle à bb, soit O(n 4b 2ln(nb))O(n^4b^2\ln(nb)) opérations. Asymptotiquement, on peut faire mieux avec des méthodes de multiplication et d’opérations matricielles par blocs. Pour éviter la perte d’un facteur nn, on peut aussi ne pas faire de calculs en mode exact et controler les erreurs sur la matrice SS. On peut regrouper les valeurs propres par “clusters” si elles sont trop proches à la précision de bb bits. Pour la recherche des racines d’un polynôme PP, on peut montrer, en calculant le résultant de PP et de PP' qui est en module plus grand ou égal à 1, et en l’écrivant comme produit des carrés de différences des racines, et en majorant toutes les différences de racine sauf une à l’aide de la norme infinie de PP, qu’il faut au pire b=O(n)b=O(n) bits pour séparer les racines).

22.11  Factorisations de matrices

Un petit résumé des diverses factorisations

22.12  Quelques références

22.13  Exercices (algèbre linéaire)

22.13.1  Instructions

22.13.2  Exercices

  1. Écrire un programme calculant l’inverse d’une matrice en utilisant sa décomposition LULU. Tester avec une matrice à coefficients dans /p\mathbb{Z}/p\mathbb{Z} puis dans un corps fini non premier. Que se passe-t-il sur \mathbb{Q} ?
  2. En utilisant un logiciel de calcul formel, comparez le temps de calcul d’un déterminant de matrice aléatoire de tailles 50, 100 et 200 à coefficients dans un corps fini, puis dans les entiers.
    Même question pour une matrice de taille 20, 40 et 80 dans des polynômes de degré 2 à 1 variables sur un corps fini premier.
    Même question pour une matrice de taille 6 et 12 avec comme coefficients symboliques ligne jj colonne kk, x j+kx_{j+k} lorsque j+kj+k est pair et 0 sinon. Peut-on en déduire une indication sur l’algorithme utilisé ?
  3. Écrire un programme calculant la borne de Hadamard d’un déterminant à coefficients réels (rappel : c’est la borne obtenue en faisant le produit des normes euclidiennes des vecteurs colonnes).
    Créez une matrice 4x4 aléatoire avec des coefficients entiers compris entre -100 et 100, calculer la borne de Hadamard de son déterminant avec le programme précédent, calculer ce déterminant modulo quelques nombres premiers choisis en fonction de la borne de Hadamard et vérifiez le résultat de la reconstruction modulaire du déterminant.
  4. Créez une matrice 100x100 aléatoire à coefficients entiers et calculez son déterminant modulo quelques nombres premiers. Dans quels cas peut-on conclure que la matrice est inversible dans \mathbb{R}? dans \mathbb{Z}?
  5. Écrire un programme calculant par interpolation de Lagrange (interp) le polynôme caractéristique d’une matrice (en donnant à λ\lambda de det(λIA)\det(\lambda I -A), n+1n+1 valeurs distinctes).
  6. Recherche du polynôme minimal (Krylov). On prend un vecteur aléatoire à coefficients entiers et on calcule vv, AvAv, ..., A nvA^nv puis on cherche une relation linéaire minimale entre ces vecteurs, en calculant le noyau de la matrice ayant ces vecteurs colonnes. Si le noyau est de dimension 1, alors le polynôme minimal est égal au polynome caractéristique et correspond à un vecteur de la base du noyau. Sinon, il faut choisir un vecteur du noyau correspondant au degré le plus petit possible puis faire le PPCM avec les polynomes obtenus avec d’autres vecteurs pour obtenir le polynôme minimal avec une grande probabilité. Essayez avec la matrice AA de taille 3 ayant des 0 sur la diagonale et des 1 ailleurs. Écrire un programme mettant en oeuvre cette recherche, testez-le avec une matrice aléatoire de taille 30.
  7. (Long) Écrire un programme qui calcule un déterminant de matrice en calculant les mineurs 2x2 puis 3x3 etc. (méthode de Laplace)
  8. Testez l’algorithme méthode de Fadeev pour la matrice AA ci-dessus. Même question pour A=(3 1 1 2 0 1 1 1 2),A=(3 2 2 1 0 1 1 1 0) A=\left(\begin{array}{ccc} 3 & -1 & 1 \\ 2 &0 &1 \\ 1 & -1 & 2 \end{array}\right), \quad A=\left(\begin{array}{ccc} 3 & 2 & -2 \\ -1 &0 &1 \\ 1 & 1 & 0 \end{array}\right)
  9. Écrire un programme calculant par une méthode itérative la valeur propre de module maximal d’une matrice à coefficients complexes. Dans le cas réel, modifier le programme pour pouvoir traiter le cas d’un couple de complexes conjugués de module maximal. Dans le cas hermitien ou réel symétrique, éliminer le couple valeur propre/vecteur propre et continuer la diagonalisation numérique.
  10. Soient |a|,|b|<n/2|a|,|b|&lt;\sqrt{n/2} Écrire une fonction ayant comme arguments a/b(modn)a/b \pmod n qui calcule aa et bb.
    Utiliser ce programme pour résoudre un système 4,4 à coefficients entiers par une méthode pp-adique.

1
On le montre en observant que les valeurs propres de AA *AA^* sont identiques à celles de A *AA^*A, car si vv est vecteur propre de A *AA^*A alors AvAv est vecteur propre de AA *AA^*
2
Si AA est la matrice companion d’un polynôme, une autre approche consiste à rechercher un rectangle du plan complexe stable par itérée de la méthode de Newton ou à calculer les disques de centre les coefficients diagonaux et de rayon le degré du polynôme divisé par un minorant de la dérivée du polynôme par la valeur du polynôme

Chapitre 23  Approximation polynomiale

On présente dans cette section quelques méthodes d’approximation de fonctions par des polynômes sur un intervalle, la section suivante présente des méthodes d’approximation près d’un point ou de l’infini.

23.1  Polynôme de Lagrange

Étant donné la facilité de manipulation qu’apportent les polynomes, on peut chercher à approcher une fonction par un polynôme. La méthode la plus naturelle consiste à chercher un polynôme de degré le plus petit possible égal à la fonction en certains points x 0,...,x nx_0,...,x_n et à trouver une majoration de la différence entre la fonction et le polynôme. Le polynome interpolateur de Lagrange répond à cette question.

23.1.1  Existence et unicité

Soit donc x 0,...,x nx_0,...,x_n des réels distincts et y 0,...,y ny_0,...,y_n les valeurs de la fonction à approcher en ces points (on posera y j=f(x j)y_j=f(x_j) pour approcher la fonction ff). On cherche donc PP tel que P(x j)=y iP(x_j)=y_i pour j[0,n]j \in [0,n].

Commencons par voir s’il y a beaucoup de solutions. Soit PP et QQ deux solutions distinctes du problème, alors PQP-Q est non nul et va s’annuler en x 0,...,x nx_0, ...,x_n donc possède n+1n+1 racines donc est de degré n+1n+1 au moins. Réciproquement, si on ajoute à PP un multiple du polynome A= j=0 n(Xx j)A=\prod_{j=0}^n (X-x_j), on obtient une autre solution. Toutes les solutions se déduisent donc d’une solution particulière en y ajoutant un polynome de degré au moins n+1n+1 multiple de AA, et on prenant le reste euclidien de la division par AA on en déduira une solution de degré au plus nn.

Nous allons maintenant construire cette solution particulière de degré au plus nn. Si n=0n=0, on prend P=x 0P=x_0 constant. On procède ensuite par récurrence. Pour construire le polynôme correspondant à x 0,...,x n+1x_0,...,x_{n+1} on part du polynoôme P nP_n correspondant à x 0,...,x nx_0,...,x_{n} et on lui ajoute un multiple réel de AA P n+1=P n+α n+1 j=0 n(Xx j) P_{n+1}=P_n+ \alpha_{n+1} \prod_{j=0}^n (X-x_j) Ainsi on a toujours P n+1(x j)=y jP_{n+1}(x_j)=y_j pour j=0,..nj=0,..n, on calcule maintenant α n+1 \alpha_{n+1} pour que P n+1(x n+1)=y n+1P_{n+1}(x_{n+1})=y_{n+1}. En remplacant avec l’expression de P n+1P_{n+1} ci-dessus, on obtient P n(x n+1)+α n+1 j=0 n(x n+1x j)=y n+1 P_n(x_{n+1})+ \alpha_{n+1} \prod_{j=0}^n (x_{n+1}-x_j) = y_{n+1} Comme tous les x jx_j sont distincts, il existe une solution unique : α n+1=y n+1P n(x n+1) j=0 n(x n+1x j) \alpha_{n+1}=\frac{y_{n+1}-P_n(x_{n+1})}{\prod_{j=0}^n (x_{n+1}-x_j)}

On a donc prouvé le :

Théorème 66   Soit n+1n+1 réels distincts x 0,...,x nx_0,...,x_n et n+1n+1 réels quelconques y 0,...,y ny_0,...,y_n. Il existe un unique polynôme PP de degré inférieur ou égal à nn, appelé polynome de Lagrange, tel que : P(x i)=y i P(x_i)=y_i

Exemple : déterminons le polynome de degré inférieur ou égal à 2 tel que P(0)=1,P(1)=2,P(2)=1P(0)=1, P(1)=2, P(2)=1. On commence par P 0=1P_0=1. Puis on pose P 1=P 0+α 1X=1+α 1XP_1=P_0+ \alpha_{1}X=1+ \alpha_{1}X. Comme P(1)=2=1+α 1P(1)=2=1+ \alpha_{1} on en tire α 1=1 \alpha_{1}=1 donc P 1=1+XP_1=1+X. Puis on pose P 2=P 1+α 2X(X1)P_2=P_1+ \alpha_{2}X(X-1), on a P 2(2)=3+2α 2=1P_2(2)=3+2 \alpha_{2}=1 donc α 2=1 \alpha_{2}=-1, finalement P 2=1+XX(X1)P_2=1+X-X(X-1).

23.1.2  Majoration de l’erreur d’interpolation.

Reste à estimer l’écart entre une fonction et son polynome interpolateur, on a le :

Théorème 67   Soit ff une fonction n+1n+1 fois dérivable sur un intervalle I=[a,b]I=[a,b] de \mathbb{R}, x 0,...,x nx_0,...,x_n des réels distincts de II. Soit PP le polynome de Lagrange donné par les x jx_j et y j=f(x j)y_j=f(x_j). Pour tout réel xIx \in I, il existe un réel ξ x[a,b]\xi_x \in [a,b] (qui dépend de xx) tel que : f(x)P(x)=f [n+1](ξ x)(n+1)! j=0 n(xx j)(50) f(x)-P(x) = \frac{f^{[n+1]}(\xi_x)}{(n+1)!} \prod_{j=0}^n(x-x_j) \qquad (50)

Ainsi l’erreur commise dépend d’une majoration de la taille de la dérivée n+1n+1-ième sur l’intervalle, mais aussi de la disposition des points x jx_j par rapport à xx. Par exemple si les points x jx_j sont équidistribués, le terme | j=0 n(xx j)||\prod_{j=0}^n(x-x_j)| sera plus grand près du bord de II qu’au centre de II.

Preuve du théorème : Si xx est l’un des x jx_j l’égalité est vraie. Soit C=(f(x)P(x))/ j=0 n(xx j) C=(f(x)-P(x))/\prod_{j=0}^n(x-x_j) on considère maintenant la fonction : g(t)=f(t)P(t)C j=0 n(tx j) g(t)=f(t)-P(t) - C \prod_{j=0}^n(t-x_j) elle s’annule en x jx_j pour jj variant de 0 à nn ainsi qu’en xx suite au choix de la constante CC, donc gg s’annule au moins n+2n+2 fois sur l’intervalle contenant les x jx_j et xx, donc gg' s’annule au moins n+1n+1 fois sur ce même intervalle, donc gg'{'} s’annule au moins nn fois, etc. et finalement g [n+1]g^{[n+1]} s’annule une fois au moins sur cet intervalle. Or g [n+1]=f [n+1]C(n+1)! g^{[n+1]} = f^{[n+1]} - C (n+1)! car PP est de degré inférieur ou égal à nn et j=0 n(xx j)x n+1 \prod_{j=0}^n(x-x_j) - x^{n+1} est de degré inférieur ou égal à nn. Donc il existe bien un réel ξ x\xi_x dans l’intervalle contenant les x jx_j et xx tel que C=f [n+1](ξ x)(n+1)! C=\frac{f^{[n+1]}(\xi_x)}{(n+1)!}





Attention, l’erreur d’interpolation peut devenir très grande lorsqu’on utilise beaucoup de points d’interpolation.

23.1.3  Calcul efficace du polynôme de Lagrange.

Avec la méthode de calcul précédent, on remarque que le polynôme de Lagrange peut s’écrire à la Horner sous la forme : P(x) = α 0+α 1(xx 0)+...+α n(xx 0)...(xx n1) = α 0+(xx 0)(α 1+(xx 1)(α 2+...+(xx n2)(α n1+(xx n1)α n)...)) \begin{matrix} P(x) &=& \alpha_0 + \alpha_1 (x-x_0) + ... + \alpha_n (x-x_0)...(x-x_{n-1}) \\ &=& \alpha_0 + (x-x_0)( \alpha_1 + (x-x_1)(\alpha_2 + ... + (x-x_{n-2})(\alpha_{n-1}+(x-x_{n-1}) \alpha_n)...)) \end{matrix} ce qui permet de le calculer rapidement une fois les α i\alpha_i connus. On observe que α 0=f(x 0),α 1=f(x 1)f(x 0)x 1x 0 \alpha_0=f(x_0), \quad \alpha_1=\frac{f(x_1)-f(x_0)}{x_1-x_0} On va voir que les α k\alpha_k peuvent aussi se mettre sous forme d’une différence. On définit les différences divisées d’ordre nn par récurrence f[x i]=f(x i),f[x i,...,x k+i+1]=f[x i+1,...,x k+i+1]f[x i,...,x k+i]x k+i+1x i f[x_i]=f(x_i), \quad f[x_i,...,x_{k+i+1}]= \frac{f[x_{i+1},...,x_{k+i+1}]-f[x_i,...,x_{k+i}]}{x_{k+i+1}-x_i} On va montrer que α k=f[x 0,...,x k]\alpha_k=f[x_0,...,x_k]. C’est vrai au rang 0, il suffit donc de le montrer au rang k+1k+1 en l’admettant au rang kk. Pour cela on observe qu’on peut construire le polynôme d’interpolation en x 0,...,x k+1x_0,...,x_{k+1} à partir des polynômes d’interpolation P kP_k en x 0,...,x kx_0,...,x_k et Q kQ_k en x 1,...,x k+1x_1,...,x_{k+1} par la formule : P k+1(x)=(x k+1x)P k+(xx 0)Q kx k+1x 0 P_{k+1}(x)= \frac{(x_{k+1}-x)P_k + (x-x_0)Q_k}{x_{k+1}-x_0} en effet on vérifie que P k+1(x i)=f(x i)P_{k+1}(x_i)=f(x_i) pour i[1,k]i\in [1,k] car P k(x i)=f(x i)=Q k(x i)P_k(x_i)=f(x_i)=Q_k(x_i), et pour i=0i=0 et i=k+1i=k+1, on a aussi P k+1(x 0)=f(x 0)P_{k+1}(x_0)=f(x_0) et P k+1(x k+1)=f(x k+1)P_{k+1}(x_{k+1})=f(x_{k+1}). Or α k+1\alpha_{k+1} est le coefficient dominant de P k+1P_{k+1} donc c’est la différence du coefficient dominant de Q kQ_k et de P kP_k divisée par x k+1x 0x_{k+1}-x_0, c’est-à-dire la définition de f[x 0,...,x k+1]f[x_0,...,x_{k+1}] en fonction de f[x 1,...,x k+1]f[x_1,...,x_{k+1}] et f[x 0,...,x k]f[x_0,...,x_{k}].

Exemple : on reprend P(0)=1,P(1)=2,P(2)=1P(0)=1, P(1)=2, P(2)=1. On a x i f[x i] f[x i,x i+1] f[x 0,x 1,x 2] 0 1 (21)/(10)=1 1 2 (11)/(20)=1 (12)/(21)=1 2 1 \begin{array}{cccc} x_i & f[x_i] & f[x_i,x_{i+1}] & f[x_0,x_1,x_2] \\ 0 & {\bf 1} & & \\ & & (2-1)/(1-0)={\bf 1} & \\ 1 & 2 & & (-1-1)/(2-0)={\bf -1} \\ & & (1-2)/(2-1)=-1 & \\ 2 & 1 & & \\ \end{array} donc P(x)=1+(x0)(1+(x1)(1))=1+x(2x)P(x)={\bf 1}+(x-0)({\bf 1}+(x-1)({\bf -1}))=1+x(2-x).

On peut naturellement utiliser l’ordre que l’on souhaite pour les x ix_i, en observant que le coefficient dominant de PP ne dépend pas de cet ordre, on en déduit que f[x 0,...,x k]f[x_0,...,x_k] est indépendant de l’ordre des x ix_i, on peut donc à partir du tableau ci-dessus écrire PP par exemple avec l’ordre 2,1,0, sous la forme P(x)=1+(x2)(1+(x1)(1))=1+(x2)(x) P(x)=1+(x-2)(-1+(x-1)(-1))=1+(x-2)(-x)

Le nombre d’opérations nécessaires pour faire ce calcul est proportionnel à n 2n^2.

La commande Xcas interp ou son synonyme lagrange effectue ce calcul. Pour avoir les différences divisées, on peut appeler interp en ajoutant en dernier paramètre lagrange


ou créer le programme suivant :

dd(X,Y):={ // Algorithme des différences divisées
  local k,l,n,A,old,cur;
  si size(X)!=size(Y) alors return "erreur" fsi;
  n:=size(X)-1;
  A:=[Y[0]];
  old:=Y;
  pour k de 1 jusque n faire
    // calcul de cur en fonction de old
    cur:=[];
    pour l de 0 jusque n-k faire
      cur[l]:=(old[l+1]-old[l])/(X[l+k]-X[l])
    fpour;
    A[k]:=cur[0];
    old:=cur;
  fpour;
  retourne A;
}:;



(N.B. pour rendre ce programme optimal, il faudrait utiliser l’affectation en place =< au lieu de :=).

L’évaluation d’un polynôme d’interpolation à partir des différences divisées se fait en O(n)O(n) opérations par un algorithme à la Horner qui consiste à évaluer de l’intérieur vers l’extérieur la forme semi-factorisée du polynôme en fonction des différences divisées et des points d’interpolation. Cet algorithme est implémenté par la commande horner de Xcas, on lui passe les deux listes qui représentent le polynôme :

23.1.4  Erreur d’interpolation et différences divisées

On peut exprimer l’erreur d’interpolation avec les différences divisées. Si P nP_n est le polynôme d’interpolation de ff en x 0,...,x nx_0,...,x_n alors P n(t)=f[x 0]+(tx 0)f[x 0,x 1]+...+(tx 0)..(tx n1)f[x 0,..,x n]P_n(t)=f[x_0]+ (t-x_0)f[x_0,x_1]+...+(t-x_0)..(t-x_{n-1})f[x_0,..,x_n] en ajoutant xx comme point d’interpolation on obtient un polynôme P n+1(t)P_{n+1}(t) qui coincide avec ff en t=xt=x donc f(x)=f[x 0]+(xx 0)f[x 0,x 1]+...+(xx 0)..(xx n)f[x 0,..,x n,x](51) f(x)=f[x_0]+ (x-x_0)f[x_0,x_1]+...+(x-x_0)..(x-x_{n})f[x_0,..,x_n,x] \qquad (51) et en faisant la différence P n(x)f(x)=(xx 0)..(xx n)f[x 0,..,x n,x](52) P_n(x)-f(x)=(x-x_0)..(x-x_{n})f[x_0,..,x_n,x] \qquad (52) On en déduit aussi que f[x 0,...,x n,x]=f [n+1](ξ x)/(n+1)!f[x_0,...,x_n,x]=f^{[n+1]}(\xi_x)/(n+1)!.

Le même calcul fait avec un point de plus (x n+1x_{n+1}) donne f(x)=f[x 0]+f[x 0,x 1](xx 0)+...+f[x 0,...,x n,x n+1](xx 0)...(xx n1)(xx n)+f[x 0,...,x n,x n+1,x](xx 0)...(xx n1)(xx n)(xx n+1)f(x)=f[x_0]+f[x_0,x_1](x-x_0)+...+f[x_0,...,x_n,x_{n+1}](x-x_0)...(x-x_{n-1})(x-x_n) + f[x_0,...,x_n,x_{n+1},x](x-x_0)...(x-x_{n-1})(x-x_n)(x-x_{n+1}) On a donc montré la formule : f[x 0,...,x n,x]=f[x 0,...,x n,x n+1]+f[x 0,...,x n,x n+1,x](xx n+1)(53) f[x_0,...,x_n,x]=f[x_0,...,x_n,x_{n+1}]+f[x_0,...,x_n,x_{n+1},x](x-x_{n+1}) \qquad (53)

23.1.5  Sensibilité aux erreurs sur les données.

Si les y jy_j sont connus avec une certaine erreur, alors le polynôme d’interpolation est connu de manière approchée. Plus précisément, si on note π j(x)= kjxx kx jx k\pi_j(x)=\prod_{k \neq j} \frac{x-x_k}{x_j-x_k} le jj-ième polynome de Lagrange valant 1 en x jx_j et 0 ailleurs, l’erreur vaut : j(y˜ jy j)π j(x)\sum_j (\tilde{y}_j-y_j) \pi_j(x) Si l’erreur relative sur les y jy_j est majorée par ε\epsilon, l’erreur sur le polynôme d’interpolation est majorée par : εmax j|y j| j|π j(x)|\epsilon \, \mbox{max}_j|y_j| \sum_j |\pi_j(x)| il y a amplification de l’erreur par un facteur majoré par  max x[a,b] j=0 n|π j(x)|\mbox{max}_{x \in [a,b]} \sum_{j=0}^n |\pi_j(x)| Ce facteur s’appelle constante de Lebesgue relative à la subdivision x 0,...,x nx_0,...,x_n de [a,b][a,b]. On peut le calculer numériquement pour une subdivision équidistribuée, et montrer qu’il croit comme 2 n+1enln(n)\frac{2^{n+1}}{e n \ln(n)}, par exemple pour n=40n=40, il vaut environ 5e9. Illustration avec Xcas :


puis essayer avec n=20n=20. Pour n=40n=40, en observant que le max est atteint dans [0,1][0,1], on peut remplacer les valeurs absolues par la bonne puissance de -1

on a alors un polynôme, dont on calcule l’abscisse du maximum par

puis
qui donne environ 4.7e9.

23.2  Interpolation aux points de Tchebyshev

L’idée la plus naturelle pour interpoler un polynôme en n+1n+1 points d’un intervalle [a,b][a,b] consiste à couper en nn morceaux de même longueur. Mais ce n’est pas le plus efficace car le terme | j=0 n(xx j)||\prod_{j=0}^n(x-x_j)| est plus grand près des bords. Il est donc plus judicieux d’avoir plus de points près des bords et moins à l’intérieur. C’est là qu’interviennent les polynômes de Tchebyshev, ils sont définis par développement de cos(nx)\cos(nx) en puissances de cos(x)\cos(x) : T n(cos(x))=cos(nx)T_n(\cos(x))=\cos(nx) Sur [1,1][-1,1], le polynôme T nT_n vaut en valeur absolue au plus 1, et atteint cette valeur exactement n+1n+1 fois lorsque x=kπ/nx=k\pi/n donc X=cos(x)=cos(kπ/n)X=\cos(x)=\cos(k\pi/n).

De plus cette majoration est optimale. En effet soit UU un polynôme de degré au plus nn qui vérifie |U| <1|U|_\infty&lt;1 sur [1,1][-1,1] et tel que UU ait le même coefficient dominant que T nT_n. Alors la différence T nUT_n-U est du signe de T nT_n en X=cos(kπ/n),k[0,n]X=\cos(k\pi/n), k \in [0,n] puisqu’en ces points T nT_n est extrêmal de valeur absolue 1. Donc T nUT_n-U s’annule nn fois sur [1,1][-1,1], mais son degré est au plus n1n-1 donc T n=UT_n=U absurde.

On a donc intérêt à prendre les abscisses des points d’interpolation en les racines t nt_n de T nT_n a+b2+ab2t n,t n=cos((k+12)πn),k=0..n1\frac{a+b}{2} + \frac{a-b}{2} t_n, \quad t_n=\cos((k+\frac{1}{2})\frac\pi n), \quad k=0..n-1 On pourra observer que le phénomène de Runge qui apparait par exemple pour f(x)=1/(25x 2+1)f(x)=1/(25x^2+1) sur [1,1][-1,1] avec des points d’interpolation équidistants n’apparait plus si on prend des points de Tchebyshev.





Ceci est relié à la constante de Lebesgue qui pour des points de Tchebyshev vaut un peu moins de 4 pour n<100n&lt;100 (se comporte comme 2πln(n)\frac2\pi \ln(n) pour nn grand), on peut montrer que les polynômes de Lagrange aux points de Tchebyshev convergent uniformément vers 1/(25x 2+1)1/(25x^2+1) (c’est plus généralement vrai pour toute fonction C 1C^1 sur l’intervalle).

Remarque : ce n’est pas le polynôme de meilleure approximation, de ff (celui qui minimise la norme L L^\infty de la différence) car la dérivée n+1n+1-ième varie en général sur [a,b][a,b]. Mais il est trop difficile de le calculer en général.

Exemple de calcul explicite de constante de Lebesgue pour n=40n=40 avec Xcas

purge(x);
t(k,n):={ 
 local T; 
 T:=seq(cos(pi*(k+.5)/(n+1)),k,0,n);
 return product((x-T[j])/(T[k]-T[j]),j,0,k-1)*
  product((x-T[j])/(T[k]-T[j]),j,k+1,n);
}:;



23.3  Interpolation de Hermite

Si on fait tendre un des points d’interpolation vers un autre, la donnée de la valeur en ces 2 points serait redondante, elle est remplacée par la valeur de la dérivée. Dans le calcul des différences divisées ci-dessus on fera comme si les 2 points étaient distincts et successifs, disons x ix_i et x i+1x_{i+1}, on remplace le rapport indéterminé f(x i+1)f(x i)x i+1x i=00 \frac{f(x_{i+1})-f(x_i)}{x_{i+1}-x_i} = \frac{0}{0} par f(x i)f'(x_i). On montre qu’une fois ce changement réalisé tout le reste est identique (y compris la majoration d’erreur). On peut bien sur généraliser au cas de plusieurs paires de points identiques ou des multiplicités plus grandes faisant intervenir des dérivées d’ordre supérieures, dans ce cas la différence divisée f[x i,...,x i+m]f[x_i,...,x_{i+m}] sera remplacée par f [m](x i)/m!f^{[m]}(x_i)/m!.

23.4  Polynômes de Bernstein et courbes de Bézier

Les polynômes de Bernstein de degré mm sont les B k n(x)=(n k)x k(1x) nkB^n_k (x) = \left( \begin{array}{c} n \\ k \end{array} \right) x^k (1-x)^{n-k} On reconnait la probabilité d’avoir kk succès si on effectue nn tirages indépendants (avec remise) avec probabilité x[0,1]x \in [0,1] de succès par tirage. Ceci donne une relation de récurrence B k+1 n+1=(1x)B k+1 n+xB k nB^{n+1}_{k+1}=(1-x)B^n_{k+1}+x B^n_k qui peut servir à calculer les B i mB^m_i. On en déduit aussi que l’espérance de kk selon cette loi vaut nxnx (somme de nn variables d’espérance xx) et l’espérance de (knx) 2(k-nx)^2 vaut nx(1x)nx(1-x) (variance de la somme de nn variables indépendantes de variance xx). On en déduit qu’on peut approcher uniformément une fonction continue sur un intervalle [a,b][a,b] par des polynômes, en se ramenant à a=0,b=1a=0, b=1, on pose : P n(x)= k=0 nf(kn)B k n(x)P_n(x) = \sum_{k=0}^n f(\frac{k}{n}) B^n_k(x) En effet, par continuité uniforme de ff sur [0,1][0,1], pour ε>0\epsilon&gt;0, il existe δ>0\delta&gt;0 tel que |xy|<δ|f(x)f(y)|<ε/2|x-y|&lt;\delta \Rightarrow |f(x)-f(y)|&lt;\epsilon/2, dans P n(x)f(x)= k=0 n(f(kn)f(x))B k n(x)P_n(x)-f(x)=\sum_{k=0}^n (f(\frac{k}{n})-f(x)) B^n_k(x) on décompose la somme sur kk en deux parties, |k/nx|<δ|k/n-x|&lt;\delta et |k/nx|δ|k/n-x| \geq \delta, pour la première somme, on majore |f(kn)f(x)||f(\frac{k}{n})-f(x)| par ε/2\epsilon/2 puis par k=0 n\sum_{k=0}^n, pour la deuxième somme, on majore par 2|f| 2|f|_\infty et on utilise 1<(k/nx) 2/δ 2=1/n 2/δ 2(knx) 21&lt;(k/n-x)^2/\delta^2=1/n^2/\delta^2 (k-nx)^2 pour se ramener au calcul de la variance de kk, au final |P n(x)f(x)|ε2+1n 2δ 2nx(1x)|f| |P_n(x)-f(x)| \leq \frac \epsilon 2 + \frac{1}{n^2 \delta^2} nx(1-x)|f|_\infty il suffit de choisir nn assez grand pour rendre le membre de droite plus petit que ε\epsilon.

Les polynômes de Bernstein ne sont pas des polynômes interpolateurs aux points k/n,0<k<nk/n, \, 0&lt;k&lt;n, et la convergence n’est pas forcément très rapide. On les utilise pour approcher rapidement des morceaux de courbes, si on se donne des “points de controle” A 0,...,A nA_0, ..., A_n on construit la courbe paramétrée A(t)= k=0 nA k(n i)x i(1x) niA(t) = \sum_{k=0}^n A_k \left( \begin{array}{c} n\\ i \end{array} \right) x^i (1-x)^{n-i} appelée courbe de Bézier. En pratique on les utilise pour n=3n=3.

23.5  Polynômes orthogonaux.

Il s’agit d’une autre méthode d’approximation, particulièrement important pour l’intégration : les polynômes de meilleur approximation au sens de normes L 2L^2 ou L 2L^2 à poids w(x)>0w(x)&gt;0 sur l’intervalle de bornes α\alpha et β\beta (finis ou infinis). On considère le produit scalaire <f|g>= α βw(x)f(x)g(x)dx&lt;f|g&gt;=\int_\alpha^\beta w(x) f(x)g(x) \ dx et on projette alors la fonction à approcher sur une base de polynômes orthogonaux de degrés croissants construit par la procédure de Gram-Schmidt à partir de la base canonique pour le produit scalaire ci-dessus.

Proposition 68   Le polynôme P nP_n de degré nn obtenu par orthogonalisation de Gram-Schmidt pour le produit scalaire α βw(x)f(x)g(x)dx\int_\alpha^\beta w(x) f(x)g(x) \ dx possède nn racines réelles.

En effet, soit rr le nombre de racines réelles de P nP_n, on pose f=P nf=P_n et g= i=1 r(xx i)g=\prod_{i=1}^r (x-x_i), wfgwfg est de signe constant et non identiquement nul donc <f|g>0&lt;f|g&gt; \neq 0 donc r=nr=n sinon gg serait de degré strictement plus petit que nn donc orthogonal à P nP_n.

On peut aussi construire ces polynômes en cherchant les valeurs propres de T(f)=1w(awf)T(f)=\frac{1}{w} (awf')' a>0a&gt;0 est un polynôme de degré au plus 2 sur ]α,β[]\alpha,\beta[, tel que awaw s’annule (ou dont le produit par un polynôme tend vers 0) aux bornes de l’intervalle d’intégration : si α\alpha et β\beta sont finis a(x)=(xα)(βx)a(x)=(x-\alpha)(\beta-x). On a alors <T(f)|g>= α β(awf)g=[awfg] α β α βawgf= α βawgf&lt;T(f)|g&gt;=\int_\alpha^\beta (awf')'g = [awf'g]_\alpha^\beta-\int_\alpha^\beta awg'f' =-\int_\alpha^\beta awg'f' car le terme tout intégré s’annule (puisque awaw s’annule en α\alpha et β\beta). Donc <T(f)|g>=<f|T(g)>&lt;T(f)|g&gt;=&lt;f|T(g)&gt; est symétrique, les vecteurs propres de TT correspondant à des valeurs propres distinctes sont donc orthogonaux entre eux. Pour trouver ces valeurs propres/polynômes vecteurs propres, on écrit T(P n)=λ nP nT(P_n)=\lambda_n P_n pour un polynôme P nP_n de degré nn. Si aw/waw'/w est un polynôme de degré au plus 1, le terme de degré dominant de cette équation donne la valeur de λ n\lambda_n et les termes de degré plus petits permettent en général de déterminer de manière unique les coefficients de P nP_n en fonction du coefficient dominant.

Pour certains poids w(x)w(x) standards, les polynômes obtenus ont un nom :

Ainsi, les polynômes de Legendre vérifient ((1x 2)P n)=λ nP n((1-x^2)P_n')'=\lambda_n P_n Le terme de degré nn de cette équation donne λ n=n(n+1)\lambda_n=-n(n+1), le terme sous-dominant est nul. Plus générallement, le terme de degré kk vérifie (k+2)(k+1)p k+2k(k+1)p k=n(n+1)p kp k+2=k(k+1)n(n+1)(k+2)(k+1)p k(54) (k+2)(k+1)p_{k+2}-k(k+1)p_k=-n(n+1)p_k \Rightarrow p_{k+2}=\frac{k(k+1)-n(n+1)}{(k+2)(k+1)} p_k \qquad (54) Ceci permet de calculer le polynôme P nP_n, on normalise P nP_n par P n(1)=1P_n(1)=1.




Le calcul de ces polynômes peut aussi se faire par une récurrence à 2 crans du type : P n+1=(a nxb n)P nc nP n1(55) P_{n+1}=(a_nx-b_n)P_n-c_nP_{n-1} \qquad (55) La valeur de a na_n est définie par la normalisation de la famille de polynômes, ensuite b nb_n et c nc_n sont déterminés respectivement par <P n+1|P n>=0b n<P n|P n>=a n<xP n|P n>&lt;P_{n+1}|P_n&gt;=0 \Rightarrow b_n&lt;P_n|P_n&gt;=a_n&lt;xP_n|P_n&gt; et <P n+1|P n1>=0c n<P n1|P n1>=a n<xP n|P n1>=a n<P n|xP n1>&lt;P_{n+1}|P_{n-1}&gt;=0 \Rightarrow c_n&lt;P_{n-1}|P_{n-1}&gt;=a_n&lt;xP_n|P_{n-1}&gt;=a_n&lt;P_n|xP_{n-1}&gt; donc c n<P n1|P n1>=a na n1<P n|P n+b n1P n1+c n1P n2>=a na n1<P n|P n>c_n&lt;P_{n-1}|P_{n-1}&gt;=\frac{a_n}{a_{n-1}}&lt;P_n|P_n+b_{n-1}P_{n-1}+c_{n-1}P_{n-2}&gt; =\frac{a_n}{a_{n-1}}&lt;P_n|P_n&gt; Les autres relations d’orthogonalité <P n+1|P j>=0,j<n1&lt;P_{n+1}|P_j&gt;=0, j&lt;n-1 sont automatiquement vérifiées puisque <xP n|P j>=<P n|xP j>=0&lt;xP_n|P_j&gt;=&lt;P_n|xP_j&gt;=0 et P nP_n est orthogonal aux polynômes de degré n1\leq n-1.

Dans l’exemple des polynômes de Legendre, les polynômes obtenus sont pairs si nn est pair et impairs sinon, la relation de récurrence a donc un coefficient b nb_n nul. La convention de normalisation usuelle est P n(1)=1P_n(1)=1, on peut montrer qu’on a a n=(2n+1)/(n+1)a_n=(2n+1)/(n+1) et <P n|P n>=2/(2n+1)&lt;P_n|P_n&gt;=2/(2n+1) donc c n=n/(n+1)c_n=n/(n+1) et (n+1)P n+1=(2n+1)xP nnP n1(n+1)P_{n+1}=(2n+1)xP_n-nP_{n-1} En effet la normalisation en 1 donne 1=a nc n1=a_n-c_n donc c n=a n1c_n=a_n-1, les termes de degré n+1n+1 et n1n-1 de P n+1=a nxP nc nP n1P_{n+1}=a_nxP_n-c_nP_{n-1} donnent p n+1,n+1=a np n,n,p n+1,n1=a np n,n2(a n1)p n1,n1p_{n+1,n+1}=a_np_{n,n}, \quad p_{n+1,n-1}=a_n p_{n,n-2}-(a_n-1)p_{n-1,n-1} On applique alors (54) et on déduit de la deuxième équation ci-dessus : n(n+1)2(2n+1)p n+1,n+1=n(n1)2(2n+1)a np n,n(a n1)p n1,n1-\frac{n(n+1)}{2(2n+1)} p_{n+1,n+1}= -\frac{n(n-1)}{2(2n+1)} a_n p_{n,n}-(a_n-1)p_{n-1,n-1} puis on applique la première : n(n+1)2(2n+1)n(n1)2(2n+1)=a n1a na n1\frac{n(n+1)}{2(2n+1)} - \frac{n(n-1)}{2(2n+1)}=\frac{a_n-1}{a_na_{n-1}} d’où a n=11n 24n 21a n1a_n=\frac{1}{1-\frac{n^2}{4n^2-1} a_{n-1}}





Remarques

23.6  Les splines

Il s’agit de fonctions définies par des polynomes de degré borné sur des intervalles, dont on fixe la valeur aux extrémités des intervalles (comme pour le polynome de Lagrange) ce qui rend la fonction continue, de plus on exige un degré de régularité plus grand, par exemple etre de classe C 2C^2. Enfin, on fixe des conditions aux bornes de la réunion des intervalles, par exemple avoir certaines dérivées nulles.

Par exemple supposons qu’on se donne nn intervalles, donc n+1n+1 points x 0,...,x nx_0,...,x_n, on se fixe une régularité C d1C^{d-1}. Ceci entraine (n1)d(n-1)d conditions de recollement, on y ajoute n+1n+1 conditions de valeur en x 0,...,x nx_0,...,x_n, on a donc nd+1nd+1 conditions, la borne sur le degré des polynomes doit donc etre dd (ou plus, mais dd suffit) ce qui donne n(d+1)n(d+1) degrés de liberté, on peut donc ajouter d1d-1 conditions, par exemple pour les splines naturelles, on impose que les dérivées d’ordre d/2d/2 à d1d-1 soient nulles en x 0x_0 et x nx_n (si dd est pair, on commence à la dérivée d/2+1d/2+1-ième nulle en x nx_n).

Pour trouver les polynomes, on doit donc résoudre un grand système linéaire. Une méthode permettant de diminuer la taille du système linéaire à résoudre dans le cas des splines naturelles consiste à se fixer nn inconnues z 0,..,z n1z_0,..,z_{n-1} représentant les dérivées dd-ième de la spline ff en x 0x_0 sur [x 0,x 1][x_0,x_1] à x n1x_{n-1} sur [x n1,x n][x_{n-1},x_n], et (d1)/2(d-1)/2 inconnues f jf_j, représentant la valeur de la dérivée de ff en x 0x_0 pour jj variant de 1 à (d1)/2(d-1)/2. On peut alors écrire le polynome sur l’intervalle [x 0,x 1][x_0,x_1] car on connait son développement de Taylor en x 0x_0. On effectue un changement d’origine (par application répétée de Horner) en x 1x_1. On obtient alors le polynome sur [x 1,x 2][x_1,x_2] en remplaçant uniquement la dérivée dd-ième par z 1z_1. On continue ainsi jusqu’en x n1x_{n-1}. Le système s’obtient en calculant la valeur du polynome en x 0,...,x nx_0,...,x_n et la nullité des dérivées d’ordre (d1)/2(d-1)/2 à d/2d/2 en x nx_n. On résoud le système et on remplace pour avoir les valeurs numériques des coefficients du polynome.

Chapitre 24  Développement de Taylor, asymptotiques, séries entières, fonctions usuelles

Pour approcher les fonctions classiques (exponentielle, sinus, cosinus, log nepérien), on peut utiliser les développements en séries classiques, le polynôme de Taylor en un point donne une bonne approximation près du point, l’équivalent en l’infini appelé développement asymptotique donne une bonne approximation loin de 0, et les approximants de Padé où on approche par le quotient de 2 polynômes (ceci donne parfois de très bons résultats comme pour la fonction exponentielle près de 0 par exemple).

Soit ff une fonction indéfiniment dérivable sur un intervalle II de \mathbb{R} et x 0Ix_0 \in I. On peut alors effectuer le développement de Taylor de ff en x 0x_0 à l’ordre nn T n(f)(x)=f(x 0)+(xx 0)f(x 0)+...+(xx 0) nf [n](x 0)n! T_n(f)(x)= f(x_0) + (x-x_0) f'(x_0) + ... + (x-x_0)^n \frac{f^{[n]}(x_0)}{n!} et se demander si T n(f)T_n(f) converge lorsque nn tend vers l’infini, si la limite est égale à f(x)f(x) et si on peut facilement majorer la différence entre f(x)f(x) et T n(f)(x)T_n(f)(x). Si c’est le cas, on pourra utiliser T n(f)(x)T_n(f)(x) comme valeur approchée de f(x)f(x).

On peut parfois répondre à ces questions simultanément en regardant le développement de Taylor de ff avec reste : il existe θ\theta compris entre x 0x_0 et xx tel que R n(x):=f(x)T n(f)(x)=(xx 0) n+1f [n+1](θ)(n+1)! R_n(x) := f(x)- T_n(f)(x) = (x-x_0)^{n+1}\frac{f^{[n+1]}(\theta)}{(n+1)!} C’est le cas pour la fonction exponentielle que nous allons détailler, ainsi que les fonctions sinus et cosinus.

24.1  La fonction exponentielle

Soit f(x)=exp(x)f(x)=\exp(x) et x 0=0x_0=0, la dérivée nn-ième de ff est exp(x)\exp(x), donc R n(x)=exp(θ)x n+1/(n+1)!R_n(x)=\exp(\theta)x^{n+1}/(n+1)! avec θ\theta compris entre 0 et xx, ainsi si xx est positif |R n(x)|e xx n+1/(n+1)!|R_n(x)| \leq e^x x^{n+1}/(n+1)! et si xx est négatif, |R n(x)|x n+1/(n+1)!|R_n(x)| \leq x^{n+1}/(n+1)!. Dans les deux cas, la limite de R nR_n est 0 lorsque nn tend vers l’infini, car pour n2xn \geq 2x, on a x n+1(n+1)!=x nn!xn+112x nn! \frac{x^{n+1}}{(n+1)!} = \frac{x^n}{n!} \frac{x}{n+1}\leq \frac{1}{2}\frac{x^n}{n!} on a donc pour tout xx réel e x=lim n+T n(f)(x)=lim n+ k=0 nx kk!= k=0 x kk! e^x = \lim_{n \rightarrow +\infty} T_n(f)(x) = \lim_{n \rightarrow +\infty} \sum_{k=0}^n \frac{x^k}{k!} = \sum_{k=0}^\infty \frac{x^k}{k!}

Comment en déduire une valeur approchée de e xe^x? Il suffira d’arrêter la sommation lorsque R:=x n+1/(n+1)!R:=x^{n+1}/(n+1)! si x<0x&lt;0 ou lorsque R:=e xx n+1/(n+1)!R:=e^x x^{n+1}/(n+1)! si x>0x&gt;0 est inférieur à l’erreur absolue souhaitée, le plus tôt étant le mieux pour des raisons d’efficacité et pour éviter l’accumulation d’erreurs d’arrondi. Si on veut connaitre e xe^x à une erreur relative ε\varepsilon donnée (par exemple ε=2 53\varepsilon=2^{-53} pour stocker le résultat dans un double) il suffit que R/e x<εR/e^x &lt; \varepsilon, donc si xx est positif, il suffit que x n+1/(n+1)!<εx^{n+1}/(n+1)!&lt;\varepsilon, on peut donc arrêter la sommation lorsque le terme suivant est plus petit que ε\varepsilon.

On observe que plus xx est grand, plus nn devra être grand pour réaliser le test d’arrêt, ce qui est facheux pour le temps de calcul. De plus, le résultat final peut être petit alors que les termes intermédiaires calculés dans la somme peuvent être grands, ce qui provoque une perte de précision relative, par exemple si on veut calculer e 10e^{-10} ou plus généralement l’exponentielle d’un nombre négatif de grande valeur absolue.

Exercice : combien de termes faut-il calculer dans le développement de l’exponentielle de -10 pour que le reste soit plus petit que 2 532^{-53} ? Quel est la valeur du plus grand terme rencontré dans la suite ? Quelle est la perte de précision relative occasionné par cette méthode de calcul ?

On peut utiliser les propriétés de la fonction exponentielle pour éviter ce problème. Pour les nombres négatifs, on peut utiliser l’équation e x=1/e xe^{-x}=1/e^x (ne change pas l’erreur relative). Pour les grands réels, on peut utiliser e 2x=(e x) 2e^{2x}=(e^x)^2 (multiplie par 2 l’erreur relative). On peut aussi, si on connait une valeur approchée de ln(2)\ln(2), effectuer la division euclidienne de xx par ln(2)\ln(2) avec reste symétrique : x=aln(2)+r,a,|r|ln(2)2 x = a \ln(2) + r, \quad a \in \mathbb{Z}, |r| \leq \frac{ln(2)}{2} puis si rr est positif, on somme la série de T(f)(r)T(f)(r), si rr est négatif, on calcule T(f)(r)T(f)(-r) et on inverse, on applique alors : e x=2 ae r e^x = 2^a e^r

Il faut toutefois noter que ln(2)\ln(2) n’étant pas connu exactement, on commet une erreur d’arrondi absolu sur rr d’ordre aηa \eta, où η\eta est l’erreur relative sur ln(2)\ln(2), il faut donc ajouter une erreur d’arrondi relative de x/ln(2)ηx/\ln(2) \eta qui peut devenir grande si xx est grand. Puis il faut ajouter la somme des erreurs d’arrondi due au calcul de e re^r, que l’on peut minimiser en utilisant la méthode de Horner pour évaluer T n(f)(r)T_n(f)(r) (car elle commence par sommer les termes de plus haut degré qui sont justement les plus petits termes de la somme). Les coprocesseurs arithmétiques qui implémentent la fonction exponentielle ont un format de représentation interne des double avec une mantisse plus grande que celle des double (par exemple 64 bits au lieu de 53), et une table contenant des constantes dont ln(2)\ln(2) avec cette précision, le calcul de e xe^x par cette méthode entraine donc seulement une erreur relative d’arrondi au plus proche sur le résultat converti en double (donc de 2 532^{-53}).

Notons que en général xx lui-même a déjà été arrondi ou n’est connu qu’avec une précision relative. Or si x>0x&gt;0 est connu avec une erreur relative de ε\varepsilon (donc une erreur absolue de ε|x|\varepsilon |x|, alors e x+ε|x|=e xe ε|x| e^{x+\varepsilon |x|}= e^x e^{\varepsilon |x|} donc on ne peut pas espérer mieux qu’une erreur relative de e ε|x|1e^{\varepsilon |x|}-1 sur l’exponentielle de xx. Si εx\varepsilon x est petit cette erreur relative (impossible à éviter, quel que soit l’algorithme utilisé pour calculer l’exponentielle) est d’ordre ε|x|\varepsilon |x|. Si εx\varepsilon x est grand alors l’erreur relative devient de l’ordre de 1, et la valeur de l’exponentielle calculée peut être très éloignée de la valeur réelle! Notons que pour les double, il y aura dans ce cas débordement soit vers l’infini soit vers 0 (par exemple si xx est supérieur à 709, l’exponentielle renvoie infini).

Exercice : refaire les mêmes calculs pour les fonction sinus ou cosinus. On utilise par exemple sin(x+π)=sin(x)\sin(x+\pi)=-sin(x), sin(x)=sin(x)\sin(-x)=-\sin(x), sin(x)=cos(π/2x)\sin(x)=\cos(\pi/2-x) pour se ramener au calcul de sin(x)\sin(x) ou de cos(x)\cos(x) sur [0,π/4][0,\pi/4]. sin(x)= n=0 (1) nx 2n+1(2n+1)!,cos(x)= n=0 (1) nx 2n(2n)! \sin(x)=\sum_{n=0}^\infty (-1)^n \frac{x^{2n+1}}{(2n+1)!}, \quad \cos(x)=\sum_{n=0}^\infty (-1)^n \frac{x^{2n}}{(2n)!}

Cette méthode a toutefois ces limites, car il peut devenir impraticable de calculer la dérivée nn-ième d’une fonction (par exemple avec tan(x)\tan(x)), et encore plus de la majorer. D’où l’intérêt de développer une théorie des fonctions qui sont égales à leur développement de Taylor à l’infini d’une part, et d’avoir d’autres méthodes pour majorer le reste, nous présentons ici le cas des séries alternées.

24.2  Séries entières.

Les séries de type prendre la limite lorsque nn tend vers l’infini du développement de Taylor en x=0 sont de la forme n=0 a nx n:=lim k+ n=0 ka nx n,a n=f [n](0)n! \sum_{n=0}^\infty a_n x^n := \lim_{ k \rightarrow +\infty} \sum_{n=0}^k a_n x^n, a_n=\frac{f^{[n]}(0)}{n!} On peut s’intéresser plus généralement à n=0 a nx n\sum_{n=0}^\infty a_n x^n lorsque a na_n est un complexe quelconque, c’est ce qu’on appelle une série entière, on peut aussi les voir comme des polynômes généralisés.

S’il existe un point x 0x_0 tel que |a nx 0 n||a_n x_0^n| est borné (ce sera le cas en particulier si la série converge en x 0x_0), alors |a nx n|=|a nx 0 n||xx 0| nM|xx 0| n |a_n x^n| = |a_n x_0^n| |\frac{x}{x_0}|^n \leq M |\frac{x}{x_0}|^n la série converge donc en xx si |x|<|x 0||x|&lt;|x_0| et on peut majorer le reste de la série au rang nn par |R n|M|xx 0| n+11|xx 0| |R_n| \leq M \frac{ |\frac{x}{x_0}|^{n+1}} {1-|\frac{x}{x_0}|} la vitesse de convergence est donc du même type que pour le théorème du point fixe (le nombre de termes à calculer pour trouver une valeur approchée avec kk décimales dépend linéairement kk, les constantes sont d’autant plus grandes que |x||x| est grand).

Théorème 69   S’il existe un rang n 0n_0, un réel M>0M&gt;0 et un complexe x 0x_0 tels que pour n>n 0n&gt;n_0, on ait : |a nx 0| nM |a_n x_0|^n \leq M alors la série converge pour |x|<|x 0||x|&lt;|x_0| et pour nn 0n\geq n_0, on a : |R n|M|xx 0| n+11|xx 0|(56) |R_n| \leq M \frac{ |\frac{x}{x_0}|^{n+1}} {1-|\frac{x}{x_0}|} \qquad (56)

On en déduit qu’il existe un réel positif R0R\geq 0 éventuellement égal à ++\infty tel que la série converge (la limite de la somme jusqu’à l’infini existe) lorsque |x|<R|x|&lt;R et n’existe pas lorsque |x|>R|x|&gt;R, ce réel est appelé rayon de convergence de la série. Par exemple ce rayon vaut ++\infty pour l’exponentielle, le sinus ou le cosinus. Il est égal à 1 pour la série géométrique x n\sum x^n (car elle diverge si |x|>1|x|&gt;1 et converge si |x|<1|x|&lt;1). On ne peut pas dire ce qui se passe génériquement lorsqu’on est à la limite, c’est-à-dire lorsque |x|=R|x|=R (si R+R\neq +\infty). Mais cela n’a en fait pas trop d’importance en pratique car même si la série converge, elle converge souvent trop lentement pour donner de bonnes approximations. En fait, la vitesse de convergence d’une série entière de rayon R+R\neq +\infty est en gros la même que celle d’une série géométrique de raison |x|/R|x|/R.

Lorsque 2 séries ont un rayon de convergence non nul, alors on peut effectuer leur somme, leur produit comme des polynômes et la série somme/produit a un rayon de convergence au moins égal au plus petit des 2 rayons de convergence des arguments. On peut inverser une série entière non nulle en 0 en appliquant (1+x) 1=1x+x 2x 3+... (1+x)^{-1} = 1-x+x^2-x^3+... et on obtient une série entière de rayon de convergence non nul. On peut aussi composer deux séries entières gg et ff en gfg\circ f (avec les règles de calcul de composition des polynômes) si f(0)=0f(0)=0. On peut enfin dériver et intégrer une série entière terme à terme dans son rayon de convergence.

On dit qu’une fonction est développable en série entière en 0 si elle est égale à son développement de Taylor en 0 sommé jusqu’en l’infini dans un disque de centre 0 et de rayon non nul. Les fonctions exponentielle, sinus, cosinus sont donc développables en série entière en 0. La fonction tangente également car le dénominateur cosinus est non nul en 0, mais son rayon de convergence n’est pas l’infini et le calcul des a na_n est assez complexe. La fonction (1+x) α(1+x)^\alpha est développable en séries entières pour tout α\alpha \in \mathbb{R} avec un rayon de convergence 1 (ou l’infini pour α\alpha entier positif). (1+x) α=1+αx+α(α1)2!x 2+...+α(α1)...(αn+1)n!x n+... (1+x)^\alpha = 1 + \alpha x + \frac{\alpha (\alpha-1)}{2!} x^2 + ... + \frac{\alpha (\alpha-1) ... (\alpha -n +1)}{n!} x^n + ... Pour α=1\alpha=-1, c’est la série géométrique de raison x-x, en effet si |x|<1|x|&lt;1 : n=0 k(x) n=1(x) k+11+x k11+x \sum_{n=0}^k (-x)^n = \frac{1-(-x)^{k+1}}{1+x} \rightarrow_{k\rightarrow \infty} \frac{1}{1+x} En intégrant par rapport à xx, on obtient que ln(1+x)\ln(1+x) est développable en série entière en 0 de rayon de convergence 1 et ln(1+x)= n=0 (x) n+1n+1 \ln(1+x) = \sum_{n=0}^\infty \frac{(-x)^{n+1}}{n+1} On peut calculer de manière analogue le développement en série entière de arctan(x)\arctan(x) en iintégrant celui de 1/(1+x 2)1/(1+x^2), de même pour arccos(x)\arccos(x) et arcsin(x)\arcsin(x) en intégrant celui de (1x 2) 1/2(1-x^2)^{-1/2}. arctan(x)= n=0 (1) nx 2n+12n+1, \arctan(x)=\sum_{n=0}^\infty (-1)^{n} \frac{x^{2n+1}}{2n+1}, On peut donc calculer ln\ln, arctan\arctan, ... par ces formules, mais il faut répondre à la question où arrête-t-on la somme pour obtenir une précision donnée? Dans le cas de ln(1+x)\ln(1+x), on pourrait répondre comme avec l’exponentielle en majorant la dérivée n+1n+1-ième, mais ce n’est plus faisable pour arctan,arcsin,arccos\arctan, \arcsin, \arccos. On va donner un autre critère qui ne nécessite pas de calculer cette dérivée mais utilise l’alternance des signes dans la somme.

24.3  Série alternée

Théorème 70   Soit S n= k=0 n(1) ku kS_n= \sum_{k=0}^n (-1)^k u_k la somme jusqu’au rang nn d’une série de réels tels que la suite des u ku_k décroit à partir d’un rang n 0n_0 et tend vers 0 lorsque k+k\rightarrow +\infty. Alors S nS_n converge vers une limite SS. Si nn 0n\geq n_0, la limite est comprise entre deux sommes partielles succesives S nS_n et S n+1S_{n+1} et le reste est majoré par la valeur absolue du premier terme non sommé : |R n||u n+1| |R_n| \leq |u_{n+1}|

Démonstration :
on montre que les suites v n=S 2nv_n=S_{2n} et w n=S 2n+1w_n=S_{2n+1} sont adjacentes. On a v n+1v n=S 2n+2S 2n=(1) 2n+2u 2n+2+(1) 2n+1u 2n+1=u 2n+2u 2n+10 v_{n+1}-v_n= S_{2n+2}-S_{2n}= (-1)^{2n+2} u_{2n+2} + (-1)^{2n+1} u_{2n+1} = u_{2n+2}-u_{2n+1} \leq 0 donc v nv_n est décroissante, de même w nw_n est croissante, et v nw n=u 2n+1v_n-w_n=u_{2n+1} est positif et tend vers 0. On en déduit que v nv_n et w nw_n convergent vers la même limite SS telle que v n>S>w nv_n&gt;S&gt;w_n et les inégalités du théorème s’en déduisent.

Remarque
lorsqu’on utilise une suite alternée pour trouver une valeur approchée, il faut que u nu_n tende assez vite vers 0, sinon il y aura perte de précision sur la mantisse lorsqu’on effectuera u 2nu 2n+1u_{2n}-u_{2n+1}. On sommera aussi les termes par ordre décroissant pour diminuer les erreurs d’arrondi.

24.4  La fonction logarithme

Si nous voulons calculer ln(1+x)\ln(1+x) pour x[0,1[x \in [0,1[ avec une précision ε\varepsilon, il suffit de calculer k=0 n(1) kx k+1k+1 \sum_{k=0}^n (-1)^k \frac{x^{k+1}}{k+1} pour nn tel que la valeur absolue du terme suivant soit plus petit que ε\varepsilon : n tel que x n+1n+1<ε n \mbox{ tel que } \frac{x^{n+1}}{n+1} &lt; \varepsilon en effet, les signes sont alternés et la suite x k+1k+1\frac{x^{k+1}}{k+1} décroit vers 0.

Si la suite décroit lentement vers 0, cette méthode est mauvaise numériquement et en temps de calcul car il y a presque compensation entre termes successifs donc perte de précision sur la mantisse et il y a beaucoup de termes à calculer. C’est le cas pour le logarithme, si xx est voisin de 1, il faut calculer nn termes pour avoir une précision en 1/n1/n, par exemple 1 million de termes pour avoir une précision de 1e61e-6 (sans tenir compte des erreurs d’arrondi). Si xx est proche de 1/21/2 il faut de l’ordre de ln(ε)/ln(2)-\ln(\varepsilon)/\ln(2) termes ce qui est mieux, mais encore relativement grand (par exemple 50 termes environ pour une précision en 1e161e-16, 13 termes pour 1e41e-4). On a donc intérêt à se ramener si possible à calculer la fonction en un xx où la convergence est plus rapide (donc |x||x| le plus petit possible). Par exemple pour le calcul de ln(1+x)\ln(1+x) on peut :

Nous sommes donc en mesure de calculer précisément le logarithme ln(1+x)\ln(1+x) pour disons |x|<1/2|x|&lt;1/2. Pour calculer lnln sur +\mathbb{R}^+, on se ramène à [1,2][1,2] en utilisant l’écriture mantisse-exposant, puis si x[3/2,2]x\in[3/2,2] on peut en prendre la racine carrée pour se retrouver dans l’intervalle souhaité. On peut aussi effectuer une division par 2\sqrt{2}.

Remarquons que si xx est connu à une erreur relative ε\varepsilon près, comme ln(x(1±ε))=ln(x)+ln(1±ε) \ln(x(1 \pm \varepsilon))=\ln(x) + \ln(1 \pm \varepsilon) ln(x)\ln(x) est connu à une erreur absolue de |ln(1±ε)|ε|\ln(1 \pm \varepsilon)| \approx \varepsilon. Si ln(x)\ln(x) est proche de 0, on a une grande perte de précision relative.

Finalement, nous savons calculer ln\ln et exp\exp sous réserve d’avoir dans une table la valeur de ln(2)\ln(2). Pour calculer ln(2)\ln(2) précisément, on peut utiliser ln(2)=ln(1/2)=ln(11/2) \ln(2)=-ln(1/2)=-ln(1-1/2) et le développement en série calculé en mode exact avec des fractions à un ordre suffisant, on majore le reste en utilisant que le terme général de la série ln(1+x)\ln(1+x) est borné par M=1M=1 en x=1x=1, donc d’après (56) : |R n|12 n |R_n| \leq \frac{1}{2^n} (on peut même obtenir 1/(n2 n)1/(n2^n) car on a besoin de MM uniquement pour les termes d’ordre plus grand que nn, on peut donc prendre M=1/nM=1/n). Par exemple, pour avoir ln(2)\ln(2) avec une mantisse de 80 bits, on effectue une fois pour toutes avec un logiciel de calcul formel :
a:=sum((1/2)^k/k,k=1..80)|
puis la division en base 2 avec 81 bits de précision iquo(numer(a)*2^81,denom(a))

Exercice : pour les fonctions trigonométriques, il faut une méthode de calcul de π\pi. On peut par exemple faire le calcul de 16arctan(1/5)4arctan(1/239)16 \arctan(1/5)-4\arctan(1/239) en utilisant le développement de la fonction arctan\arctan à un ordre suffisant.

24.5  Approximants de Padé.

Soit une fonction f(x)f(x) dont on connait le développement de Taylor BB en 0 à l’ordre nn, on souhaiterait plutot approcher ff par une fraction P/QP/Q avec degré(P)d(P) \leq d et degré(Q)nd(Q) \leq n-d : f=B+O(x n+1)=PQ+O(x n+1)f=B+O(x^{n+1})=\frac P Q +O(x^{n+1}) Si Q(0)=0Q(0)=0, ceci équivaut à P=BQ+x n+1SP=BQ+x^{n+1} SS,P,QS, P,Q sont des polynômes inconnus. On reconnait une identité de type Bézout pour les polynômes A=x n+1A=x^{n+1} et BB. On déroule l’algorithme d’Euclide itératif pour AA et BB, on définit donc 3 suites U k,V k,R kU_k, V_k, R_kR kR_k est la suite des restes d’Euclide de degrés strictement décroissants R k+2=R kQ kR k+1,U k+2=U kQ kU k+1,V k+2=V kQ kV k+1R_{k+2}=R_k - Q_k R_{k+1},\ U_{k+2}=U_k - Q_k U_{k+1}, V_{k+2}=V_k - Q_k V_{k+1} et les initialisations : U 0=1,U 1=0,V 0=0,V 1=1,R 0=A,R 1=BU_0=1, U_1=0, V_0=0, V_1=1, R_0=A, R_1=B On s’arrête au rang N+1N+1 tel que degré(R N)>d(R_N)&gt;d et degré(R N+1)d(R_{N+1}) \leq d. Rappelons qu’on montre par récurrence que : V kR k+1V k+1R k=(1) k+1X n+1V_k R_{k+1} - V_{k+1} R_k = (-1)^{k+1} X^{n+1} D’autre part la suite des degrés des V kV_k est strictement croissante à partir du rang 1 (car degré(Q k)>0(Q_k)&gt;0), on en déduit que degré(V k+1)(V_{k+1})+degré(R k)=n+1(R_k)=n+1 donc degré(V N+1)nd(V_{N+1}) \leq n-d. On pose alors P=R N+1P=R_{N+1} et Q=V N+1Q=V_{N+1}, qui vérifient P=BQ+AU N+1P=BQ+AU_{N+1}. Si Q(0)0Q(0) \neq 0 on a existence d’une solution P/QP/Q, et cette solution est alors unique, car si on a 2 triplets solutions P=BQ+AS,P=BQ+AS,A=X n+1P=BQ+AS, \ P'=BQ'+AS', \quad A=X^{n+1} alors PQPQPQ'-P'Q est un multiple de X n+1X^{n+1} donc nul pour des raisons de degré, donc P/Q=P/QP/Q=P'/Q'.

Par exemple, pour f(x)=e xf(x)=e^x et n=10,d=5n=10, d=5, pade(e^x,x,10,6) renvoie le quotient de deux polynômes de degré 5 P 2+P 1P 2P 1,P 2=30240+3360x 2+30x 4,P 1=x(15120+420x 2+x 4)\frac{P_2+P_1}{P_2-P_1}, \ P_2=30240+3360x^2+30x^4,\ P_1=x(15120+420x^2+x^4) fraction que l’on peut évaluer en 12 opérations (5 additions, 1 soustraction, 5 multiplications et 1 division) et qui donne une approximation de meilleure qualité que le développement de Taylor à l’ordre 10.


Pour démontrer des estimations sur l’erreur f(x)P/Qf(x)-P/Q, il n’existe pas à ma connaissance de résultat explicite général. Pour la fonction exponentielle, on peut calculer l’erreur relative g(x)=1e xP/Qg(x)=1-e^{-x}P/Q puis étudier la fonction.

P,Q:=fxnd(pade(exp(x),x,10,6));
g:=1-exp(-x)*P/Q; factor(g');

On en déduit que gg est une fonction décroissante (nulle en l’origine), son maximum en valeur absolue est donc atteint aux bornes de l’intervalle d’étude, par exemple sur [1/4,1/4][-1/4,1/4], l’erreur relative est majorée par 3e-17, il faudrait aller à l’ordre 12 pour avoir la même précision avec Taylor donc faire 23 opérations, quasiment le double. Visuellement, le graphe de l’exponentielle et de l’approximation de Padé sont encore très proches pour x=5x=5.

f(x):={
  local P1,P2,x2;
  x2:=x*x;
  P2:=30240+x2*(3360+30*x2);
  P1:=x*(15120+x2*(420+x2));
  retourne (P2+P1)/(P2-P1);
}:;
plot([f(x),exp(x)],x=-6..6,color=[blue,red]);

24.6  Autres applications

On peut calculer certaines intégrales de la même manière, par exemple 0 1/211+x 3 \int _0^{1/2} \frac{1}{\sqrt{1+x^3}} mais aussi des fonctions définies par des intégrales (cas de nombreuses fonctions spéciales).

24.6.1  Exemple : la fonction d’erreur (error fonction, erf)

Cette fonction est définie à une constante multiplicative près par : f(x)= 0 xe t 2dt f(x)=\int_0^x e^{-t^2} \ dt On peut développer en séries entières l’intégrand (rayon de convergence ++\infty), puis intégrer terme à terme, on obtient f(x)= n=0 +(1) nx 2nn!(2n+1) f(x)= \sum_{n=0}^{+\infty} (-1)^n \frac{x^{2n}}{n! (2n+1)} Ce développement converge très rapidement pour |x|1|x|\leq 1. Par contre, pour |x||x| grand, il faut calculer beaucoup de termes avant que le reste soit suffisamment petit pour être négligeable, et certains termes intermédiaires sont grands, ce qui provoque une perte de précision qui peut rendre le résultat calculé complètement faux. Contrairement à la fonction exponentielle, il n’y a pas de possibilité de réduire l’argument à une plage où la série converge vite. Il faut donc

Exercice : donner une valeur approchée de f(1)f(1) à 1e161e-16 près. Combien de termes faut-il calculer dans la somme pour trouver une valeur approchée de f(7)f(7) à 1e161e-16 près ? Comparer la valeur de f(7)f(7) et la valeur absolue du plus grand terme de la série, quelle est la perte de précision relative si on effectue les calculs en virgule flottante ? Combien de chiffres significatifs faut-il utiliser pour assurer une précision finale de 16 chiffres en base 10 ? Calculer le développement asymptotique en l’infini et déterminer un encadrement de f(7)f(7) par ce développement. Combien de termes faut-il calculer pour déterminer f(10)f(10) à 1e161e-16 près par le développement asymptotique et par le développement en séries ? Quelle est la meilleure méthode pour calculer f(10)f(10) ?

24.6.2  Recherche de solutions d’équations différentielles

On peut aussi appliquer les techniques ci-dessus pour calculer des solutions de certaines équations différentielles dont les solutions ne s’expriment pas à l’aide des fonctions usuelles, on remplace dans l’équation la fonction inconnue par son développement en séries et on cherche une relation de récurrence entre a n+1a_{n+1} et a na_n. Si on arrive à montrer par exemple qu’il y a une solution ayant un développement alternée, ou plus généralement, si on a une majoration |a n+1/a n|<C|a_{n+1}/a_n|&lt;C, alors le reste de la série entière est majoré par |a nx n|/(1|Cx|)|a_nx^n|/(1-|Cx|) lorsque |x|<1/C|x|&lt;1/C, on peut alors calculer des valeurs approchées de la fonction solution à la précision souhaitée en utilisant le développement en séries entières.

24.6.3  Exemple : fonctions de Bessel d’ordre entier

Soit mm un entier positif fixé, on considère l’équation différentielle x 2y+xy+(x 2m 2)y=0 x^2 y'{'} + x y' + (x^2-m^2)y=0 dont on cherche une solution série entière y= k=0 a kx ky=\sum_{k=0}^\infty a_k x^k . En remplacant dans l’équation, si xx est dans le rayon de convergence de la série (rayon supposé non nul), on obtient k=0 k(k1)a kx k+ k=0 ka kx k+ k=0 (x 2m 2)a kx k=0 \sum_{k=0}^\infty k(k-1)a_k x^k + \sum_{k=0}^\infty k a_k x^k + \sum_{k=0}^\infty (x^2-m^2) a_k x^k =0 soit encore 0 = k=0 (k 2m 2+x 2)a kx k = m 2a 0+(1m 2)a 1x+ k=2 [(k 2m 2)a k+a k2]x k \begin{matrix} 0 &=& \sum_{k=0}^\infty (k^2-m^2+x^2) a_k x^k \\ &=& -m^2 a_0 + (1-m^2)a_1 x + \sum_{k=2}^\infty [(k^2-m^2) a_k +a_{k-2}]x^k \end{matrix} Par exemple, prenons le cas m=0m=0. On a alors a 0a_0 quelconque, a 1a_1 nul et pour k2k\geq 2 a k=a k2k 2 a_k = - \frac{a_{k-2}}{k^2} Donc tous les aa d’indice impair sont nuls. Les pairs sont non nuls si a 00a_0\neq 0, et ils sont de signe alterné. Soit xx fixé, on observe que pour 2k>|x|2k &gt; |x|, |a 2kx 2k|<|a 2k2x 2k2| |a_{2k} x^{2k}| &lt; |a_{2k-2} x^{2k-2}| donc la série k=0 a kx k\sum_{k=0}^\infty a_k x^k est alternée à partir du rang partie entière de |x||x| plus un. Donc elle converge pour tout xx (le rayon de convergence de yy est ++\infty) et le reste de la somme jusqu’à l’ordre 2n2n est inférieur en valeur absolue à : |R 2n(x)||a 2n+2x 2n+2| |R_{2n}(x)| \leq |a_{2n+2} x^{2n+2}| Par exemple, pour avoir une valeur approchée à 1e101e-10 près de y(x)y(x) pour a 0=1a_0=1 et |x|1|x|\leq 1, on calcule y= k=0 2na kx ky=\sum_{k=0}^{2n} a_k x^k , on s’arrête au rang nn tel que |a 2n+2x 2n+2||a 2n+2|10 10 |a_{2n+2} x^{2n+2}| \leq |a_{2n+2}| \leq 10^{-10} On remarque que : a 2n=(1) n2 24 2...(2n) 2=(1) n2 2nn! 2 a_{2n} = \frac{(-1)^n}{2^2 4^2 ... (2n)^2} = \frac{(-1)^n}{2^{2n} n!^2} donc n=7n=7 convient.

Pour m0m \neq 0, on peut faire un raisonnement analogue (les calculs sont un peu plus compliqués).

On a ainsi trouvé une solution y 0y_0 de l’équation différentielle de départ dont on peut facilement calculer une valeur approchée (aussi facilement que par exemple la fonction sinus pour |x|1|x| \leq 1), on peut alors trouver toutes les solutions de l’équation différentielle (en posant y=y 0zy=y_0 z et en cherchant zz).

Exercice : faire de même pour les solutions de yxy=0y'{'}-xy=0 (fonctions de Airy).

24.7  Développements asymptotiques et séries divergentes

Un développement asymptotique est une généralisation d’un développement de Taylor, par exemple lorsque le point de développement est en l’infini. De nombreuses fonctions ayant une limite en l’infini admettent un développement asymptotique en l’infini, mais ces développements sont souvent des séries qui semblent commencer par converger mais sont divergentes. Ce type de développement s’avère néanmoins très utile lorsqu’on n’a pas besoin d’une trop grande précision sur la valeur de la fonction.

Nous allons illustrer ce type de développement sur un exemple, la fonction exponentielle intégrale, définie à une constante près par f(x)= x +e ttdt f(x)=\int_x^{+\infty} \frac{e^{-t}}{t} \ dt On peut montrer que l’intégrale existe bien, car l’intégrand est positif et inférieur à e te^{-t} (qui admet e t-e^{-t} comme primitive, cette primitive ayant une limite en ++\infty). Pour trouver le développement asymptotique de ff en ++\infty, on effectue des intégrations par parties répétées, en intégrant l’exponentielle et en dérivant la fraction rationnelle f(x) = [e tt] x + x +e tt 2dt = e xx x +e tt 2dt = e xx([e tt 2] x + x +2e tt 3) = e xxe xx 2+ x +2e tt 3dt = ... = e x(1x1x 2+2x 3+...+(1) nn!x n+1) x +(1) n(n+1)!e tt n+2dt = S(x)+R(x) \begin{matrix} f(x)&=&[\frac{-e^{-t}}{t}]_x^{+\infty} - \int_x^{+\infty} \frac{-e^{-t}}{-t^2} \ dt \\ &=& \frac{e^{-x}}{x} - \int_x^{+\infty} \frac{e^{-t}}{t^2} \ dt \\ &=& \frac{e^{-x}}{x} - ([\frac{-e^{-t}}{t^2}]_x^{+\infty} - \int_x^{+\infty} \frac{-2e^{-t}}{-t^3}) \\ &=& \frac{e^{-x}}{x} - \frac{e^{-x}}{x^2} + \int_x^{+\infty} \frac{2e^{-t}}{t^3} \ dt \\ &=& ... \\ &=& e^{-x}\left(\frac{1}{x} - \frac{1}{x^2} + \frac{2}{x^3} + ... + \frac{(-1)^n n!}{x^{n+1}}\right) - \int_x^{+\infty} \frac{(-1)^n (n+1)!e^{-t}}{t^{n+2}} \ dt \\ &=& S(x) + R(x) \end{matrix} S(x)=e x(1x1x 2+2x 3+...+(1) nn!x n+1),R(x)= x +(1) n(n+1)!e tt n+2dt(57) S(x)=e^{-x} \left(\frac{1}{x} - \frac{1}{x^2} + \frac{2}{x^3} + ... + \frac{(-1)^n n!}{x^{n+1}}\right), \quad R(x)=- \int_x^{+\infty} \frac{(-1)^n (n+1)!e^{-t}}{t^{n+2}} \ dt \qquad (57) Le développement en séries est divergent puisque pour x>0x&gt;0 fixé et nn tendant vers l’infini lim n+n!x n+1=+ \lim_{n\rightarrow +\infty} \frac{n!}{x^{n+1}} = +\infty mais si xx est grand, au début la série semble converger, de manière très rapide : 1x>>1x 2>>2x 3 \frac{1}{x} &gt;&gt; \frac{1}{x^2} &gt;&gt; \frac{2}{x^3} On peut utiliser S(x)S(x) comme valeur approchée de f(x)f(x) pour xx grand si on sait majorer R(x)R(x) par un nombre suffisamment petit. On a |R(x)| x +(n+1)!e tx n+2=(n+1)!e xx n+2 | R(x) | \leq \int_x^{+\infty} \frac{(n+1)!e^{-t}}{x^{n+2}} = \frac{(n+1)!e^{-x}}{x^{n+2}} On retrouve une majoration du type de celle des séries alternées, l’erreur relative est inférieure à la valeur absolue du dernier terme sommé divisé par e x/xe^{-x}/x. Pour xx fixé assez grand, il faut donc trouver un rang nn, s’il en existe un, tel que (n+1)!/x n+1<ε(n+1)!/x^{n+1}&lt;\epsilonε\epsilon est la précision relative que l’on s’est fixée. Par exemple, si x100x\geq 100, n=11n=11 convient pour ε=12!/100 12=5e16\epsilon=12!/100^{12}=5e-16 (à peu près la précision relative d’un “double”). Ceci permet d’avoir une approximation de la fonction avec une bonne précision et peu de calculs, mais contrairement aux séries entières, il n’est pas possible d’améliorer cette précision de manière arbitraire en poussant le développement plus loin, il y a une précision maximale possible (qui dépend de xx).

Ce type de développement asymptotique peut être effectué pour d’autres fonctions du même type, par exemple x +e t 2dt, x +sin(t)tdt,... \int_x^{+\infty} e^{-t^2} \ dt, \quad \int_x^{+\infty} \frac{\sin(t)}{t} \ dt, \quad ...

Digression: calcul approché de la constante d’Euler γ\gamma
On peut montrer que lim n+u n,u n= k=1 n1kln(n)(58) \lim_{n\rightarrow +\infty} u_n, \quad u_n=\sum_{k=1}^{n}\frac{1}{k} - \ln(n) \qquad (58) existe (par exemple en cherchant un équivalent de u n+1u nu_{n+1}-u_n qui vaut 12n 2\frac{-1}{2n^2}) et on définit γ\gamma comme sa limite. Malheureusement, la convergence est très lente et cette définition n’est pas applicable pour obtenir la valeur de γ\gamma avec une très grande précision. Il y a un lien entre γ\gamma et la fonction exponentielle intégrale, plus précisément lorsque x0x\rightarrow 0, f(x)f(x) admet une singularité en ln(x)-\ln(x), plus précisément f(x)+ln(x)f(x)+\ln(x) admet un développement en séries (de rayon de convergence ++\infty), car : f(x)+ln(x) = x 1e t1tdt+ 1 +e ttdt = 0 1e t1tdt+ 1 +e ttdt 0 xe t1tdt \begin{matrix} f(x)+\ln(x)&=&\int_x^{1}\frac{e^{-t}-1}{t} \ dt + \int_1^{+\infty} \frac{e^{-t}}{t} \ dt \\ &=& \int_0^{1}\frac{e^{-t}-1}{t} \ dt + \int_1^{+\infty} \frac{e^{-t}}{t} \ dt - \int_0^{x} \frac{e^{-t}-1}{t} \ dt \end{matrix} Que vaut la constante du membre de droite : C= 0 1(e t1)1tdt+ 1 +e t1tdt C=\int_0^{1}(e^{-t}-1)\frac{1}{t} \ dt + \int_1^{+\infty} e^{-t} \frac{1}{t} \ dt Il se trouve que C=γC=-\gamma (voir plus bas une démonstration condensée) et donc : γ= 0 x1e ttdtf(x)ln(x)(59) \gamma= \int_0^{x} \frac{1-e^{-t}}{t} \ dt -f(x)-\ln(x) \qquad (59) Pour obtenir une valeur approchée de γ\gamma, il suffit donc de prendre un xx assez grand pour pouvoir calculer f(x)f(x) par son développement asymptotique à la précision requise, puis de calculer l’intégrale du membre de droite par le développement en séries en x=0x=0 (en utilisant une précision intermédiaire plus grande puisque ce développement en séries va sembler diverger au début avant de converger pour nn suffisamment grand). Par exemple, on pose x=13x=13, on calcule f(13)f(13) par (57) avec n=13n=13 (qui correspond au moment où le terme général de la série est minimum puisque le rapport de deux termes successifs est en n/xn/x) et une erreur absolue inférieure à e 1313!/13 14=4e12e^{-13} 13!/13^{14}=4e-12

f(13)f(13) \approx exp(-13)*sum((-1)^n*n!/13.^(n+1),n=0..13)

puis on remplace dans (59), avec 0 x1e ttdt= n=0 (1) nx n+1(n+1)(n+1)! \int_0^{x} \frac{1-e^{-t}}{t} \ dt = \sum_{n=0}^{\infty} (-1)^n \frac{x^{n+1}}{(n+1) (n+1)!} dont on obtient une valeur approchée, en faisant la somme jusqu’au rang 49 (pour lequel le terme général est de l’ordre de 1e-12), le reste de cette somme R 50R_{50} est positif et est inférieur à (-1)^50*13.^51/51/51!) qui est de l’ordre de 8e-12

evalf(sum((-1)^n*13^(n+1)/(n+1)/(n+1)!,n=0..49))

La somme argument de evalf étant exacte, il n’y a pas de problèmes de perte de précision, on peut aussi faire les calculs intermédiaires en arithmétique approchée, on doit alors prendre 4 chiffres significatifs de plus pour tenir compte de la valeur du plus grand terme sommé dans la série, terme que l’on détermine par exemple par

seq(13.^(n+1)/(n+1)/(n+1)!,n=0..20)

ce terme vaut 13^11/11/11! soit 4000 environ)

Digits:=16; sum((-1)^n*13.^(n+1)/(n+1)/(n+1)!,n=0..49)

On obtient finalement comme valeur approchée de γ\gamma

-exp(-13)*sum((-1)^n*n!/13.^(n+1),n=0..13)-ln(13)+
sum((-1)^n*13^(n+1)/(n+1)/(n+1)!,n=0..49)

soit 0.577215664897 avec une erreur inférieure à 1.2e-11. Bien entendu, cette méthode est surtout intéressante si on veut calculer un grand nombre de décimales de la constante d’Euler, sinon on peut par exemple appliquer la méthode d’accélération de Richardson à la suite convergente (58) qui définit γ\gamma ou d’autres méthodes d’accélération (en transformant par exemple la série en série alternée). On calcule alors de deux manières différentes f(x)f(x) pour xx plus grand (déterminé par la précision qu’on peut obtenir par le développement aymptotique de ff).

On peut calculer π\pi de la même manière avec le développement en séries et asymptotique de la fonction sinus intégral (on remplace exponentielle par sinus dans la définition de ff) et l’égalité (dont un schéma de preuve est aussi donné plus bas) 0 +sin(t)tdt=π2(60) \int_0^{+\infty} \frac{\sin(t)}{t} \ dt = \frac{\pi}{2} \qquad (60)

Calcul de CC (et preuve de (60)):
Pour cela on effectue une intégration par parties, cette fois en intégrant 1/t1/t et en dérivant l’exponentielle (moins 1 dans la première intégrale). C = 0 1(e t1)1tdt+ 1 +e t1tdt = [(e t1)ln(t)] 0 1+ 0 1ln(t)e tdt+[e tln(t)] 1 ++ 1 +ln(t)e tdt = 0 +ln(t)e tdt \begin{matrix} C&=&\int_0^{1}(e^{-t}-1)\frac{1}{t} \ dt + \int_1^{+\infty} e^{-t} \frac{1}{t} \ dt\\ &=&[(e^{-t}-1)\ln(t)]_0^1 +\int_0^1 \ln(t) e^{-t} \ dt + [e^{-t} \ln(t)]_1^{+\infty} +\int_1^{+\infty} \ln(t) e^{-t} \ dt \\ &=& \int_0^{+\infty} \ln(t) e^{-t} \ dt \end{matrix} Pour calculer cette intégrale, on utilise l’égalité (qui se démontre par récurrence en faisant une intégration par parties) : n!= 0 +t ne tdt n!= \int_0^{+\infty}t^n e^{-t} \ dt On va à nouveau intégrer par parties, on intègre un facteur multiplicatif 1 et on dérive l’intégrand, on simplifie, puis on intègre tt et on dérive l’autre terme, puis t 2/2t^2/2, etc. C = [te tln(t)] 0 + 0 +te t(1tln(t))dt = 0 0 +e tdt+ 0 +te tln(t)dt = 1+[t 22e tln(t)] 0 + 0 +t 22e t(1tln(t))dt = 1 0 +t2e t+ 0 +t 22e tln(t)dt = 112+ 0 +t 22e tln(t)dt = ... = 112...1n+ 0 +t nn!e tln(t)dt = 112...1n+ln(n)+I n \begin{matrix} C&=&[te^{-t} \ln(t)]_0^{+\infty} - \int_0^{+\infty} t e^{-t}(\frac{1}{t}-\ln(t)) \ dt \\ &=& 0 - \int_0^{+\infty} e^{-t} \ dt + \int_0^{+\infty} t e^{-t} \ln(t) \ dt \\ &=& -1 + [\frac{t^2}{2}e^{-t} \ln(t)]_0^{+\infty} - \int_0^{+\infty} \frac{t^2}{2} e^{-t}(\frac{1}{t}-\ln(t)) \ dt \\ &=& -1 - \int_0^{+\infty} \frac{t}{2} e^{-t} + \int_0^{+\infty} \frac{t^2}{2} e^{-t} \ln(t) \ dt \\ &=& -1 - \frac{1}{2} + \int_0^{+\infty} \frac{t^2}{2} e^{-t} \ln(t) \ dt \\ &=& ...\\ &=& -1 - \frac{1}{2} - ... - \frac{1}{n} + \int_0^{+\infty} \frac{t^n}{n!} e^{-t} \ln(t) \ dt \\ &=& -1 - \frac{1}{2} - ... - \frac{1}{n} + \ln(n) + I_n \end{matrix} I n= 0 +t nn!e t(ln(t)ln(n))dt I_n=\int_0^{+\infty} \frac{t^n}{n!} e^{-t} (\ln(t)-\ln(n)) \ dt Pour déterminer I nI_n on fait le changement de variables t=nut=nu I n = 0 +(nu) nn!e nuln(u)ndu = n n+1n! 0 +e n(ln(u)u)ln(u)du \begin{matrix} I_n&=&\int_0^{+\infty} \frac{(nu)^n}{n!} e^{-nu} \ln(u) n\ du \\ &=& \frac{n^{n+1}}{n!} \int_0^{+\infty} e^{n(ln(u)-u)} \ln(u) \ du \end{matrix} Or en faisant le même changement de variables t=nut=nu : n!= 0 +t ne tdt=n n+1 0 +e n(ln(u)u)du n!= \int_0^{+\infty}t^n e^{-t} \ dt = n^{n+1} \int_0^{+\infty} e^{n(ln(u)-u)} \ du Donc I n= 0 +e n(ln(u)u)ln(u)du 0 +e n(ln(u)u)du I_n= \frac{\int_0^{+\infty} e^{n(ln(u)-u)} \ln(u) \ du} {\int_0^{+\infty} e^{n(ln(u)-u)} \ du} Lorsque nn tend vers l’infini, on peut montrer que I n0I_n \rightarrow 0, en effet les intégrales sont équivalentes à leur valeur sur un petit intervalle autour de u=1u=1, point où l’argument de l’exponentielle est maximal, et comme l’intégrand du numérateur a une amplitude ln(u)\ln(u) qui s’annule en u=1u=1, il devient négligeable devant le dénominateur. Finalement on a bien C=γC=-\gamma.

On peut remarquer qu’en faisant le même calcul que CC mais en remplacant e te^{-t} par e αte^{-\alpha t} pour (α)>0\Re(\alpha)&gt;0, donne limI n=ln(α)\lim I_n=-\ln(\alpha) (car le point critique où la dérivée de la phase s’annule est alors 1/α1/\alpha). Ceci peut aussi se vérifier pour α\alpha réel en faisant le changement de variables αt=u\alpha t=u 0 1(e αt1)1tdt+ 1 +e αt1tdt=γln(α) \int_0^{1}(e^{-\alpha t}-1)\frac{1}{t} \ dt + \int_1^{+\infty} e^{-\alpha t} \frac{1}{t} \ dt = -\gamma -\ln(\alpha) En faisant tendre α\alpha vers i-i, ln(α)-\ln(\alpha) tend vers ln(i)=iπ2\ln(i)=i\frac{\pi}{2} et on obtient 0 1(e it1)1tdt+ 1 +e it1tdt=γ+iπ2 \int_0^{1}(e^{it}-1)\frac{1}{t} \ dt + \int_1^{+\infty} e^{i t} \frac{1}{t} \ dt = -\gamma + i \frac{\pi}{2} dont la partie imaginaire nous donne (60), et la partie réelle une autre identité sur γ\gamma faisant intervenir la fonction cosinus intégral.

24.8  Séries formelles.

On peut aussi s’intéresser aux séries d’un point de vue purement algébrique en mettant de coté tous les aspects liés à la convergence. On parle alors de série formelle. Si le corps de base est de caractéristique quelconque on peut faire les opérations arithmétiques usuelles sur les séries formelles k0a kx k\sum_{k\geq 0} a_k x^k. Si la caractéristique est nulle, on peut également calculer les fonctions usuelles. Dans Xcas, on déclare la variable de série formelle par la commande series avec en argument le caractère désignant la variable, par exemple series("h") utilisera h comme variable, series("h",8) utilisera h comme variable et fixera l’ordre par défaut pour les développements à 8. Si la variable O n’est pas affectée, elle sera définie pour donner l’ordre de la série. Ainsi 1+h+O(h^7) sera une série dont on connait les termes jusqu’à l’ordre 6 inclus. Les opérations usuelles sont implémentées dans Xcas

On peut aussi appliquer les fonctions usuelles en caractéristique 0, par exemple

Pour travailler avec un autre corps de base, il suffit de donner des coefficients dans ce corps. Si la caractéristique du corps est assez grande, les fonctions usuelles sont aussi applicables.

Les opérations sur les séries sont implémentées sans optimisation particulière, leur utilisation principale dans Xcas étant le calcul de développement de Taylor ou asymptotique sur \mathbb{Q}.

Chapitre 25  La transformée de Fourier discrète.

25.1  Définition et propriétés

Soit NN un entier fixé. Une suite xx périodique de période NN est déterminée par le vecteur x=[x 0,x 1,...x N1]x=[x_0,x_1,...x_{N-1}]. La transformée de Fourier discréte (DFT) notée F NF_N fait correspondre à une suite xx périodique de période NN une autre suite yy périodique de période NN, définie pour k=0..N1k=0..N-1 par : (F N(x)) k=y k= j=0 N1x jω N kj, {(F_N(x))}_k=y_k=\sum_{j=0}^{N-1} x_j \omega_N^{-k\cdot j}, ω N\omega_N est une racine NN-ième primitive de l’unité, on prend ω=e 2iπN\omega=e^{\frac{2i\pi}{N}} si xx est à coefficients réels ou complexes.

On observe que si la suite xx est la suite des valeurs d’une fonction périodique ff sur une discrétisation de la période, alors la transformée de Fourier discrète est la suite des valeurs approchées des coefficients de Fourier obtenus en appliquant la méthode des trapèzes sur cette discrétisation.

Cette transformation est linéaire, la transformée de la somme de 2 suites est la somme des transformées, et la transformée du produit par une constante d’une suite est le produit par cette constante de la transformée de la suite.

La transformée de Fourier discréte F NF_N est une transformation bijective dont la réciproque est donnée par : F N 1=1NF N¯,(F N 1(y)) k=1N j=0 N1y jω N kj F_N^{-1}=\frac{1}{N} \overline{F_N}, \quad {(F_N^{-1}(y))}_k=\frac{1}{N}\sum_{j=0}^{N-1}y_j\omega_N^{k\cdot j} On le prouve en remplaçant yy par sa valeur : (F N 1(y)) k = 1N j=0 N1 l=0 N1x lω N jlω N kj = 1N j=0 N1 l=0 N1x lω N j(kl) = 1N l=0 N1x l j=0 N1(ω N (kl)) j = 1N l=0 N1x l{1(ω N (kl)) N1ω N (kl) si ω N (kl)1 N si ω N (kl)=1 \begin{matrix} {(F_N^{-1}(y))}_k &=& \frac{1}{N}\sum_{j=0}^{N-1} \sum_{l=0}^{N-1} x_l \omega_N^{-j\cdot l} \omega_N^{k\cdot j} \\ &=& \frac{1}{N}\sum_{j=0}^{N-1} \sum_{l=0}^{N-1} x_l \omega_N^{j (k-l)} \\ &=& \frac{1}{N} \sum_{l=0}^{N-1} x_l \sum_{j=0}^{N-1} (\omega_N^{(k-l)})^j \\ &=& \frac{1}{N} \sum_{l=0}^{N-1} x_l \left\{ \begin{array}{lcl} \frac{1-(\omega_N^{(k-l)})^N}{1-\omega_N^{(k-l)}} & \mbox{si} & \omega_N^{(k-l)}\neq 1 \\ N & \mbox{si} & \omega_N^{(k-l)} = 1 \end{array} \right. \end{matrix} Or si ω N kl=e 2iπ(kl)/N=1\omega_N^{k-l}=e^{2i\pi(k-l)/N}=1 si et seulement si k=lk=l d’où le résultat.

Remarque : dans le cas complexe ω=e 2iπ/N\omega=e^{2i\pi/N}, on peut interpréter la DFT en termes du produit scalaire hermitien <x|y>= j=0 N1x¯ jy j&lt;x|y&gt;=\sum_{j=0}^{N-1} \overline{x}_j y_j sur l’espace N\mathbb{C}^N, on a une base orthogonale donnée par les {W k=(ω jk) j=0..N1,k=0..N1}\{ W_k=(\omega^{jk})_{j=0..N-1}, k=0..N-1\}, la DFT d’une suite xx est le calcul des produits scalaires <W k|x>&lt;W_k|x&gt;, et la récriproque est l’écriture de xx dans cette base orthogonale.

Propriété
La transformée de Fourier discrète d’une suite réelle vérifie y Nk=y k¯y_{N-k}=\overline{y_k}.
La preuve est immédiate en appliquant la définition.

Un des intérêts de la DFT est de mettre en évidence rapidement d’éventuelles périodicités de xx divisant NN. Plus précisément soit jj est un entier divisant NN. Considérons une suite réelle xx dont la DFT yy est nulle sauf y ly_l et y Nly_{N-l}. Par linéarité, on peut se ramener à 2 cas y l=y Nl=1y_l=y_{N-l}=1 et y l=i,y Nl=iy_l=i, y_{N-l}=-i. Dans le premier cas, on obtient x k=ω N lk+ω N lk=2cos(2πkl/N)x_k=\omega_N^{lk}+\omega_N^{-lk}=2\cos(2\pi kl/N), dans le deuxième cas, on obtient x k=2sin(2πkl/N)x_k=-2\sin(2\pi kl/N), qui sont périodiques de période N/lN/l.

Réciproquement, si xx a comme période T=N/lT=N/l, alors en posant j=Tm+rj=T m + r avec m[0,l[m\in[0,l[ et r[0,T1]r\in[0,T-1], on a x j=x rx_j=x_r donc : y k = j=0 N1x jω N kj = m=0 l1 r=0 T1x rω N k(Tm+r) = r=0 T1x r m=0 l1ω N k(Tm+r) = r=0 T1x rω N kr m=0 l1(ω N kT) m = r=0 T1x rω N kr1(ω N kT) l1ω N kT \begin{matrix} y_k &=&\sum_{j=0}^{N-1} x_j \omega_N^{-k\cdot j} \\ &=&\sum_{m=0}^{l-1} \sum_{r=0}^{T-1} x_r \omega_N^{-k (T m+r)} \\ &=&\sum_{r=0}^{T-1} x_r \sum_{m=0}^{l-1} \omega_N^{-k (T m+r)} \\ &=& \sum_{r=0}^{T-1} x_r \omega_N^{-kr} \sum_{m=0}^{l-1} (\omega_N^{-kT})^m \\ &=& \sum_{r=0}^{T-1} x_r \omega_N^{-kr} \frac{1-(\omega_N^{-kT})^l}{1-\omega_N^{-kT}} \end{matrix} si ω N kT1\omega_N^{-kT} \neq 1. Comme (ω N kT) l=ω N klT=1(\omega_N^{-kT})^l=\omega_N^{-klT}=1, y k=0y_k=0 si kT=kN/lkT=kN/l n’est pas un multiple de NN. Finalement si kk n’est pas un multiple de ll, alors y k=0y_k=0.

Voyons maintenant le cas de “pseudo-périodes”, supposons donc que xx est périodique de période NN mais que de plus pour un T>0T&gt;0 quelconque (ne divisant pas forcément NN), on ait x j+T=x j,j[0,NT] x_{j+T}=x_j, \quad \forall j \in[0,N-T] On peut refaire le raisonnement ci-dessus, modulo des erreurs. plus précisément : y k j=N ceil(N/T)Tx jω N kj= m=0 ceil(N/T) r=0 T1x rω N k(Tm+r) y_k - \sum_{j=N}^{\mbox{ceil}(N/T)T}x_j \omega_N^{-k\cdot j} = \sum_{m=0}^{\mbox{ceil}(N/T)} \sum_{r=0}^{T-1} x_r \omega_N^{-k (T m+r)} On calcule donc y ky_k à une erreur de ceil(N/T)TN\mbox{ceil}(N/T)T-N termes majorés par |x j||x_j| près. Et le membre de droite vaudra : r=0 T1x rω N kr1ω N kceil(N/T)T1ω N kT \sum_{r=0}^{T-1} x_r \omega_N^{-kr} \frac{1-\omega_N^{-k\mbox{ceil}(N/T) T}}{1-\omega_N^{-kT}} Le module de la fraction est égal à |sin(πkceil(N/T)T/N)sin(πkT/N)|=|sin(πk(ceil(N/T)T/N1))sin(πkT/N)| |\frac{\sin(\pi k \mbox{ceil}(N/T) T/N)}{\sin(\pi k T/N)} | = |\frac{\sin(\pi k (\mbox{ceil}(N/T) T/N-1))}{\sin(\pi k T/N)} | il est petit si kk n’est pas proche d’un multiple de ceil(N/T)\mbox{ceil}(N/T). Par exemple, prenons N=2 16=65536N=2^16=65536 et TN/10=6554T \approx N/10 =6554. Dans ce cas ceil(N/T)T=10×6554=65540\mbox{ceil}(N/T)T=10 \times 6554=65540, il y a donc une erreur de 4 termes sur le calcul de y ky_k. Si kk n’est pas proche d’un multiple de 10, on doit trouver y ky_k proche de 0 relativement à la valeur des |x j||x_j|.

Les périodes et pseudo-périodes de xx correspondent donc aux valeurs de y ky_k grandes par la règle kk * période =NN.

25.2  La transformée de Fourier rapide

Le calcul de la DFT est relativement lent, il nécessite de l’ordre de N 2N^2 opérations, car il revient à calculer la valeur du polynôme de degré N1N-1: P(X)= j=0 N1x jX j P(X)=\sum_{j=0}^{N-1} x_j X^j aux NN points 11, ω N\omega_N, ..., ω N N1\omega_N^{N-1} (on a y k=P(ω N k)y_k=P(\omega_N^k)). Mais si NN est une puissance de 2, on peut calculer de manière plus astucieuse et réduire le nombre d’opérations à un ordre T(N)=O(Nln(N))T(N)=O(N \ln(N)). En effet N=2MN=2M, on prend les puissances paires et impaires de PP P(x)=Q(x 2)+xR(x 2)P(x)=Q(x^2)+xR(x^2) On a alors P(ω k)=Q((ω 2) k)+ω kR((ω 2) k)P(\omega^k)=Q( (\omega^2)^k)+\omega^k R((\omega^2)^k) On calcule les DFT de QQ et RR, puis pour chaque valeur de kk on a 1 multiplication et 1 addition donc 4M4M opérations plus le calcul de deux DFT d’ordre MM (on peut économiser MM multiplications en utilisant ω k+M=ω k\omega^{k+M} =-\omega^k). On a donc T(2M)=cM+2T(M)T(2M)=cM+2T(M) avec c=4c=4 ou c=3c=3. Si N=2 nN=2^n on a T(2 n)=c2 n1+2T(2 n1)=c2 n1+2(c2 n2+2T(2 n2)=...=nc2 n1+2 nT(0)T(2^n)=c2^{n-1}+2T(2^{n-1}) = c2^{n-1}+2(c2^{n-2}+2T(2^{n-2}) =...=nc2^{n-1}+2^nT(0) donc T(2 n)cn2 n1T(2^n) \approx cn2^{n-1} opérations, donc O(Nln(N))O(N\ln(N)) opérations.

Une méthode alternative consiste à découper PP en 2 parties de même longueur : P(x)=x MQ(X)+R(X) P(x)=x^M Q(X) + R(X) on a alors P(ω 2k) =(Q+R)((ω 2) k), P(ω 2k+1) =(Q+R) ω((ω 2) k) o\`u S ω(x)=s kω kx k \begin{matrix} P(\omega^{2k}) &= (Q+R) ((\omega^2)^{k}), \\ P(\omega^{2k+1}) &= (-Q +R)_\omega ((\omega^2)^k) \quad &\mbox{ o\`u } S_\omega(x)=\sum s_k \omega^k x^k \end{matrix} On est donc ramené à deux additions de 2 polynômes de degré MM, une multiplication coefficient par puissances sur un polynôme de degré MM (soit 3M3M opérations), et au calcul des deux DFT de Q+RQ+R et RQR-Q. Lorsqu’on implémente cette méthode de manière efficace, on calcule le résultat de la DFT en place (en écrasant PP par sa DFT) il faut utiliser un espace mémoire de travail de même longueur que le polynme de départ, on en utilise la première partie pour calculer Q+RQ+R et la seconde partie pour (RQ) ω(R-Q)_\omega. On calcule les deux DFT en utilisant comme espaces mémoire de travail la zone qui contient PP (qui sera donc perdu), puis on effectue les permutations donnant la DFT de PP à partir de celles de QQ et RR en écrasant la zone qui contenait PP.

On appelle alors FFT cette méthode de calcul (DFT=FFT si N=2 nN=2^n).

Cette méthode se généralise à des NN qui ne sont pas des puissances de 2.

25.3  Applications.

La DFT peut servir à trouver des périodes dans des données expérimentales datées. On peut par exemple le voir sur des enregistrements de son (par exemple avec le logiciel libre audacity), mais dans bien d’autres domaines, par exemple si on l’applique aux données issues des paléoclimats, on voit apparaitre les périodicités des paramètres orbitaux de la Terre, en phase avec la théorie de Milankovitch.

En calcul exact, la FFT permet d’obtenir une complexité optimale pour calculer des produits de grands entiers ou de polynômes en une variable. La session multfftdu menu Aide, Exemples, arit de Xcas implémente le principe du calcul du produit PP de deux polynômes AA et BB à coefficients entiers en utilisant un seul nombre premier pp tel que

Un nombre premier pp ayant ces propriétés est appelé nombre premier de Fourier. On écrit les coefficients de AA et BB dans un vecteur de longueur 2 n2^n en complétant par des 0, on calcule la DFT de AA et de BB, puis on fait le produit élément par élément puis on calcule la DFT inverse.

Exemple : on cherche des nombres premiers de la forme p=k2 n+1p=k2^n+1 par exemple p=7×2 20+1p=7\times 2^{20}+1 est premier,
on cherche un générateur de /p\mathbb{Z}/p\mathbb{Z}

for(g:=2;g<p;g++){ 
  if (powmod(g,(p-1)/2,p)!=1 and powmod(g,(p-1)/7,p)!=1) break;
}:; g;


on en déduit une racine primitive 2 202^{20}-ième de l’unité
puis en prenant la puissance 2 nk2^{n-k}-ième de rr on obtient une racine 2 k2^k-ième de 1 qui permettra de multiplier deux polynômes dont la somme des degrés est strictement inférieure à 2 k2^k, par exemple pour aa et bb de degrés 5 et 7, on prendra k=4k=4

on allonge aa et bb avec des 0 pour les amener à la taille 16=2 k16=2^k
on calcule les transformées de Fourier rapide de aa et bb
puis on fait le produit terme à terme et on applique la transformée de Fourier inverse
On peut comparer avec le produit calculé par Xcas
Bien entendu les tailles de aa et bb prises ici en exemple sont trop petites pour que l’algorithme soit efficace.

Pour une implémentation efficace, on utilise plusieurs nombres premiers et les restes chinois (en fait à deux reprises). On calcule le produit des polynômes modulo plusieurs nombres premiers p ip_i, dont le produit p i\prod p_i est supérieur à deux fois la norme infinie de PP pour pouvoir en déduire PP. Pour calculer un des produits AB(modp i)AB \pmod {p_i}, on réduit AA et BB modulo p ip_i, on multiplie les polynômes réduits A¯B¯\overline{A} \overline{B} comme s’ils étaient à coefficients entiers et on r’eduit le résultat modulo p ip_i. Le calcul de chaque A¯B¯\overline{A}\overline{B} (p ip_i fixé) se fait en utilisant 2 ou 3 premiers choisis une fois pour toutes qui sont proches de 2 312^{31} et ont des racines 2 n2^n-ième de l’unité pour nn assez proche de 31. Ainsi, Law et Monagan, proposent dans“A parallel implementation for polynomial multiplication modulo a prime”, PASCO 2015,

On peut retrouver ces nombres premiers avec une boucle comme suit
et la valeur d’une racine 2 m2^m-ième comme suit

n:=2013265921;
pour k de 2 jusque 100 faire
 a:=powmod(k,(n-1)/3,n); b:=powmod(k,(n-1)/5,n); c:=powmod(k,(n-1)/2,n);
 print(k,a,b,c);
 si a!=1 et b!=1 et c!=1 alors break; fsi;
fpour;
r:=powmod(k,15,n);
powmod(r,2^26,n); powmod(r,2^27,n);


Ce choix de valeurs de n 1,n 2,n 3n_1, n_2, n_3 permet de multiplier des polynômes dont le degré du produit est strictement inférieur à 2 262^{26} (environ 67 millions). Si on utilise deux de ces 3 premiers, n 1n_1 et n 2n_2, on peut prendre des p ip_i dont la taille en bits est plus petite que (60 bits moins le nombre de bits du degré minimal de AA et BB) divisé par 2. Avec les trois n 1n_1, n 2n_2 et n 3n_3 on peut prendre p ip_i ayant 31 bits, mais il faut travailler si on veut éviter de faire des restes chinois avec des entiers de plus de 64 bits (ce qui est possible avec des entiers 128 bits mais au prix de réductions modulo couteuses).

On peut aussi lorsque le degré total du produit et des coefficients n’est pas trop grand utiliser des nombres premiers de Fourier de taille machine.

Remarque : on peut déterminer une racine primitive 2 m2^{m}-ième d’un nombre premier de Fourier pp sans chercher un générateur de Z/pZ *\Z/p\Z^* donc sans factoriser complètement p1p-1, on cherche r=k (p1)/2 mr=k^{(p-1)/2^m} tel que r 2 m1=p1r^{2^{m-1}}=p-1 (mod pp), par exemple
:=2013265921; m:=16; pour k de 2 jusque 100 faire r:=powmod(k,(p-1)/2**m,p); si powmod(r,2**(m-1),p)=p-1 alors break; fsi; fpour; r;

On peut enfin travailler dans l’anneau /N\mathbb{Z}/N\mathbb{Z} avec N=2 Rm+1,m=2 lN=2^{Rm}+1, m=2^l, ω=2 R\omega=2^R joue alors le rôle de racine primitive 2m=2 l+12m=2^{l+1}-ième de l’unité. La réduction modulo NN est optimisée en observant que a=Nq+ra=Nq+r devient a=2 Rmq+q+ra=2^{Rm}q+q+r, on calcule le quotient et le reste de aa par 2 Rm2^{Rm}, on fait la somme et on soustrait NN si nécessaire. Ceci suppose que la somme des degrés des polynômes à multiplier soit plus petite que mm, avec des coefficients de taile plus petite que N/m\sqrt{N/m}. C’est intéressant lorsque le nombre de bits des coefficients est au moins égal aux degrés des polynômes.

Chapitre 26  Le rayonnement solaire.

26.1  L’insolation au cours de l’année.

Pour connaitre la quantité d’énergie recue à un moment donné, il faut calculer l’angle entre la verticale du lieu et la direction du Soleil. Plus généralement, on va calculer les composantes du vecteur Terre-Soleil et les composantes des vecteurs de la base locale (verticale locale, direction du Sud et direction du parallèle). On choisit d’abord comme référence le plan TxyTxy de l’écliptique (plan de l’orbite de la Terre autour du Soleil), avec TyTy orthogonal à l’axe de rotation de la Terre (donc TxTx la projection de l’axe de rotation de la Terre sur ce plan). Soit θ\theta l’angle que fait la Terre avec la direction du passage au périhélie, et θ 0\theta_0 l’angle de la position de la Terre au solstice d’hiver avec la direction du périhélie, l’angle entre la direction Terre-Soleil et TxTx est donc θθ 0\theta-\theta_0
Dans TxyzTxyz le vecteur unitaire ss de la direction Terre-Soleil a pour coordonnées : s=(cos(θθ 0),sin(θθ 0),0) s=-(\cos(\theta-\theta_0),\sin(\theta-\theta_0),0) On effectue ensuite une rotation autour de TyTy d’angle ii l’inclinaison de l’axe de rotation de la Terre. On obtient ainsi un repère TXyZTXyZ (TXTX et TZTZ se déduisent de TxTx et TzTz par rotation d’angle ii). Dans ce repère le vecteur untaire ss a pour coordonnées : s=(cos(θθ 0)cos(i),sin(θθ 0),cos(θθ 0)sin(i)) s=-(\cos(\theta-\theta_0)\cos(i),\sin(\theta-\theta_0), \cos(\theta-\theta_0)\sin(i)) Calculons maintenant dans ce repère TXyZTXyZ les coordonnées des vecteurs de la base locale. On se place en un point de latitude ll et de longitude ϕ\phi, on note JJ la durée d’une période de révolution de la Terre sur elle-même (23 heures 56 minutes, c’est un peu moins d’un jour car il faut encore en moyenne 4 minutes pour compenser le déplacement de la Terre sur son orbite autour du Soleil). La verticale locale a pour coordonnées : v=(cos(l)cos(ϕ+2πt/J),cos(l)sin(ϕ+2πt/J),sin(l)) v=(\cos(l)\cos(\phi+2\pi t/J),\cos(l)\sin(\phi+2\pi t/J),\sin(l)) L’énergie solaire recue au lieu donné (sur une surface horizontale ; pour un panneau solaire, il faudrait calculer les coordonnées d’un vecteur perpendiculaire au panneau) est proportionnelle à s.vρ 2 \frac{s.v}{\rho^2} ρ(θ)=a(1e 2)/(1+ecos(θ))\rho(\theta)=a(1-e^2)/(1+e\cos(\theta)) désigne la distance Terre-Soleil. Le calcul de s.vs.v donne, en notant φ=ϕ+2πt/J\varphi=\phi+2\pi t/J : s.v=cos(l)cos(φ)cos(θθ 0)cos(i)+cos(l)sin(φ)sin(θθ 0)+sin(l)cos(θθ 0)sin(i) -s.v = \cos(l) \cos(\varphi) \cos(\theta-\theta_0)\cos(i) + \cos(l)\sin(\varphi) \sin(\theta-\theta_0) + \sin(l) \cos(\theta-\theta_0)\sin(i) On rassemble les deux premiers termes qui dépendent rapidement du temps par l’intermédiaire de φ\varphi (le 3ème terme n’en dépend que par θ\theta qui ne varie que d’environ 1 degré pendant une journée) et on applique la formule de trigonométrie: Acosα+Bsinα=A 2+B 2cos(αα 0),{cos(α 0) = AA 2+B 2 sin(α 0) = BA 2+B 2 A \cos \alpha + B \sin \alpha = \sqrt{A^2+B^2} \cos(\alpha-\alpha_0), \quad \left\{ \begin{array}{ccc} \cos(\alpha_0) &=& \frac{A}{\sqrt{A^2+B^2}} \\ \sin(\alpha_0)&=&\frac{B}{\sqrt{A^2+B^2}} \end{array} \right. Ici, après avoir factorisé cos(l)\cos(l), on a : A 2+B 2=cos(θθ 0) 2cos(i) 2+sin(θθ 0) 2=1sin(i) 2cos(θθ 0) 2 \sqrt{A^2+B^2}=\sqrt{ \cos(\theta-\theta_0)^2\cos(i)^2+\sin(\theta-\theta_0)^2 } = \sqrt{1 - \sin(i)^2 \cos(\theta-\theta_0)^2 } On peut aussi calculer tan(α 0)=BA=tan(θθ 0)cos(i) \tan(\alpha_0)=\frac{B}{A} = \frac{\tan(\theta-\theta_0)}{\cos(i)} qui donne α 0\alpha_0 modulo π\pi et compléter en regardant le quadrant où se trouve (A,B)(A,B), ici α 0\alpha_0 et θθ 0\theta-\theta_0 sont tous deux dans [0,π][0,\pi] ou tous deux dans [π,0][-\pi,0]. Finalement, on obtient le

Théorème 71   L’énergie solaire recue au sol est proportionnelle à (1+ecos(θ)) 2s.v (1+e\cos(\theta))^2 s.v s.vs.v est donné par : s.v=cos(l)1sin(i) 2cos(θθ 0) 2cos(φφ 0)sin(l)cos(θθ 0)sin(i) s.v = - \cos(l) \sqrt{1 - \sin(i)^2 \cos(\theta-\theta_0)^2 } \cos(\varphi-\varphi_0) - \sin(l) \cos(\theta-\theta_0)\sin(i) et 
  • ee est l’excentricité de l’orbite elliptique (environ 0.0167 actuellement)
  • ii est l’obliquité (inclinaison de l’axe de rotation de la Terre, environ 23 degré 27 minutes actuellement)
  • θ\theta est l’angle fait par la direction Terre-Soleil avec la direction du demi grand axe (Soleil-périhélie), θ 0\theta_0 le même angle au solstice d’hiver de l’hémisphère Nord (environ -13 degrés). En première approximation, on peut faire varier θ\theta proportionnellement au temps, voir la fin de la section 26.6 pour un calcul plus précis.
  • ll est la latitude, φ\varphi la longitude tenant compte de la rotation de la Terre (somme de la longitude géographique ϕ\phi et du terme dépendant du temps 2πt/J2\pi t/J)
  • φ 0[π,π]\varphi_0 \in [-\pi,\pi] est de même signe que θθ 0\theta-\theta_0 et est défini par : tanφ 0=tan(θθ 0)cos(i)(61) \tan \varphi_0 = \frac{\tan(\theta-\theta_0)}{\cos(i)} \qquad (61)

Variations de s.vs.v au cours d’une journée dans l’approximation où θ\theta ne varie pas :
On obtient une sinusoide entre les deux valeurs extrêmes : ±cos(l)1sin(i) 2cos(θθ 0) 2sin(l)cos(θθ 0)sin(i) \pm \cos(l) \sqrt{1 - \sin(i)^2 \cos(\theta-\theta_0)^2 } - \sin(l) \cos(\theta-\theta_0)\sin(i) Le maximum est atteint pour φ=φ 0+π2πt/J=φ 0ϕ+π,J=23h56m \varphi=\varphi_0+ \pi \ \Rightarrow \ 2 \pi t/J = \varphi_0 - \phi + \pi, \quad J=23h56m le moment correspondant est appelé culmination (c’est le midi solaire si le maximum est positif) et ne dépend pas de la latitude (bien entendu la valeur du maximum en dépend). Si le maximum est négatif ou nul, la nuit dure 24h. Si le minimum est positif ou nul, le jour dure 24h. Par exemple au solstice d’hiver, θ=θ 0\theta=\theta_0, selon la latitude on obtient un maximum négatif pour l=π/2l=\pi/2 (pole Nord), positif pour l=π/2l=-\pi/2 (pole Sud), le minimum et le maximum croissent entre ces 2 valeurs. Si le maximum est positif et le minimum est négatif, il y a 2 instants ou s.v=0s.v=0 (lever et coucher du soleil).

L’énergie solaire recue pendant une journée par une surface horizontale est proportionnelle à l’intégrale entre le lever et le coucher de s.v/ρ 2s.v/\rho^2. S’il n’y a pas de lever/coucher, soit on ne recoit rien (nuit polaire), soit on recoit l’intégrale entre 0 et 24h de s.vs.v (jour polaire).

L’intervalle entre 2 culminations n’est pas constant au cours de l’année, car φ 0\varphi_0 n’est pas une fonction linéaire de θ\theta (qui lui même n’est pas linéaire en fonction du temps sauf en première approximation avec une orbite terrestre circulaire). On peut le calculer en dérivant (61). Par exemple dans l’approximation d’une excentricité nulle, au solstice d’hiver (θ=θ 0\theta=\theta_0), on obtient φ 0=0,(1+0 2)dφ 0=(1+0 2)dθcos(i) \varphi_0= 0, \quad (1+0^2) d\varphi_0 = (1+0^2)\frac{d\theta} {\cos(i)} avec dθd\theta qui correspond à 4 minutes, on trouve dφ 0d\varphi_0 correspondant à 4.36 minutes. L’écart entre 2 culminations est donc d’environ 24h 20secondes. Au moment du solstice, le Soleil se lève et se couche donc environ 20 secondes plus tard entre un jour et son lendemain, dans l’hypothèse d’un mouvement circulaire de la Terre autour du Soleil. En réalité, l’orbite terrestre étant faiblement elliptique, l’écart est un peu moins de 30 secondes en hiver et de 15 secondes en été, le mouvement de la Terre autour du Soleil étant plus rapide d’environ 3% au solstice d’hiver et moins rapide d’environ 3% au solstice d’été. Comme 3% de l’écart moyen entre 2 culminations (4 minutes=240 secondes) correspond à 7 secondes cela explique la différence.

26.2  Les saisons

Les solstices sont définis par les 2 points de l’orbite où la projection de l’axe de rotation terrestre est parallèle à l’axe Terre-Soleil. Les équinoxes sont définis par les 2 points où il y a perpendicularité. Au solstice d’hiver, on voit que les parallèles situés aux hautes latitudes Nord ne sortent jamais de l’obscurité. Aux latitudes intérmédiaires, le morceau de parallèle situé au jour est nettement plus petit que celui situé dans l’obscurité. À l’équinoxe de printemps, chaque parallèle est à moitié au jour et à moitié dans l’obscurité (derrière la grille). Au printemps, la situtation est analogue. Au solstice d’été, on est dans la situation inverse de l’hiver.

26.3  L’orbite de la Terre.

En première approximation, l’orbite de la Terre est uniquement influencée par la force de gravitation entre la Terre et le Soleil, ce dernier pouvant être considéré comme fixe en raison de sa masse (on peut éviter cette approximation en remplaçant le Soleil par le centre de gravité du système Terre-Soleil). La force de gravitation qui dérive d’un potentiel inversement proportionnel à la distance Terre-Soleil est de la forme F=Fm T=Krr 3,K=μ<0 {\bf F'}=\frac{{\bf F}}{m_T}= K \frac{\bf r}{r^3}, \quad K=-\mu&lt;0 r{\bf r} désigne le vecteur Terre-Soleil, m Tm_T est la masse de la Terre, μ=Gm S\mu=Gm_S est le produit de la constante de gravitation universelle par la masse du Soleil. Le moment cinétique de la rotation de la Terre autour du Soleil est défini par : L=rdrdt {\bf L} = {\bf r} \wedge \frac{d \bf r}{dt} On vérifie que sa dérivée est nulle, donc L{\bf L} garde une direction fixe k, orthogonale à r{\bf r}, l’orbite de la Terre reste donc dans le plan défini à un instant donné par l’axe Terre-Soleil et le vecteur vitesse de la Terre. De plus la conservation de L entraine la loi des aires, l’aire balayée par le rayon Soleil-Terre est proportionnelle au temps.

On utilise un repère en coordonnées polaires centré au Soleil, ρ\rho désignant la distance Terre-Soleil et θ\theta l’angle fait par rapport à une direction fixe, on a alors L=ρ 2dθdtk {\bf L} = \rho^2 \frac{d\theta}{dt} {\bf k} car si on calcule en coordonnées polaires dr/dtd {\bf r}/dt, la composante sur le vecteur radial e r{\bf e_r} est dρ/dtd\rho/dt, et la composante sur le vecteur perpendiculaire e θ{\bf e_\theta} est ρdθ/dt\rho d\theta/dt.

26.3.1  Calcul en utilisant le vecteur excentricité.

Montrons que le vecteur E=1μdrdtLrρ {\bf E}= \frac{1}{\mu} \frac{\bf dr}{dt} \wedge {\bf L} - \frac{\bf r}{\rho} est aussi conservé (où on rappelle que μ\mu provient de la force de gravitation F=F/m T=μr/r 3{\bf F'}={\bf F}/m_T=-\mu {\bf r}/r^3). Le deuxième terme est proportionnel au vecteur radial e r-{\bf e_r}, dont la dérivée est le vecteur orthogonal dθ/dte θ-d\theta/dt {\bf e_\theta}. Comme L{\bf L} est constant, la dérivée du premier terme est 1μFL=e rρ 2Lk=Lρ 2e θ=dθdtρ 2 \frac{1}{\mu} {\bf F'} \wedge {\bf L} = \frac{\bf -e_r}{\rho^2} \wedge L {\bf k} = \frac{L}{\rho^2} {\bf e_\theta} = - \frac{d\theta}{dt} \rho^2

Notons que E{\bf E} est dans le plan de l’orbite, prenons comme origine des angles pour repérer la Terre par rapport au Soleil la direction de E{\bf E}. En faisant le produit scalaire de E{\bf E} avec r{\bf r}, on obtient en notant ee la norme de EE eρcos(θ) = E.r = (1μdrdtLrρ).r = (1μdrdtL).rρ = 1μ(rdrdt).Lρ = 1μL.Lρ = L 2μρ \begin{matrix} e \rho \cos(\theta) &=& {\bf E}.{\bf r} \\ & = & (\frac{1}{\mu} \frac{\bf dr}{dt} \wedge {\bf L}- \frac{\bf r}{\rho}) .{\bf r} \\ & = & (\frac{1}{\mu} \frac{\bf dr}{dt} \wedge {\bf L}).{\bf r} - \rho \\ & = & \frac{1}{\mu} ({\bf r} \wedge \frac{\bf dr}{dt} ).{\bf L} - \rho \\ &= & \frac{1}{\mu} {\bf L}.{\bf L}- \rho \\ &= &\frac{L^2}{\mu} - \rho \end{matrix} d’où : ρ=L 2μ(1+ecos(θ)) \rho = \frac{L^2}{\mu(1+e \cos(\theta))}

26.3.2  Calcul par l’équation différentielle.

On a les équations de conservation de l’énergie et du moment cinétique : Kρ+m2((dρdt) 2+(ρdθdt) 2)=C 1,ρ 2dθdt=L,K<0,m>0 \frac{K}{\rho}+\frac{m}{2} \left( \left(\frac{d\rho}{dt}\right)^2 + \left(\rho \frac{d\theta}{dt} \right)^2 \right) =C_1, \quad \rho^2 \frac{d\theta}{dt} = L, \quad K&lt;0, m&gt;0 On change de variable dépendante pour ρ\rho, en prenant θ\theta au lieu de tt, comme dρdt=ρdθdt\frac{d\rho}{dt}=\rho' \frac{d\theta}{dt} (où ρ=dρdθ\rho'=\frac{d\rho}{d\theta}), on a : Kρ+m2((ρ 2+ρ 2)(Lρ 2) 2)=C 1 \frac{K}{\rho}+\frac{m}{2}\left( (\rho'^2+\rho^2) \left(\frac{L}{\rho^2}\right)^2 \right) = C_1 On effectue ensuite le changement de variable ρ=1/u\rho=1/u, ρ=u/u 2\rho'=-u'/ u^2, d’où : Ku+m2((u 2u 4+1u 2)L 2u 4)=C 1 K u + \frac{m}{2} \left( \left(\frac{u'^2 }{u^4}+\frac{1}{u^2}\right) L^2 u^4 \right) = C_1 soit : Ku+mL 22(u 2+u 2)=C 1 K u + \frac{mL^2}{2} ( u'^2+u^2) = C_1 donc : Ku+u 2+u 2=C 3,K=2KmL 2<0,C 3=2C 1mL 2 K' u + u^2 + u'^2 = C_3, \quad K'=\frac{2K}{mL^2} &lt;0, C_3=\frac{2C_1}{mL^2} On pose maintenant v=u+K/2v=u+K'/2, d’où : v 2+v 2=C 3+K 24=C 4 v^2 + v'^2 = C_3 + \frac{K'^2}{4} = C_4 On montre (en exprimant vv' en fonction de vv puis en séparant les variables), que cette équation différentielle a pour solution générale v=C 4cos(θθ 0) v= \sqrt{C_4} \cos(\theta-\theta_0) D’où : ρ=1u=1vK2=1C 4cos(θθ 0)K2 \rho = \frac{1}{u} = \frac{1}{v-\frac{K'}{2}} = \frac{1}{\sqrt{C_4} \cos(\theta-\theta_0)-\frac{K'}{2}} Comme K<0K'&lt;0 et comme la trajectoire de la Terre autour du Soleil passe par tous les angles (donc ρ\rho est défini pour tout θ\theta, le dénominateur ne peut pas s’annuler), on a : ρ=2K1+ecos(θθ 0),e[0,1[ \rho = \frac{\frac{2}{-K'}}{1+e \cos(\theta-\theta_0)}, \quad e \in [0,1[ On définit ensuite aa par 2K=a(1e 2)\frac{2}{-K'}=a(1-e^2), et on obtient finalement l’équation d’une ellipse dont l’origine (le Soleil) est un des foyers : ρ=a(1e 2)1+ecos(θθ 0) \rho = \frac{a(1-e^2)}{1+e \cos(\theta-\theta_0)} On suppose maintenant quitte à faire pivoter l’axe des xx que θ 0=0\theta_0=0.

26.3.3  Lois de Képler.

L’orbite de la Terre est donc une ellipse dont le Soleil occupe un des foyers (1ère loi de Képler). On a aussi vu que L=ρ 2dθ/dtL=\rho^2 d\theta/dt est constant, ceci entraine la loi des aires, infinitésimalement on a : 12ρ 2dθ=12Ldt \frac{1}{2}\rho^2 d\theta = \frac{1}{2} L dt ce qui se traduit par l’aire balayée par le rayon vecteur Soleil-Terre est proportionnelle au temps (2ème loi de Képler). Au cours d’une période TT, l’aire parcourue est celle de l’ellipse, donc πa 21e 2=12LT \pi a^2 \sqrt{1-e^2}=\frac{1}{2}LT En prenant le carré, et en appliquant L 2μ=a(1e 2) \frac{L^2}{\mu}= a(1-e^2) on en déduit la troisième loi de Képler : 4π 2a 3=μT 2a 3T 2=μ4π 2 4\pi^2 a^3 = \mu T^2 \Leftrightarrow \frac{a^3}{T^2} = \frac{\mu}{4\pi^2} où on rappelle que μ\mu est le produit de la constante de gravitation universelle par la masse du Soleil. (On peut évidemment faire le même calcul pour la Lune autour de la Terre).

26.4  Quelques propriétés de l’ellipse

Définition
L’ellipse EE de foyers F 1F_1 et F 2F_2 de demi-grand axe aa est l’ensemble des points MM du plan tels que MF 1+MF 2=2a MF_1+MF_2=2a

On note 2c=F 1F 22c=F_1F_2 la distance entre les deux foyers, qui doit être plus petite que 2a2a pour que l’ellipse soit non vide. L’excentricité de l’ellipse est définie par e=c/a<1e=c/a &lt; 1. Si e=0e=0, on obtient un cercle de centre F 1=F 2F_1=F_2 et de rayon aa. Si e0e\neq 0, on va voir qu’il s’agit d’un cercle contracté selon l’axe perpendiculaire à F 1F 2F_1F_2 dans un rapport de 1e 2\sqrt{1-e^2}. On va également calculer l’équation en coordonnées polaires de EE pour montrer que l’équation obtenue ci-dessus est bien celle d’une ellipse dont le Soleil occupe un foyer.

Soit OO le milieu de F 1F_1 et F 2F_2, on se place dans le repère orthonormé dont le premier axe OxOx contient F 1F_1 et F 2F_2 donc les coordonnées de F 1F_1 sont (c,0)(c,0) et celles de F 2F_2 sont (c,0)(-c,0). Soit M(x,y)M(x,y) un point de l’ellipse, on a d’une part : MF 1 2MF 2 2=(xc) 2(x+c) 2=4cx MF_1^2 - MF_2^2 = (x-c)^2-(x+c)^2 = -4cx et d’autre part : MF 1 2MF 2 2=(MF 1+MF 2)(MF 1MF 2)=2a(MF 1MF 2) MF_1^2 - MF_2^2 = (MF_1 + MF_2)(MF_1 - MF_2 ) = 2a (MF_1 - MF_2 ) donc : MF 1MF 2=2cxa MF_1 - MF_2 = \frac{-2cx}{a} en additionnant avec MF 1+MF 2=2aMF_1+MF_2=2a et en appliquant c=eac=ea, on en déduit : MF 1=acxa=aex(62) MF_1 = a - \frac{cx}{a} = a-ex \qquad (62) En prenant le carré, on a : (xea) 2+y 2=(aex) 2 (x-ea)^2 + y^2 = (a-ex)^2 d’où : y 2+x 2(1e 2)=a 2(1e 2) y^2 + x^2 (1-e^2) = a^2(1-e^2) finalement : x 2+y 21e 2=a 2 x^2 + \frac{y^2}{1-e^2} = a^2 qui est bien la contraction selon OyOy de rapport 1e 2\sqrt{1-e^2} du cercle de centre OO et de rayon aa (appelé grand cercle de l’ellipse).

En coordonnées polaires, on note ρ\rho la distance de F 1F_1 à MM, et θ\theta l’angle entre l’axe OxOx et F 1MF_1M. L’abscisse de MM est donc : x=ea+ρcos(θ) x= ea + \rho \cos(\theta) que l’on combine avec (16) pour obtenir : ρ=aex=a(1e 2)eρcos(θ) \rho = a-ex =a(1-e^2) - e \rho \cos(\theta) donc : ρ=a(1e 2)1+ecos(θ) \rho = \frac{a(1-e^2)}{1+e\cos(\theta)} ce qui nous permet d’affirmer que l’orbite de la Terre dans l’approximation du point matériel soumis uniquement au Soleil supposé fixe est une ellipse dont le Soleil occupe un foyer.

26.5  Influence de l’ellipse sur les saisons

Il faut prendre garde à ne pas confondre les solstices et équinoxes avec le moment où la Terre coupe le grand axe de son ellipse autour du Soleil. Il n’y a aucune raison que la projection de l’axe de rotation de la Terre sur le plan de l’ellipse soit parallèle ou perpendiculaire au grand axe de l’ellipse, et actuellement ce n’est pas le cas, le solstice d’hiver a lieu le 21 décembre alors que le passage au plus proche du Soleil a lieu vers le 3 janvier (donc pendant l’hiver de l’hémisphère Nord) et le passage au plus loin du Soleil a lieu début juillet (pendant l’été). C’est pour cette raison que les saisons sont moins marquées dans l’hémisphère Nord que dans l’hémisphère Sud. De plus la loi des aires oblige la Terre a se déplacer plus vite lorsqu’elle est proche du Soleil que lorsqu’elle en est éloignée ce qui diminue la durée de l’hiver boréal et augmente la durée de l’été boréal (c’est peut-être pour cette raison que février n’a que 28 jours alors que juillet et aout ont 31 jours).

26.6  L’équation du temps, la durée des saisons.


Figure 26.1: Ellipse et équation du temps

La trajectoire elliptique EE de la Terre autour du Soleil est représentée sur la figure 26.6 en bleu, l’excentricité de l’orbite a été énormément exagérée, il s’agit d’une ellipse de foyers SS (le Soleil) et SS'. Le point AA désigne le périhélie de l’orbite (passage de la Terre au plus proche du Soleil), qui a lieu vers le 4 janvier. En noir, on a dessiné le grand cercle de l’ellipse (l’ellipse s’obtient par contraction du grand cercle de rapport 1e 2\sqrt{1-e^2}ee est l’excentricité de l’orbite). L’aire décrite par le rayon Soleil-Terre (STST) est proportionnelle au temps (loi des aires qui découle de la conservation du moment cinétique), il en est donc de même de l’aire (en vert) du décrite par le rayon SMSM. Si on ajoute à cette aire verte l’aire en rouge du triangle OSMOSM, on obtient l’aire de l’arc de cercle OAMOAM. Donc 12V×OA 212OS×HM \frac{1}{2} V \times OA^2 - \frac{1}{2} OS \times HM est proportionnel au temps écoulé depuis le passage au périhélie. Comme HM=OMsin(V)HM=OM \sin(V) et OS=e×OAOS= e \times OA, on en déduit que Vesin(V)=Ct=2πtT(63) V - e \sin(V) = C t = 2\pi \frac{t}{T} \qquad (63) où la constante CC s’obtient en faisant varier VV de 0 à 2π2\pi ce qui correspond à la durée TT d’une révolution de la Terre autour du Soleil (1 an).

La relation entre θ\theta (noté tt sur la figure) et VV s’obtient par exemple en calculant l’abscisse de MM x = acos(V) = ea+ρcos(θ) = ea+a1e 21+ecos(θ)cos(θ) \begin{matrix} x &= &a \cos(V) \\ &= & ea + \rho \cos(\theta) \\ &= & ea + a\frac{1-e^2}{1+e\cos(\theta)} \cos(\theta) \end{matrix} Les angles VV et θ\theta sont de même signe et cos(V)=cos(θ)+e1+ecos(θ)(64) \cos(V) = \frac{\cos(\theta)+e}{1+e\cos(\theta)} \qquad (64) et réciproquement : cos(θ)=cos(V)e1ecos(V)(65) \cos(\theta)=\frac{\cos(V)-e}{1-e \cos(V)} \qquad (65)

Durée des saisons :
Il suffit de connaitre l’angle θ\theta lors du solstice d’hiver et de lui ajouter kπ/2k\pi/2 pour k=1,2,3k=1,2,3 pour connaitre l’angle θ\theta au printemps, en été et à l’automne, on en déduit VV par (64) puis le temps écoulé depuis le périhélie avec (63).

Calcul de θ\theta en fonction du temps écoulé depuis le passage au périhélie :
Il faut calculer VV par des méthodes numériques (point fixe ou méthode de Newton) en appliquant (63), on en déduit θ\theta avec (65). En résumé, on a le :

Théorème 72   Soit θ\theta l’angle entre le demi grand axe de l’ellipse et la direction Soleil-Terre, t[T/2,T/2]t\in [-T/2,T/2] le temps écoulé depuis le passage au périhélie (t=0t=0 lorsque θ=0\theta=0, T=1T=1 an). Soit V[π,π]V\in [-\pi,\pi] la solution de Vesin(V)=2πtT V - e \sin(V) = 2\pi \frac{t}{T} ee est l’excentricité de l’ellipse. Alors θ\theta est donné par cos(θ)=cos(V)e1ecos(V) \cos(\theta)=\frac{\cos(V)-e}{1-e \cos(V)}

26.7  Les variations des paramètres orbitaux

La Terre n’est pas une sphère idéale, elle a un renflement au niveau de l’équateur, due à rotation de la Terre sur elle-même (la force centrifuge y est plus importante). Ce renflement est dans un plan qui fait un angle avec le plan de l’écliptique, le Soleil exerce donc un couple sur ce renflement. Ce phénomène est à l’origine de la précession des équinoxes, le passage au périhélie de la Terre se décale dans le temps. De plus, la Terre n’est pas seulement soumise à l’influence du Soleil, mais aussi des autres planètes, en particulier Jupiter. Cela modifie sur de très longues périodes tous les paramètres de l’orbite terrestre, en particulier l’excentricité, la précession des équinoxes, mais aussi l’obliquité (inclinaison de l’axe de rotation terrestre par rapport à la perpendiculaire au plan de l’écliptique). Le calcul de ces variations est bien au-delà des prétentions de ce texte, le lecteur intéressé pourra se référer par exemple aux publications de Laskar (chercher ce mot-clef ou des mots comme orbite, perturbation, symplectique, hamiltonien, ...). On se bornera ici à indiquer que le demi-grand axe ne varie pas, ce qui donne une relation entre les variations de la constante des aires et de l’excentricité L est proportionnel \`a 1e 2 L \mbox{ est proportionnel \`a } \sqrt{1-e^2}

Les variations des paramètre orbitaux modifient à long terme l’ensolleillement de la Terre (la valeur de l’énergie reçue en un lieu sur une surface horizontale s.v/ρ 2s.v/\rho^2 dépend de la latitude, de la position de la Terre sur son orbite mais aussi de l’excentricité de l’orbite, de l’obliquité et de la date du périhélie par rapport aux saisons) et sa répartition sur le globe par latitude, il est naturel de supposer qu’elles influent sur le climat de la Terre. Par exemple, l’énergie moyenne recue par la Terre au cours d’une période TT de une année est donnée par 1T 0 Tdtρ 2=1T 0 2πdθL=2πTL \frac{1}{T}\int_0^{T} \frac{dt}{\rho^2} = \frac{1}{T}\int_0^{2\pi} \frac{d\theta}{L} = \frac{2 \pi}{T L} est proportionnelle à 1(TL)\frac{1}{(T L)} donc à (1e 2) 1/2(1-e^2)^{-1/2} (car TT est aussi constant d’après la 3ème loi de Képler). Au premier ordre, la variation de ee entraine donc une variation de l’ensolleillement global de 12e 2 \frac{1}{2} e^2 Pour la Terre, cela représente au plus 2.5 pour mille (la période la plus favorable aux glaciations étant celle où l’orbite est circulaire), soit, sans rétroactions, une variation globale de 0.2 degrés Kelvin.

Chapitre 27  La moyenne arithmético-géométrique.

La moyenne arithmético-géométrique est un processus itératif qui converge très rapidement et est très utile pour calculer les fonctions transcendantes réciproques en multi-précision. On peut alors trouver les fonctions transcendantes directes par application de la méthode de Newton.

27.1  Définition et convergence

Soient aa et bb deux réels positifs, on définit les 2 suites u 0=a,v 0=b,u n+1=u n+v n2,v n+1=u nv n(66) u_0=a, v_0=b, \quad u_{n+1}=\frac{u_n+v_n}{2}, v_{n+1}=\sqrt{u_nv_n} \qquad (66) On va montrer que ces 2 suites sont adjacentes et convergent donc vers une limite commune notée M(a,b)M(a,b) et il se trouve que la convergence est très rapide, en raison de l’identité : u n+1v n+1=12(u nv n) 2=12(u n+v n) 2(u nv n) 2(67) u_{n+1}-v_{n+1}=\frac{1}{2}(\sqrt{u_n}-\sqrt{v_n})^2 =\frac{1}{2(\sqrt{u_n}+\sqrt{v_n})^2}(u_n-v_n)^2 \qquad (67) la convergence est quadratique.

On suppose dans la suite que aba\geq b sans changer la généralité puisque échanger aa et bb ne change pas la valeur de u nu_n et v nv_n pour n>0n&gt;0. On a alors u nv nu_n \geq v_n (d’après (67) pour n>0n&gt;0) et u n+1u nu_{n+1} \leq u_n car u n+1u n=12(v nu n)0 u_{n+1}-u_n=\frac{1}{2}(v_n-u_{n}) \leq 0 et v n+1=u nv nv nv n=v nv_{n+1}=\sqrt{u_nv_n} \geq \sqrt{v_nv_n}=v_n. Donc (u n)(u_n) est décroissante minorée (par v 0v_0), (v n)(v_n) est croissante majorée (par u 0u_0), ces 2 suites sont convergentes et comme u n+1=u n+v n2u_{n+1}=\frac{u_n+v_n}{2}, elles convergent vers la même limite ll qui dépend de aa et bb et que l’on note M(a,b)M(a,b). On remarque aussi que M(a,b)=bM(a/b,1)=aM(1,b/a)M(a,b)=bM(a/b,1)=aM(1,b/a).

Précisons maintenant la vitesse de convergence lorsque ab>0a \geq b&gt;0. On va commencer par estimer le nombre d’itérations nécessaires pour que u nu_n et v nv_n soient du même ordre de grandeur. Pour cela, on utilise la majoration ln(u n+1)ln(v n+1)ln(u n)ln(v n+1)=12(ln(u n)ln(v n)) \ln(u_{n+1})-\ln(v_{n+1}) \leq \ln(u_{n})-\ln(v_{n+1}) = \frac{1}{2} (\ln(u_{n})-\ln(v_{n})) donc lnu nv n=ln(u n)ln(v n)12 n(ln(a)ln(b))=12 nlnab \ln \frac{u_n}{v_n} = \ln(u_n)-\ln(v_n) \leq \frac{1}{2^n} (\ln(a)-\ln(b)) = \frac{1}{2^n} \ln \frac{a}{b} Donc si nln(ln(a/b)/m)ln(2)n \geq \frac{\ln( \ln(a/b)/m)}{\ln(2)} alors lnu nv nm\ln \frac{u_n}{v_n} \leq m (par exemple, on peut prendre m=0.1m=0.1 pour avoir u n/v n[1,e 0.1])u_n/v_n \in [1,e^{0.1}]). Le nombre minimum d’itérations n 0n_0 est proportionnel au log du log du rapport a/ba/b. Ensuite on est ramené à étudier la convergence de la suite arithmético-géométrique de premiers termes a=u n 0a=u_{n_0} et b=v n 0b=v_{n_0} et même en tenant compte de M(a,b)=aM(1,b/a)M(a,b)=aM(1,b/a) à a=1a=1 et b=v n/u nb=v_n/u_n donc 0ab1e 0.10\leq a-b \leq 1-e^{-0.1}. Alors l’équation (67) entraine u n+1v n+118(u nv n) 2 u_{n+1}-v_{n+1} \leq \frac{1}{8}(u_n-v_n)^2 puis (par récurrence) 0u nv n18 2 n1(ab) 2 n 0 \leq u_n-v_n \leq \frac{1}{8^{2^n-1}}(a-b)^{2^n} Donc comme M(a,b)M(a,b) est compris entre v nv_n et u nu_n, l’erreur relative sur la limite commune est inférieure à une précision donnée ε\epsilon au bout d’un nombre d’itérations proportionnel au ln(ln(1/ε))\ln(\ln(1/\epsilon)).

Typiquement dans la suite, on souhaitera calculer M(1,b)M(1,b) avec bb de l’ordre de 2 n2^{-n} en déterminant nn chiffres significatifs, il faudra alors O(ln(n))O(\ln(n)) itérations pour se ramener à M(1,b)M(1,b) avec b[e 0.1,1]b\in [e^{-0.1},1] puis O(ln(n))O(\ln(n)) itérations pour avoir la limite avec nn chiffres significatifs.

Le cas complexe
On suppose maintenant que a,ba, b \in \mathbb{C} avec (a)>0,(b)>0\Re(a)&gt;0, \Re(b)&gt;0. On va voir que la suite arithmético-géométrique converge encore.
Étude de l’argument
On voit aisément (par récurrence) que (u n)>0\Re(u_n)&gt;0 ; de plus (v n)>0\Re(v_n) &gt; 0 car par définition de la racine carrée (v n)0\Re(v_n)\geq 0 et est de plus non nul car le produit de deux complexes d’arguments dans ]π/2,π/2[]-\pi/2,\pi/2[ ne peut pas être un réel négatif. On en déduit que arg(u n+1)=arg(u n+v n)\arg(u_{n+1})=\arg(u_n+v_n) se trouve dans l’intervalle de bornes arg(u n)\arg(u_n) et arg(v n)\arg(v_n) et que arg(v n+1)=12(arg(u n)+arg(v n))\arg(v_{n+1})=\frac{1}{2}(\arg(u_n)+\arg(v_n)) donc |arg(u n+1arg(v n+1)|12|arg(u n)arg(v n)| | \arg(u_{n+1}-\arg(v_{n+1}) | \leq \frac{1}{2}|\arg(u_n)-\arg(v_n)| Après nn itérations, on a |arg(u n)arg(v n)|π2 n |\arg(u_n)-\arg(v_n)| \leq \frac{\pi}{2^n} Après quelques itérations, u nu_n et v nv_n seront donc presque alignés. Faisons 4 itérations. On peut factoriser par exemple v nv_n et on est ramené à l’étude de la suite de termes initiaux a=u n/v na=u_n/v_n d’argument arg(u n)arg(v n)\arg(u_n)-\arg(v_n) petit (inférieur en valeur absolue à π/16\pi/16) et b=1b=1. On suppose donc dans la suite que |arg(u nv n)|π/162 n |\arg(\frac{u_n}{v_n})| \leq \frac{\pi/16}{2^n} Étude du module
On a : u n+1v n+1=12(u nv n+1u nv n) \frac{u_{n+1}}{v_{n+1}}= \frac{1}{2}\left(\sqrt{\frac{u_{n}}{v_{n}}}+\frac{1}{\sqrt{\frac{u_{n}}{v_{n}}}}\right) Posons u nv n=ρ ne iθ n \frac{u_{n}}{v_{n}}=\rho_n e^{i\theta_n}, on a : |u n+1v n+1| = 12|ρ ne iθ n/2+1ρ ne iθ n/2| = 12|(ρ n+1ρ n)cosθ n2+i(ρ n1ρ n)sinθ n2| = 12(ρ n+1ρ n) 2cos 2θ n2+(ρ n1ρ n) 2sin 2θ n2 = 12ρ n+1ρ n+2cosθ n \begin{matrix} |\frac{u_{n+1}}{v_{n+1}}| &= & \frac{1}{2}\left|\sqrt{\rho_n} e^{i\theta_n/2} + \frac{1}{\sqrt{\rho_n}} e^{-i\theta_n/2} \right| \\ &=& \frac{1}{2} \left| (\sqrt{\rho_n}+ \frac{1}{\sqrt{\rho_n}})\cos\frac{\theta_n}{2} + i (\sqrt{\rho_n}- \frac{1}{\sqrt{\rho_n}})\sin\frac{\theta_n}{2} \right| \\ &=& \frac{1}{2} \sqrt{ (\sqrt{\rho_n}+ \frac{1}{\sqrt{\rho_n}})^2\cos^2\frac{\theta_n}{2} + (\sqrt{\rho_n}- \frac{1}{\sqrt{\rho_n}})^2\sin^2\frac{\theta_n}{2} } \\ &=& \frac{1}{2} \sqrt{ \rho_n+ \frac{1}{\rho_n} +2\cos \theta_n } \end{matrix} Si ρ\rho désigne le max de ρ n\rho_n et 1/ρ n1/\rho_n, on a alors la majoration |u n+1v n+1|12ρ+ρ+2ρ=ρ |\frac{u_{n+1}}{v_{n+1}}| \leq \frac{1}{2} \sqrt{ \rho + \rho + 2 \rho } = \sqrt{\rho} donc en prenant les logarithmes lnρ n+112lnρ=12|lnρ n|(68) \ln \rho_{n+1} \leq \frac{1}{2} \ln \rho=\frac{1}{2} |\ln \rho_n| \qquad (68) On rappelle qu’on a la majoration |arg(u nv n)|=|θ n|π/162 n12 n+1 |\arg(\frac{u_n}{v_n})| = |\theta_n| \leq \frac{\pi/16}{2^n} \leq \frac{1}{2^{n+1}} qui va nous donner la minoration de ρ n+1\rho_{n+1} ρ n+1=|u n+1v n+1| = 12ρ n+1ρ n+22(1cosθ n) = 12ρ n+1ρ n+24sin 2(θ n2) 12ρ n+1ρ n+2θ n 2 12ρ n+1ρ n+2×1θ n 2ρ n+1ρ n+2 121ρ+1ρ+21ρ×1θ n 24 1ρ1θ n 24 1ρ114×2 2n+2 \begin{matrix} \rho_{n+1}=|\frac{u_{n+1}}{v_{n+1}}| & = & \frac{1}{2} \sqrt{ \rho_n+ \frac{1}{\rho_n} +2 - 2 (1-\cos \theta_n) } \\ & = & \frac{1}{2} \sqrt{ \rho_n+ \frac{1}{\rho_n} +2 - 4 \sin^2 (\frac{\theta_n}{2}) } \\ & \geq & \frac{1}{2} \sqrt{ \rho_n+ \frac{1}{\rho_n} +2 - \theta_n^2} \\ & \geq & \frac{1}{2} \sqrt{ \rho_n+ \frac{1}{\rho_n} +2} \times \sqrt{1 - \frac{\theta_n^2}{\rho_n+ \frac{1}{\rho_n} +2}} \\ & \geq & \frac{1}{2} \sqrt{ \frac{1}{\rho} + \frac{1}{\rho} +2\frac{1}{\rho}} \times \sqrt{1 - \frac{\theta_n^2}{4}} \\ & \geq & \frac{1}{\sqrt{\rho}} \sqrt{1 - \frac{\theta_n^2}{4}} \\ & \geq & \frac{1}{\sqrt{\rho}} \sqrt{1 - \frac{1} {4 \times 2^{2n+2}}} \end{matrix} en prenant les log et en minorant ln(1x)\ln(1-x) par 2x-2x lnρ n+112(|lnρ n|+ln(114×2 2n+2))12(|lnρ n|+12 2n+3) \ln \rho_{n+1} \geq \frac{1}{2} (-|\ln \rho_n|+\ln(1 -\frac{1} {4 \times 2^{2n+2}} )) \geq -\frac{1}{2} (|\ln \rho_n|+\frac{1} {2^{2n+3}} ) Finalement avec (68) |lnρ n+1|12(|lnρ n|+12 2n+3) |\ln \rho_{n+1}| \leq \frac{1}{2} (|\ln \rho_n|+\frac{1}{2^{2n+3}} ) On en déduit |lnρ n|12 nlnρ 0+12 n+3+...+12 2n+1+12 2n+2=12 nlnρ 0+12 n+2 |\ln \rho_n| \leq \frac{1}{2^n} \ln \rho_0 + \frac{1}{2^{n+3}} + ... + \frac{1}{2^{2n+1}} + \frac{1}{2^{2n+2}} = \frac{1}{2^n} \ln \rho_0 + \frac{1}{2^{n+2}} La convergence du ln(u n/v n)\ln(u_n/v_n) vers 0 est donc géométrique, donc u nu_n et v nv_n convergent quadratiquement.

27.2  Lien avec les intégrales elliptiques

Le calcul de la limite commune des suites u nu_n et v nv_n en fonction de aa et bb n’est pas trivial au premier abord. Il est relié aux intégrales elliptiques, plus précisément on peut construire une intégrale dépendant de deux paramètres aa et bb et qui est invariante par la transformation u n,v nu n+1,v n+1u_n,v_n \rightarrow u_{n+1},v_{n+1} (66) I(a,b)= +dt(a 2+t 2)(b 2+t 2) I(a,b)=\int_{-\infty}^{+\infty} \frac{dt} {\sqrt{(a^2+t^2)(b^2+t^2)}} On a en effet I(a+b2,ab)= +du((a+b2) 2+u 2)(ab+u 2) I(\frac{a+b}{2},\sqrt{ab}) = \int_{-\infty}^{+\infty} \frac{du}{\sqrt{((\frac{a+b}{2})^2+u^2)(ab+u^2)}} On pose alors u=12(tabt),t>0 u=\frac{1}{2} (t-\frac{ab}{t}), \quad t&gt;0 tut \rightarrow u est une bijection croissante de t]0,+[t\in]0,+\infty[ vers u],+[u \in ]-\infty,+\infty[, donc I(a+b2,ab) = 0 +dt/2(1+ab/t 2)((a+b2) 2+1/4(tab/t) 2)(ab+1/4(tab/t) 2) = 2 0 +dt(a 2+t 2)(b 2+t 2)=I(a,b) \begin{matrix} I(\frac{a+b}{2},\sqrt{ab}) &=& \int_{0}^{+\infty} \frac{dt/2(1+ab/t^2)}{\sqrt{((\frac{a+b}{2})^2+1/4(t-ab/t)^2)(ab+1/4(t-ab/t)^2)}}\\ &=& 2 \int_{0}^{+\infty} \frac{dt}{\sqrt{(a^2+t^2)(b^2+t^2)}} = I(a,b) \end{matrix} On note au passage que II est définie si a,ba,b \in \mathbb{C} vérifient (a)>0,(b)>0\Re(a)&gt;0, \Re(b)&gt;0, on peut montrer que la relation ci-dessus s’étend (par holomorphie).

Lorsque a=b=la=b=l (par exemple lorsqu’on est à la limite), le calcul de I(l,l)I(l,l) est explicite I(l,l)= +dt(l 2+t 2)=πl I(l,l)=\int_{-\infty}^{+\infty} \frac{dt}{(l^2+t^2)} = \frac{\pi}{l} donc I(a,b)=I(M(a,b),M(a,b))=πM(a,b) I(a,b)=I(M(a,b),M(a,b))=\frac{\pi}{M(a,b)} On peut transformer I(a,b)I(a,b) en posant t=but=bu I(a,b)=2 0 +du(a 2+b 2u 2)(1+u 2)=2a 0 +du(1+(b/a) 2u 2)(1+u 2) I(a,b)=2\int_{0}^{+\infty} \frac{du}{\sqrt{(a^2+b^2u^2)(1+u^2)}} = \frac{2}{a} \int_{0}^{+\infty} \frac{du}{\sqrt{(1+(b/a)^2u^2)(1+u^2)}} Puis en posant u=tan(x)u=\tan(x) (du=(1+u 2)dxdu=(1+u^2) dx) I(a,b)=2a 0 π21+tan(x) 21+(b/a) 2tan(x) 2dx I(a,b)=\frac{2}{a} \int_0^{\frac{\pi}{2}} \sqrt{\frac{1+\tan(x)^2}{1+(b/a)^2\tan(x)^2}} \ dx et enfin en posant tan 2(x)=sin(x) 21sin(x) 2\tan^2(x)=\frac{\sin(x)^2}{1-\sin(x)^2} I(a,b)=2a 0 π211(1b 2a 2)sin(x) 2dx I(a,b)= \frac{2}{a} \int_0^{\frac{\pi}{2}} \sqrt{ \frac{1}{1-(1-\frac{b^2}{a^2})\sin(x)^2} } \ dx Si on définit pour m<1m&lt;1 K(m)= 0 π2dx1msin(x) 2 K(m)=\int_0^{\frac{\pi}{2}} \frac{dx}{\sqrt{1-m \sin(x)^2}} alors on peut calculer KK en fonction de II, en posant m=1b 2/a 2m=1-b^2/a^2 soit b 2/a 2=1mb^2/a^2=1-m K(m)=a2I(a,a1m)=a2πM(a,a1m)=π2M(1,1m) K(m)=\frac{a}{2} I(a,a\sqrt{1-m})=\frac{a}{2}\frac{\pi}{M(a,a\sqrt{1-m})} =\frac{\pi}{2M(1,\sqrt{1-m})} d’où l’on déduit la valeur de l’intégrale elliptique en fonction de la moyenne arithmético-géométrique : K(m)= 0 π2dx1msin(x) 2=π2M(1,1m)(69) K(m)=\int_0^{\frac{\pi}{2}} \frac{dx}{\sqrt{1-m \sin(x)^2}}= \frac{\pi}{2M(1,\sqrt{1-m})} \qquad (69) Dans l’autre sens, pour xx et yy positifs K((xyx+y) 2)=π2M(1,1(xyx+y) 2)=π2M(1,2x+yxy)=π22x+yM(x+y2,xy)=π4x+yM(x,y) K( (\frac{x-y}{x+y})^2 )= \frac{\pi}{2M(1,\sqrt{1-(\frac{x-y}{x+y})^2})} = \frac{\pi}{2M(1,\frac{2}{x+y}\sqrt{xy})} = \frac{\pi}{2 \frac{2}{x+y} M(\frac{x+y}{2},\sqrt{xy}) } = \frac{\pi}{4} \frac{x+y}{M(x,y)} et finalement M(x,y)=π4x+yK((xyx+y) 2) M(x,y)=\frac{\pi}{4} \frac{x+y}{ K\left( (\frac{x-y}{x+y}\right)^2 )}

27.3  Application : calcul efficace du logarithme.

On peut utiliser la moyenne arithmético-géométrique pour calculer le logarithme efficacement, pour cela on cherche le développement asymptotique de K(m)K(m) lorsque mm tend vers 1. Plus précisément, on va poser 1m=k 21-m=k^2 avec k]0,1]k \in ]0,1], donc K(m)= 0 π2dx1(1k 2)sin(x) 2= 0 π2dy1(1k 2)cos(y) 2 K(m)= \int_0^{\frac{\pi}{2}} \frac{dx}{\sqrt{1-(1-k^2) \sin(x)^2}} =\int_0^{\frac{\pi}{2}} \frac{dy}{\sqrt{1-(1-k^2) \cos(y)^2}} en posant y=π/2xy=\pi/2-x, et K(m)= 0 π2dysin(y) 2+k 2cos(y) 2 K(m)=\int_0^{\frac{\pi}{2}} \frac{dy}{\sqrt{\sin(y)^2+k^2 \cos(y)^2}} la singularité de l’intégrale pour kk proche de 0 apparait lorsque yy est proche de 0. Si on effectue un développement de Taylor en y=0y=0, on trouve sin(y) 2+k 2cos(y) 2=k 2+(1k 2)y 2+O(y 4) \sin(y)^2+k^2 \cos(y)^2 = k^2 + (1-k^2) y^2 + O(y^4) Il est donc naturel de comparer K(m)K(m) à l’intégrale J= 0 π2dyk 2+(1k 2)y 2 J=\int_0^{\frac{\pi}{2}} \frac{dy}{\sqrt{k^2 + (1-k^2) y^2}} qui se calcule en faisant par exemple le changement de variables y=k1k 2sinh(t) y=\frac{k}{\sqrt{1-k^2}} \sinh(t) ou directement avec Xcas,

supposons(k>0 && k<1);
J:=int(1/sqrt(k^2+(1-k^2)*y^2),y,0,pi/2)

qui donne après réécriture : J=11k 2(ln(πk)+ln(12(1k 2+4k 2π 2+1k 2)))(70) J= \frac{1}{\sqrt{1-k^{2}}} \left( \ln\left(\frac{\pi}{k}\right) + \ln\left( \frac{1}{2} \left(\sqrt{ 1-k^{2} +4 \frac{k^{2}}{\pi^2}} +\sqrt{1-k^{2}} \right) \right) \right) \qquad (70) et on peut calculer le développement asymptotique de JJ en 0

series(J,k=0,5,1)

qui renvoie : J=ln(πk)+O((1ln(k)) 5) J =\ln\left(\frac{\pi}{k}\right) +O( \left(\frac{-1}{\ln(k)}\right)^5) on peut alors préciser ce développement par

series(J+ln(k)-ln(pi),k=0,5,1)

qui renvoie (après simplifications et où la notation O˜\tilde{O} peut contenir des logarithmes) (1π 2+ln(π)ln(k)12)k 2+O˜(k 4) \left(\frac{1}{\pi^2} + \frac{\ln(\pi)-\ln(k)-1}{2}\right) k^{2} + \tilde{O}(k^4) donc J=ln(k)+ln(π)+(1π 2+ln(π)ln(k)12)k 2+O˜(k 4)(71) J=-\ln(k)+\ln(\pi)+\left(\frac{1}{\pi^2} + \frac{\ln(\pi)-\ln(k)-1}{2}\right) k^{2} + \tilde{O}(k^4) \qquad (71) Examinons maintenant KJK-J, il n’a plus de singularité en y=0y=0, et il admet une limite lorsque k0k \rightarrow 0, obtenue en remplacant kk par 0 (KJ) |k=0= 0 π2(1sin(y)1y)dy=[ln(tan(y2))ln(y)] 0 π2=ln(4π) (K-J)_{|k=0} = \int_0^{\frac{\pi}{2}} \left(\frac{1}{\sin(y)}-\frac{1}{y}\right) \ dy = \left[\ln\left(\tan\left(\frac{y}{2}\right)\right) - \ln(y) \right]_0^{\frac{\pi}{2}} = \ln(\frac{4}{\pi}) D’où pour KK K k0=ln(4k)+O((1ln(k)) 5) K_{k \rightarrow 0} = \ln\left(\frac{4}{k}\right) + O( \left(\frac{-1}{\ln(k)}\right)^5) Pour préciser la partie du développement de KK en puissances de kk, nous allons majorer KJln(4/π)K-J-\ln(4/\pi), puis Jln(π/k)J-\ln(\pi/k). Posons A=sin(y) 2+k 2cos(y) 2,B=y 2+(1y 2)k 2 A=\sin(y)^2+k^2 \cos(y)^2, \quad B=y^2+(1-y^2)k^2 Majoration de KJln(4/π)K-J-\ln(4/\pi)
L’intégrand de la différence KJln(4π)K-J-\ln(\frac{4}{\pi}) est 1A1B(1sin(y)1y) = BAABysin(y)ysin(y) = BAAB(A+B)ysin(y)ysin(y) = (y 2sin(y) 2)(1k 2)AB(A+B)ysin(y)ysin(y)(72) \begin{matrix} \frac{1}{\sqrt{A}} - \frac{1}{\sqrt{B}} - \left( \frac{1}{\sin(y)}-\frac{1}{y} \right) &= & \frac{\sqrt{B}-\sqrt{A}}{\sqrt{A} \sqrt{B}} - \frac{y-\sin(y)}{y\sin(y)} \\ &= & \frac{B-A}{\sqrt{A} \sqrt{B} (\sqrt{A}+\sqrt{B})} - \frac{y-\sin(y)}{y\sin(y)} \\ &=& \frac{(y^2-\sin(y)^2)(1-k^2)}{\sqrt{A} \sqrt{B} (\sqrt{A}+\sqrt{B})} - \frac{y-\sin(y)}{y\sin(y)} \end{matrix} \qquad (72) Soit KJln(4π)= 0 π2(ysin(y))[(1k 2)ysin(y)(y+sin(y))AB(A+B)]AB(A+B)ysin(y)(73) K-J-\ln(\frac{4}{\pi})= \int_0^{\frac{\pi}{2}} \frac{(y-\sin(y))[(1-k^2)y \sin(y)(y+\sin(y))-\sqrt{AB}(\sqrt{A}+\sqrt{B})]} {\sqrt{A} \sqrt{B} (\sqrt{A}+\sqrt{B})y\sin(y)} \qquad (73) On décompose l’intégrale en 2 parties [0,k][0,k] et [k,π/2][k,\pi/2]. Sur [0,k][0,k] on utilise (72), on majore chaque terme séparément et on minore AA et BB par A=k 2+(1k 2)sin(y) 2k 2,B=k 2+(1k 2)y 2k 2 A=k^2+(1-k^2)\sin(y)^2 \geq k^2, \quad B=k^2+(1-k^2)y^2 \geq k^2 Donc | 0 k| 0 k|BA|2k 3dy+ 0 k(1sin(y)1y)dy 0 ky 2sin(y) 22k 3dy+ln(tan(k2))ln(k2) 13k 3+12k+14sin(2k)2k 3+ln(sin(k2))ln(k2)ln(cos(k2)) 13k 3+12k+14(2k8k 36+32k 55!2k 3ln(cos(k2)) k 230ln(112!(k2) 2) k 230+k 24 \begin{matrix} | \int_0^{k} | &\leq &\int_0^k \frac{|B-A|}{2k^3} \ dy + \int_0^k ( \frac{1}{\sin(y)}-\frac{1}{y} ) \ dy \\ &\leq& \int_0^k \frac{y^2-\sin(y)^2}{2k^3} \ dy + \ln (\tan(\frac{k}{2})) -\ln(\frac{k}{2}) \\ &\leq & \frac{\frac{1}{3} k^{3}+\frac{-1}{2} k+\frac{1}{4} \sin(2 k)}{2 k^{3}} + \ln (\sin(\frac{k}{2})) -\ln(\frac{k}{2}) - \ln (\cos(\frac{k}{2})) \\ &\leq & \frac{\frac{1}{3} k^{3}+\frac{-1}{2} k+\frac{1}{4} (2k-\frac{8k^3}{6}+\frac{32k^5}{5!}}{2 k^{3}} - \ln (\cos(\frac{k}{2})) \\ &\leq & \frac{k^2}{30}- \ln (1- \frac{1}{2!}\left(\frac{k}{2}\right)^2) \\ &\leq & \frac{k^2}{30} +\frac{k^2}{4} \end{matrix} Sur [k,π/2][k,\pi/2], on utilise (73) et on minore AA et BB par A=sin(y) 2+k 2cos(y) 2sin(y) 2,B=y 2+(1y 2)k 2y 2 A=\sin(y)^2+k^2 \cos(y)^2 \geq \sin(y)^2, \quad B=y^2+(1-y^2)k^2 \geq y^2 on obtient | k π2| k π2(ysin(y))|C|ysin(y)(y+sin(y)), | \int_k^{\frac{\pi}{2}} | \leq \int_k^{\frac{\pi}{2}} \frac{(y-\sin(y))|C|} {y \sin(y) (y+\sin(y))} , où : C = (1k 2)ysin(y)(y+sin(y))AB+BA = A(By)B(Asin(y))AyBsin(y)+(1k 2)ysin(y)(y+sin(y)) = A(By)B(Asin(y))k 2(y+sin(y)) \begin{matrix} C&=&(1-k^2)y \sin(y)(y+\sin(y))-A\sqrt{B}+B\sqrt{A} \\ &=& -A(\sqrt{B}-y)-B(\sqrt{A}-\sin(y)) -Ay-B\sin(y) + (1-k^2)y \sin(y)(y+\sin(y)) \\ &=& -A(\sqrt{B}-y)-B(\sqrt{A}-\sin(y)) - k^2(y+\sin(y)) \end{matrix} Donc |C| A(By)+B(Asin(y))+k 2(y+sin(y)) ABy 2B+y+BAsin(y) 2A+sin(y)+k 2(y+sin(y)) Ak 22y+Bk 22sin(y)+k 2(y+sin(y)) \begin{matrix} |C| &\leq& A(\sqrt{B}-y)+B(\sqrt{A}-\sin(y)) + k^2(y+\sin(y)) \\ &\leq& A \frac{B-y^2}{\sqrt{B}+y} + B \frac{A-\sin(y)^2}{\sqrt{A}+\sin(y)} + k^2(y+\sin(y)) \\ &\leq & A \frac{k^2}{2y} + B \frac{k^2}{2\sin(y)} + k^2(y+\sin(y)) \end{matrix} et | k π2| k π2(ysin(y))k 2(A2y+B2sin(y)+(y+sin(y)))ysin(y)(y+sin(y)) | \int_k^{\frac{\pi}{2}} | \leq \int_k^{\frac{\pi}{2} } \frac{(y-\sin(y))k^2(\frac{A}{2y} + \frac{B}{2\sin(y)} + (y+\sin(y))) } {y \sin(y) (y+\sin(y))} On peut majorer ysin(y)y 3/6y-\sin(y) \leq y^3/6, donc | k π2|k 26 k π2Ay2sin(y)(sin(y)+y)+By 2sin(y) 2(sin(y)+y)+y 2sin(y) | \int_k^{\frac{\pi}{2}} | \leq \frac{k^2}{6} \int_k^{\frac{\pi}{2}} \frac{Ay}{2\sin(y) (\sin(y)+y)} + \frac{By^2}{\sin(y)^2(\sin(y)+y)} + \frac{y^2}{\sin(y)} On majore enfin AA et BB par 1, | k π2|k 26 k π2y2sin(y) 2+y 2sin(y) | \int_k^{\frac{\pi}{2}} | \leq \frac{k^2}{6} \int_k^{\frac{\pi}{2}} \frac{y}{2\sin(y)^2} + \frac{y^2}{\sin(y)} Le premier morceau se calcule par intégration par parties k 26 k π2y2sin(y) 2 = k 26([ytan(y)] k π/2+ k π21tan(y)) = k 26(ktan(k)+[ln(sin(y))] k π2) = k 26(ktan(k)ln(sin(k))) k 26(1ln(k)) \begin{matrix} \frac{k^2}{6} \int_k^{\frac{\pi}{2}} \frac{y}{2\sin(y)^2} &=& \frac{k^2}{6} \left( [-\frac{y}{\tan(y)}]_k^{\pi/2} + \int_k^{\frac{\pi}{2}} \frac{1}{\tan(y)} \right) \\ &=& \frac{k^2}{6} \left(\frac{k}{\tan(k)}+ [\ln(\sin(y))]_k^{\frac{\pi}{2}} \right)\\ &=& \frac{k^2}{6} \left(\frac{k}{\tan(k)}-\ln(\sin(k)) \right)\\ &\leq & \frac{k^2}{6}(1-\ln(k)) \end{matrix} Le deuxième morceau se majore en minorant sin(y)(2y)/π\sin(y)\geq (2y)/\pi k 26 k π2y 2sin(y)k 26 0 π2π2y=k 2π 396 \frac{k^2}{6} \int_k^{\frac{\pi}{2}} \frac{y^2}{\sin(y)} \leq \frac{k^2}{6} \int_0^{\frac{\pi}{2}} \frac{\pi}{2} y = \frac{k^2\pi^3}{96} Finalement |KJln(4π)|k 2(16ln(k)+π 396+16+130+14) |K-J-\ln(\frac{4}{\pi})| \leq k^2 \left( -\frac{1}{6} \ln(k) + \frac{\pi^3}{96} + \frac{1}{6} + \frac{1}{30}+ \frac{1}{4} \right) JJ est donné en (70).

Majoration de Jln(π/k)J-ln(\pi/k)
On a |Jln(πk)|=|(11k 21)ln(πk)+11k 2ln(12(1k 2+4k 2π 2+1k 2))| |J - \ln\left(\frac{\pi}{k}\right)| = \left| (\frac{1}{\sqrt{1-k^2}}-1) \ln\left(\frac{\pi}{k}\right) + \frac{1}{\sqrt{1-k^2}} \ln\left( \frac{1}{2} \left(\sqrt{ 1-k^{2} +4 \frac{k^{2}}{\pi^2}} +\sqrt{1-k^{2}} \right) \right) \right| et on va majorer la valeur absolue de chaque terme de la somme. Pour k1/2k\leq 1/2, on a 11k 21=k 21k 2+1k 2k 23/4+3/2 \frac{1}{\sqrt{1-k^2}}-1=\frac{k^2}{\sqrt{1-k^2}+1-k^2} \leq \frac{k^2}{3/4+\sqrt{3}/2} Pour le second terme, on majore le facteur 11k 2\frac{1}{\sqrt{1-k^2}} par 23\frac{2}{\sqrt{3}}, l’argument du logarithme est inférieur à 1 et supérieur à 12(1k 22+1k 2(14π 2)2)=1k 2(11π 2)>1k 2 \frac{1}{2}(1 - \frac{k^2}{2} +1- \frac{k^2(1-\frac{4}{\pi^2})}{2}) = 1 - k^2 ( 1-\frac{1}{\pi^2}) &gt; 1-k^2 donc le logarithme en valeur absolue est inférieur à 2k 2 2 k^2 donc, pour k1/2k\leq 1/2, |Jln(πk)|k 23/4+3/2ln(πk)+k 243 |J-\ln\left(\frac{\pi}{k}\right)| \leq \frac{k^2}{3/4+\sqrt{3}/2} \ln\left(\frac{\pi}{k}\right) + k^2 \frac{4}{\sqrt{3}} Finalement, pour k<1/2k&lt;1/2 |Kln(4k)|k 2(lnπ3/4+3/2+43+π 396+920(13/4+3/2+16)ln(k))(74) |K-\ln\left(\frac{4}{k}\right) | \leq k^2 \left( \frac{\ln \pi}{3/4+\sqrt{3}/2} + \frac{4}{\sqrt{3} } + \frac{\pi^3}{96} + \frac{9}{20} - (\frac{1}{3/4+\sqrt{3}/2}+\frac{1}{6}) \ln(k) \right) \qquad (74) que l’on peut réécrire |π2M(1,k)ln(4k)|k 2(3.80.8ln(k))(75) |\frac{\pi}{2M(1,k)}-\ln\left(\frac{4}{k}\right) | \leq k^2(3.8-0.8\ln(k)) \qquad (75) La formule (75) permet de calculer le logarithme d’un réel positif avec (presque) nn bits lorsque k2 n/2k \leq 2^{-n/2} (ce à quoi on peut toujours se ramener en calculant le logarithme d’une puissance 2 m2^m-ième de xx ou le logarithme de 2 mx2^{m}x, en calculant au préalable ln(2)\ln(2)). Par exemple, prenons k=2 27k=2^{-27}, on trouve (en 8 itérations) M(1,2 27)=M 1=0.0781441403763M(1,2^-{27})=M_1=0.0781441403763. On a, avec une erreur inférieure à 19×2 54=1.1×10 1519 \times 2^{-54}=1.1\times 10^{-15} M(1,2 27)=M 1=π2ln(2 29)=π58ln(2), M(1,2^-{27})=M_1=\frac{\pi}{2\ln(2^{29})}=\frac{\pi}{58\ln(2)}, On peut donc déduire une valeur approchée de π\pi si on connait la valeur approchée de ln(2)\ln(2) et réciproquement. Si on veut calculer les deux simultanément, comme les relations entre ln\ln et π\pi seront des équations homogènes, on est obligé d’introduire une autre relation. Par exemple pour calculer une valeur approchée de π\pi on calcule la différence ln(2 29+1)ln(2 29)\ln(2^{29}+1)-\ln(2^{29}) dont on connait le développement au premier ordre, et on applique la formule de la moyenne arithmético-géométrique. Il faut faire attention à la perte de précision lorsqu’on fait la différence des deux logarithmes qui sont très proches, ainsi on va perdre une trentaine de bits (de même pour les moyennes). On peut aussi calculer π\pi directement avec M(1,(2))M(1,\sqrt(2)) en utilisant des propriétés des intégrales elliptiques

f(n):={
  local x,y,z,p;
  x:=evalf(1/sqrt(2),2^n);
  y:=(1+x)/2/sqrt(x);
  z:=1/sqrt(x);
  p:=evalf(2+sqrt(2),2^n);
  for k from 1 to n do
    p,y,z:=p*(1+y)/(1+z),(1+y)/sqrt(y)/2,(1+y*z)/(1+z)/sqrt(y);
  od;
  retourne p;
}:;

L’intérêt de cet algorithme apparait lorsqu’on veut calculer le logarithme avec beaucoup de précision, en raison de la convergence quadratique de la moyenne arithmético-géométrique (qui est nettement meilleure que la convergence linéaire pour les développements en série, ou logarithmiquement meilleure pour l’exponentielle), par contre elle n’est pas performante si on ne veut qu’une dizaine de chiffres significatifs. On peut alors calculer les autres fonctions transcendantes usuelles, telle l’exponentielle, à partir du logarithme, ou les fonctions trigonométriques inverses (en utilisant des complexes) et directes.

On trouvera dans Brent-Zimmermann quelques considérations permettant d’améliorer les constantes dans les temps de calcul par rapport à cette méthode (cela nécessite d’introduire des fonctions spéciales θ\theta) et d’autres formules pour calculer π\pi.

On peut ensuite à partir du logarithme, calculer l’exponentielle en utilisant la méthode de Newton.

Annexe A  Bonus : le “making of” de Giac/Xcas

Avertissement : certains passages de ce chapitre seront obsolète ou incorrects lorsque le lecteur les lira, cela reflète une évolution depuis le moment où je les ai écrits.

A.1  Comment le projet Giac/Xcas est né.

Lorsque j’étais au lycée au début des années 80, nous avions des calculatrices scientifiques mais les calculatrices graphiques n’existaient pas encore, et les particuliers n’avaient pas d’ordinateurs ni de téléphone portable (cela doit paraitre incroyable à un lycéen actuel, on mesure les changements en 40 ans!). On pouvait programmer le calcul d’une fonction pour faire un tableau de valeurs, par une suite d’opérations ressemblant un peu à de la programmation en langage assembleur, avec quelques régistres pour stocker des résultats intermédiaires et un nombre très limité de mémoires et de pas de programmes (environ 50 instructions). J’ai ensuite appris à programmer sur un Apple II en Basic puis en assembleur, puis en Pascal sur un PC compatible IBM (avec 512K de RAM, pour plus de 10kg), mais sans jamais essayer de logiciels de maths, tout cela en amateur, puisque je faisais mes études de maths, conclues en 1992 par un doctorat en physique mathématique à Orsay : je n’ai donc jamais suivi un seul cours d’informatique ni même de cours où on utilise l’outil informatique, j’ai sans doute perdu quelques enseignements utiles, mais je n’ai pas été déformé par l’enseignement de certains, je pense par exemple à ceux qui n’ont jamais écrit de gros programmes et préconisent de ne pas utiliser break ou return dans une boucle alors que cela rend le code beaucoup plus lisible que d’ajouter un booléen artificiel, ou ceux qui sont incapables de mettre au point un programme.

Je n’avais donc jamais entendu parler de calcul formel avant 1993, et c’est Gilles, un de mes étudiants de Deug (on dirait licence 1ère année aujourd’hui) qui m’a montré le calcul d’une dérivée symbolique et d’un inverse de matrice sur une calculatrice HP (qui était le leader du marché haut de gamme avant que TI ne sorte la TI92 puis la TI89). L’idée de pouvoir faire ce type de calculs sur calculatrices m’a séduit, j’étais assez insatisfait des exercices que l’on donnait en examen aux étudiants où la différence entre un 8 et un 12 se fait souvent sur une petite étourderie dans une résolution de système linéaire et pas du tout sur la compréhension des notions au programme. J’ai donc décidé de rattraper mon retard dans le domaine, d’acheter une calculatrice et de la documentation pour la programmer l’été suivant. C’était indispensable, car le moteur de calcul formel fourni sur les HP48 était très limité. D’un certain point de vue, c’était une chance, puisqu’il y avait tout à faire donc tout à apprendre. Au cours des années qui ont suivi, j’ai amélioré ces programmes, et je les ai mis à disposition de la communauté des utilisateurs de calculatrices HP sous le nom d’Erable (en clin d’oeil à Maple). Erable fait partie de ce que l’on peut qualifier de système de calcul formel “jouets”, j’entends par là capable de résoudre les exercices calculatoires donnés du lycée à la licence de maths. En même temps, j’enseignais l’algorithmique en licence (avec toute une équipe très sympathique : Renée, Roland, Gérard, Frédéric). On programmait en Pascal au début, puis rapidement on a basculé les enseignements en C/C++. Renée s’intéressait aussi aux calculatrices et pensait qu’il fallait contacter HP (il y a un centre HP en banlieue de Grenoble), ce qui ne fut pas évident mais finit par déboucher sur la création d’un module optionnel calculatrices en Deug (avec des calculatrices prêtées par HP), puis en 1997 des contacts avec la nouvelle équipe calculatrices de HP en Australie. En 1998/99, j’ai effectué une délégation pour mettre au point la HP49 avec l’équipe australienne, afin d’y intégrer Erable. Un an plus tard nous sortons la HP40, version lycée simplifiée et moins chère de la HP49, projet porté par Jean Tavenas chez HP Grenoble. Mais HP décide alors que les calculatrices graphiques ne sont pas assez rentables, les efforts de Jean pour faire la publicité de la HP40 sont stoppés juste au moment où ils commençaient à porter leurs fruits (avec une calculatrice formelle au prix de la TI83, la HP40 avait pourtant toutes ses chances, c’était d’ailleurs encore vrai en 2014, la HP40GS était la calculatrice formelle la moins chère du marché, à un prix équivalent aux graphiques d’entrée de gamme de TI et Casio.

C’est cette expérience avec HP qui m’a fait prendre conscience qu’il était possible d’écrire un logiciel de calcul formel compétitif. Ma décision d’abandonner le développement sur HP49/40 fut alors la conséquence d’une part de la mise en retrait de HP du marché, d’autre part de la modification de l’épreuve d’option de l’agrégation de maths, qui devenait un oral de modélisation avec utilisation de logiciels. À l’époque seuls les logiciels propriétaires “leaders du marché” étaient autorisés (Maple et Mathematica pour ne pas les nommer), il n’y avait pas un seul logiciel libre de calcul formel et cela m’avait beaucoup choqué. Au début j’argumentais pour l’ajout de Mupad qui était sinon libre au moins gratuit (Mupad n’existe plus isolément aujourd’hui). Quelques années plus tard, Maxima et d’autres logiciels libres ont été rajoutés à la liste des logiciels, mais sans connaitre beaucoup de succès parmi les candidats. Au lancement du projet Giac/Xcas en 2000, j’avais comme objectif que Xcas soit un jour intégré dans la liste des logiciels de l’oral de modélisation (ce fut le cas en 2005, mais les premiers candidats à l’utiliser ne l’ont fait que vers 2007 ou 2008...).

A.2  L’enfance d’Xcas: 2000-2006

L’année 2000 marque sans doute un tournant dans ma carrière, je viens d’achever l’année de délégation pour mettre au point la HP49, et le travail se poursuit pour sortir la HP40 à la rentrée scolaire. Le tandem se met en place avec Renée qui rédige le manuel de calcul formel de la HP40G. C’est la dernière année où je travaille activement en recherche sur des thèmes de physique mathématique. Au moment où nous avions décider de basculer l’enseignement d’algorithmique du Pascal au C (fin des années 90), j’avais regardé les possibilités de bibliothèque pour faire un peu de calcul en précision arbitraire à défaut de faire du calcul formel (on a essayé LiDiA, PARI, mais sans vraiment être satisfait). En mai 2000, alors que le projet HP40 s’achève, je me lance dans un projet d’extension de la librairie C++ de calcul symbolique GiNaC, il s’agissait dans un premier temps d’améliorer les fonctions polynômiales avec des représentations non symboliques, pour avoir de la simplification et de la factorisation. Après plusieurs mois, je me rends compte que la philosophie de GiNaC ne me convient pas, je bascule vers un projet complètement indépendant, que je nomme Giac, en référence à GiNaC 1. Au début il s’agissait juste d’avoir une librairie C++ capable de faire des opérations sur les polynômes de manière efficace. Pendant 2 ans, j’implémente les algorithmes de base d’un CAS pour la licence de maths (pgcd, factorisation, intégration, limites...), puis je crée une petite interface pour pouvoir tester le tout sans avoir à écrire un programme C++ à chaque fois. La première version publique de Xcas est disponible en 2002, elle est très influencée par les interfaces de calculatrices. En 2003/2004, premier contact avec le milieu de la recherche en calcul formel, dont certains membres veulent créer une alternative aux grands logiciels propriétaires du domaine, soit par conviction, soit tout simplement pour des raisons de budget. Une conférence a lieu à Lyon puis une école d’été, où sont présents de mombreux développeurs de logiciels libres (Axiom, Fricas, Maxima, texmacs, pari, gap, MPFR... mais aussi des gens de Mupad même s’il n’est pas libre). Cette conférence n’a de mon point de vue abouti à rien de concret, chacun tirant pour sa chapelle. La présentation des objectifs du projet Giac/Xcas n’a pas du tout attiré les autres participants, d’une part à cause de mes déficiences en anglais, d’autre part parce que l’objectif prioritaire de Xcas (pour l’enseignement) est souvent assez éloigné des objectifs d’un logiciel pour la recherche en calcul formel, sans parler de l’orientation calculatrice de l’interface de Xcas à l’époque. C’est plutôt vers le projet Sage que la communauté recherche de calcul formel “libre” se tournera un peu plus tard. Les deux projets Giac/Xcas et Sage coopèrent aujourd’hui au sens où Giac est un paquet standard de Sage, mais restent concurrents voir plus bas section A.6.

Parallèlement, Renée a lancé à l’IREM de Grenoble un groupe de travail sur l’utilisation des calculatrices formelles au lycée, à l’automne 2000 : HP mettait à disposition des profs de lycée participants des valises de HP40G prêtées aux élèves. Peu après, HP se désintéresse des calculatrices, l’idée de tester le Xcas (d’alors) en classe est venue tout naturellement. Ce sont Michèle Gandit et Christianne Serret qui se lancent dans l’aventure, c’est bien le mot, parce qu’il fallait y croire avec les très nombreux bugs et manques de l’interface de l’époque. C’est l’observation des problèmes rencontrés par les élèves qui m’a fait prendre conscience qu’une révision complète de l’interface s’imposait, et j’y ai consacré une bonne année de travail, aboutissant à une interface proche de l’actuelle. C’est cette nouvelle interface qui a permis le décollage de Xcas, que l’on peut juger au nombre de téléchargements, ainsi que par les interactions avec des utilisateurs inconnus.

A.3  La montée en puissance: 2007-2013

En 2007, Xcas participe aux Trophées du Libre, (concours de logiciels libres qui n’existe plus aujourd’hui), et obtient la 3ième place dans la catégorie logiciels scientifiques. J’espérais que cela marquerait une étape décisive dans la montée en puissance, par exemple en faisant entrer Xcas dans des distributions Linux, mais cela n’a pas servi (et encore aujourd’hui Giac n’a pas réussi à entrer dans les distributions Linux majeures, même si l’entrée dans Fedora semble imminente). En fait la montée en puissance s’est faite progressivement, avec environ une dizaine de % d’utilisateurs en plus chaque année, grâce aux améliorations implémentées par l’interaction avec les profs de maths sur le forum de Xcas ou par email. C’est aussi vers 2008 que l’interface est devenue suffisamment intuitive pour que les étudiants de la préparation à l’agrégation de Grenoble option calcul formel basculent de Maple vers Xcas (avec une période de transition où certains travaillaient avec Maple en même temps que d’autres avec Xcas). Suivis peu de temps après par Jussieu (F. Han). Puis progressivement dans certains enseignements de licence à Grenoble et sans doute ailleurs.

Le projet Giac va aussi prendre en 2011 une direction un peu imprévue, c’est la valorisation. Le noyau de Giac va en effet pour la première fois être intégré à une application commerciale, PocketCAS. Ce qui nécessitera de contacter les services de valorisation de l’université, début d’un épisode difficile que je ne peux pas commenter plus pour des raisons de confidentialité.

A.4  2013-2017

Le nombre de téléchargements de Xcas dépasse maintenant les 50 000 par an avec des pointes mensuelles en septembre et octobre à plus de 12 000 (principalement sous Windows). Xcas est présent dans la grande majorité des livres de maths de Terminale S, on en parle aussi en ES (une copie d’écran de Xcas se trouve d’ailleurs dans le sujet du bac ES 2014). La couverture en France est donc plutôt bonne, c’est vers l’étranger qu’il faut maintenant gagner des parts de marché (ce qui nécessitera une amélioration de la documentation en anglais).

Au concours de l’agrégation externe, Xcas est choisi par une fraction significative des candidats en modélisation option C (un tiers environ en 2012). Parallèlement à la montée en puissance de Xcas, l’arrivée de Sage, la fin de Maple (et Mathematica) en classes préparatoires et le succès de Scilab en calcul numérique et probabilités, ont fait que la situation s’est renversée, en 2015, seuls les logiciels libres sont autorisés à cette épreuve de modélisation, on peut dire que c’est un beau succès pour les logiciels libres, auquel Xcas a contribué. En 2013/14, j’ai retravaillé pour les candidats aux options A et surtout B : refonte de la page agrégation externe, ajout de fonctionnalités, testées dans un cours de méthodes numériques niveau licence 3ième année. Il y a en effet une part de marché à conquérir parmi tous les candidats qui utilisaient auparavant Maple, en particulier pour tous les certifiés qui ne sont pas inscrits à une préparation, Xcas est un choix qui semble rationnel : ceux qui ont appris Maple peuvent utiliser leurs connaissances, Xcas est aussi proposé à l’agrégation interne et les professeurs peuvent utiliser Xcas avec leurs élèves ce qui est certainement un excellent entrainement pour la mise au point d’un petit programme le jour du concours. Xcas est aussi présent pour les oraux du Capes, mais je n’ai pas de retour sur son utilisation réelle par les candidats, même si plusieurs préparations semblent utiliser Xcas.

La collaboration entamée avec Geogebra en 2013 se concrétise avec la version 4.4 sortie en décembre 2013 qui interface Giac (module natif java et version web) avec la fenêtre CAS de Geogebra. Les interfaces vers d’autres langages s’améliorent, module Python, interface avec Sage (F. Han), utilisation depuis Javascript. Plusieurs projets libres utilisent Giac comme moteur de calcul : Qcas (interface alternative, qui pourrait remplacer Xcas un jour), Smartcas (calculatrice CAS dans votre navigateur), Xcas Pad (sur tablettes)...

Coté valorisation, Giac fait aujourd’hui l’objet de plusieurs contrats de commercialisation (en dual-licensing), le plus important avec HP pour le CAS des calculatrices HP-Prime.

A.5  Depuis 2018

La collaboration avec Geogebra m’ayant fait développer une version compilée en Javascript de Giac, j’avais écrit une petite interface web pour la tester. Décidé à pouvoir utiliser Xcas sur mon smartphone, je l’avais amélioré petit à petit. En mars 2018 elle commence à être une alternative envisageable à la version native de Xcas, mais dans un navigateur sur PC, sur smartphone il y a encore un travail d’adapatation de l’interface à faire. On y retrouve l’essentiel des fonctionnalités de Xcas (il manque certaines fonctionnalités, mais dans des domaines comme la géométrie interactive où les utilisateurs travaillent avec des logiciels concurrents), en bien plus transparent pour l’utilisateur qui n’a pas besoin d’installer quoi que ce soit, et qui peut échanger bien plus facilement des sessions de calculs par email. Toujours avec le moteur Javscript de Giac, j’implémente un jeu de commandes utilisables dans un fichier LATEX pour en avoir une sortie HTML+Mathml consultable depuis un navigateur, ce qui permet de faire des documents mathématiques interactifs où le lecteur peut exécuter des commandes du document après les avoir éventuellement modifiés.

En 2017, les programmes d’algorithmique de seconde changent, en introduisant la notion de fonction en algorithmique, ce qui donne une nouvelle opportunité d’utiliser Xcas au lycée. Mais même si dans un premier temps les programmes officiels n’imposent aucun langage, la hiérarchie de l’Éducation Nationale a imposé Python ce qui fatalement empêche l’adoption de Xcas, et va limiter drastiquement son utilisation (le nombre de téléchargements de Xcas s’en ressent, avec une division par trois environ en 5 ans). Parallèlement, à la rentrée 2017, une nouvelle calculatrice graphique sort, la Numworks, avec micro-Python comme langage de programmation, elle sera d’ailleurs suivie par Casio en mars 2018, TI en 2019 et HP en 2021. Il devient donc stratégiquement important de faciliter la prise en main de la programmation en Xcas, je décide de créer un module de traduction de la syntaxe de Python vers le langage naturel de Xcas. Il permet aujourd’hui de faire fonctionner de nombreux scripts niveau lycée sans modifications, les autres scripts peuvent tourner dans l’interpréteur MicroPython qui a été ajouté dans Xcas. Combiné avec l’interface Xcas pour Firefox ou d’autres interfaces, on peut imaginer dans un futur proche que des élèves de lycée programment directement sur leur smartphone ou tablette.

Coté calculatrices, après un premier portage sur les TI Nspire, je me lance en 2018 sur un portage restreint pour les Casio couleur de milieu de gamme (la Graph 90, vendue 80 à 90 euros) puis en 2019 sur le nouveau modèle Casio monochrome (Graph 35eii). En 2019 toujours, Numworks upgrade sa calculatrice en y ajoutant suffisamment de mémoire flash pour espérer y faire tourner Xcas, ce sera chose faite fin 2019, avec en prime l’intégration dans Xcas d’un interpréteur MicroPython. En 2020, je porte l’interface utilisée sur Casio et Numworks pour les TI Nspire CX et CX 2. En 2022, suite à la découverte par la communauté de possibilités matérielles inutilisées sur les Casio couleur, j’ai pu réaliser un portage complet de Xcas. Actuellement, je travaille sur un portage complet de Xcas sur un système d’exploitation entièrement libre (ExistOS) pour les HP39GII.

On peut ainsi bénéficier d’un même logiciel de calcul formel/Python dans Xcas interface web ou PC et sur au moins un modèle de chaque grande marque de calculatrice graphique. Les versions Windows totalisent environ 12500 téléchargements en 2022, les versions web ont été consultées environ 75 000 fois en 2022. Les versions calculatrices totalisent une dizaine de milliers de téléchargements en 2022: Casio FXCG50/Graph90/monochrome 6000, TI Nspire CX et CX2 2500, Numworks N0110 estimé à 3000 (700 depuis ma page, estimation basée sur le nombre de consultations de la documentation Numworks 9000 vs Casio anglophone 12000).

A contrario de ces résultats encourageants, les jurys des concours de recrutement du CAPES puis de l’agrégation ont décidé de bannir Xcas des oraux. La raison invoquée étant que Xcas est difficile à installer pour un nombre d’utilisations trop faible. La raison invoquée est assez stupéfiante puisqu’il y a un installeur Windows et que des packages Giac/Xcas sont fournis en standard par les distributions Linux majeures.

A.6  Les concurrents open-source.

Les principaux concurrents open-source de Giac/Xcas sont Maxima et Sage. Il existe d’autres logiciels libres de calcul formel généralistes, mais ils ne semblent pas avoir beaucoup d’utilisateurs.

L’utilisation de Giac et de Maxima est assez proche, ce sont tous deux des logiciels qui fonctionnent localement (sans avoir besoin de connexion Internet), installables facilement sous Windows, Linux et Mac OS, avec une prise en main rapide aidée par un typage faible et par l’interface (Xcas ou Wxmaxima). Maxima est plus connu dans le monde anglo-saxon car il est plus ancien, alors que Xcas est maintenant bien implanté en France (et sans doute dans d’autres pays francophones) grace à la documentation en français. Xcas évolue plus vite. Giac dispose d’algorithmes beaucoup plus performants pour de (gros) calculs polynomiaux pour la recherche (meilleur moteur open-source de calcul de bases de Groebner à l’heure actuelle par exemple) et est bien adapté à un usage en enseignement dès le lycée (en particulier par son intégration comme CAS de geogebra). Un challenge pour Xcas pour les années à venir va être d’augmenter la part de marché dans le monde anglo-saxon, il nous faudrait un amateur motivé parlant nativement anglais prêt à consacrer du temps pour améliorer la documentation en anglais.

Sage est très différent de Xcas et Maxima. On peut certes l’utiliser comme un logiciel local en ligne de commande, mais pour une interface plus conviviale il faut utiliser le modèle client-serveur, l’interface étant alors dans le navigateur. Les ressources nécessaires sont significativement plus importantes si on l’installe localement, et l’accès Internet est indispensable sinon2. Le langage de Sage est beaucoup plus typé que celui de Giac, il est philosophiquement plus proche de Magma que de Maple ou Mathematica, donc plus difficile à apprendre pour qui n’a pas la fibre algébriste : il faut commencer par déclarer dans quel ensemble on travaille, est-ce un anneau, un corps, un anneau de polynômes par rapport à quelle(s) variable(s)3. Sage se fonde sur un énorme corpus de logiciels et bibliothèques (dont Maxima, appelé pour les calculs symboliques, Giac en est aussi un composant mais peu utilisé par défaut), qu’il fait communiquer entre eux, un peu à la manière d’une distribution linux qui fait cohabiter des composants logiciels, mais de manière plus intime, Python servant de colle entre les briques logicielles écrits en différents langages (c’est aussi là une différence importante avec Giac qui utilise C/C++ pour dialoguer avec d’autres bibliothèques ou logiciels, tout en restant utilisable comme module Python). C’est la force et la faiblesse de Sage, car on bénéficie de certains composants très performants, mais le code propre de Sage est très dépendant de l’évolution de ces composants :

De ce fait, le portage est difficile : sans même parler des OS de tablettes et smartphones, ce n’est que fin 2016 qu’apparait une version Windows, sinon il faut faire communiquer le navigateur sous Windows avec un serveur sage dans une machine virtuelle sous linux, ce qui nécessite significativement plus de ressources4 que pour Giac, qui peut même tourner sur des calculatrices.

Les deux stratégies de développement de Giac et Sage sont assez opposées5 : Giac se contente de peu de ressources et cible le public enseignement dès le lycée (calculatrices, geogebra) alors que W. Stein, le fondateur de Sage se tourne vers le cloud computing : “Measured by the mission statement, Sage has overall failed. The core goal is to provide similar functionality to Magma (and [Maple, Mathematica Matlab]) across the board, and the Sage development model and community has failed to do this across the board, since after 9 years, based on our current progress, we will never get there. There are numerous core areas of research mathematics that I’m personally familiar with (in arithmetic geometry), where Sage has barely moved in years and Sage does only a few percent of what Magma does.” “The longterm plan is to start a separate for-profit company if we build a sufficient customer base. If this company is successful, it would also support fulltime development of Sage (e.g., via teaching buyouts for faculty, support of students, etc.), similar to how Magma (and Mathematica, etc.) development is funded.” (http://sagemath.blogspot.co.uk/2014/08/what-is-sagemathcloud-lets-clear-some.html).


1
acronyme récursif de GiNac Is Not A Cas, jeu de mot identique à Gnu is Not Unix, alors que Giac est l’acronyme de Giac Is A Cas
2
Il serait d’ailleurs intéressant de calculer le cout énergétique d’un même calcul fait par Sage, Maxima, Xcas et une calculatrice formelle! Pour avoir un ordre de grandeur, une recherche sur google émettrait 7g de CO2, soit environ 16Wh, de quoi faire fonctionner un ordinateur portable un quart d’heure et une calculatrice haut de gamme pendant une journée
3
sauf si on utilise l’anneau symbolique, analogue à ce qui se passe dans Xcas, Maple ou Mathematica
4
512M de RAM pour la machine virtuelle linux, à quoi il faut ajouter le logiciel VirtualBox et le navigateur. De plus la taille des calculs possibles est limitée par la RAM allouée à la machine virtuelle.
5
Ce qui est peut-être une bonne chose, on peut le voir comme deux stratégies complémentaires pour le calcul formel libre

Annexe B  Quelques opinions.

B.1  Languages

La question du choix de langage en informatique est récurrente. J’ai choisi C++ pour Giac/Xcas, en fait c’est plutôt du C– (au sens où Giac définit très peu de classes lui-même, mais utilise les facilités de la bibliothèque C++).

Lorsque j’ai développé pour la HP48 dans les années 90, le langage était du RPL, un dérivé du Forth, sorte de Lisp restreint écrit en polonaise inversé, spécialement conçu pour créer des programmes compacts (le CAS de la HP49 occupe environ 200K, l’ensemble du système environ 1M). C’était un langage où on pouvait tout manipuler, y compris la pile des retours de fonction. Mais c’était un langage difficile à maitriser et où le moindre changement nécessitait de reconcevoir complètement le programme. C’était aussi un langage interprété donc lent, et comme pour tout langage interprété, optimiser nécessite une longue pratique et rend le programme optimisé encore plus incompréhensible que dans d’autres langages. Et bien sur c’est un langage propriétaire, complètement inutilisable en-dehors des HP48/49/50.

C’est donc avec ces défauts en tête que j’ai choisi le langage de Giac : portabilité, facilités pour optimiser, mettre au point et modifier, vitesse. Ce qui excluait tout langage interprété. Le choix de C/C++ c’était aussi la possibilité d’utiliser des opérateurs sur le type générique de giac, pour pouvoir écrire b*b-4*a*c et pas sub(mult(b,b),mult(4,mult(a,c))) comme en Java.

Je ne regrette pas un instant ce choix. Si on regarde les logiciels de calcul formel, on a essentiellement 3 langages :

Je pense que le potentiel de portabilité et réutilisation de code est maximal en C/C++, on peut s’intégrer dans du Python (module giacpy et interface giac/sage de F. Han, l’inverse est beaucoup plus difficile et nécessite plus de ressources, essayez d’appeler du code sage depuis un programme C/C++!), du java (module natif javagiac utilisé par geogebra), du Javascript (le langage de base du web! Giac se compile en Javascript), du code natif pour le navigateur google-chrome, en embarqué (sur les HP Prime, mais aussi ailleurs, la plus petite version de giac existante à ce jour occupe moins de 5M et tourne sur calculatrices TI nspire) ou enfoui dans un autre programme (C/C++ ou avec un langage interfaçable, par exemple de la liste fournie par SWIG). La durée de vie de code C/C++ est aussi excellente, le langage C/C++ est au coeur de la très grande majorité des applications utilisées aujourd’hui. L’avenir de Javascript ou de Python parait aujourd’hui assuré, mais c’était la situation de Java il y a une dizaine d’années, alors qu’aujourd’hui on ne peut plus en dire autant.

Bien sur, écrire un programme en C/C++ nécessite un peu plus d’apprentissage qu’écrire un programme en Python ou en tout autre langage interprété, mais c’est je pense aussi plus formateur, on comprend mieux les avantages et inconvénients d’utiliser un conteneur, un type de donnée précis ou un algorithme avec un langage plus proche de la machine réelle qu’avec une machine abstraite filtrée par les possibilités mises à disposition par l’interpréteur (avec souvent un biais lorsqu’on optimise, on favorise l’instruction implémentée le plus efficacement par l’interpréteur au détriment de l’algorithme le plus efficace, ce qui conduit par exemple à choisir un style fonctionnel plus difficile à concevoir, relire et modifier et moins efficace dans un langage compilé).

B.2  Le libre, la recherche et l’éducation

Le logiciel libre a fini par se faire une place au soleil, mais cela n’a pas été facile. Au sein de l’éducation nationale, c’est probablement les restrictions budgétaires qui ont été le meilleur allié du libre, et Open Office ou LIbre Office, Geogebra, Xcas sont maintenant bien présents dans les lycées et manuels, mais l’OS reste Windows et l’évolution dans le monde des calculatrices va dans le mauvais sens.

L’idée de mettre en place un mode examen en 2018 va à l’encontre de la possibilité pour l’acheteur de tirer parti de sa calculatrice comme il l’entend, il suffit de voir la guerre entre les développeurs de TI et la communauté Ndless, digne de la lutte menée par Apple contre les“jailbreaks” qui permettent d’utiliser l’Ipad avec des logiciels en-dehors du marché controlé par Apple ou avec d’autres opérateurs téléphoniques. L’institution devrait bien réfléchir avant de se lancer dans l’aventure. Certes, le mode examen évitera le recours parfois abusif aux anti-sèches, mais cela va décourager le développement de programmes par les élèves sur leurs calculatrices (car ces programmes seront effacés le jour de l’examen) et renforcer les inégalités, en particulier pour l’accès au calcul formel (qui est possible sur des modèles d’entrée de gamme aujourd’hui).

Je pense que si on veut vraiment des calculatrices avec mode examen, alors c’est à l’institution de les acheter, puis de les prêter aux élèves. L’éducation nationale devrait aussi avoir plus de contrôle sur les logiciels embarqués, qui ne devraient pas tant dépendre des constructeurs et donc des programmes de l’enseignement US. Cela permettrait aussi de mettre fin à des rentes pour les constructeurs en situation de position dominante, que l’on songe par exemple au bénéfice sur les modèles de calculatrices les plus conseillées et vendues, calculatrices qui ne se sont guère améliorées depuis 20 ans.

Si ce sont les élèves qui sont propriétaires du matériel, alors ils doivent pouvoir y installer les logiciels de leur choix. En fait, avec la baisse du prix des tablettes et autres netbooks où chacun peut installer le logiciel de son choix, est-il raisonnable de continuer à utiliser des calculatrices graphiques (à plus de disons 20 euros) ? Il vaudrait peut-être mieux prévoir des dispositifs de brouillage des communications de type wifi, ou/et des sujets avec une partie sans outil informatique pour controler les questions de cours.

Coté recherche, l’esprit “libre” progresse mais il y a encore beaucoup de chemin à accomplir. L’édition scientifique est encore essentiellement basée sur le paradigme du 20ième siècle : revue papier vendue à prix d’or aux bibliothèques, droits d’auteurs cédés par les auteurs des articles sans aucune contrepartie, accès en ligne payant. Les éditeurs privés s’approprient ainsi la connaissance financée par les fonds publics, un comble! Heureusement les archives en ligne permettent la plupart du temps de contourner ces accès payants. Il reste que les crédits utilisés pour payer les abonnements seraient bien mieux utilisés à financer les journaux en ligne et en les rendant publics.

Concernant le dèveloppement logiciel, il y a beaucoup de logiciels scientifiques libres de qualité aujourd’hui, mais il y a des freins :

B.3  Les maths et les outils de calcul.

En un demi-siècle les outils de calcul informatiques ont gagné en puissance de manière radicale. Aujourd’hui, pour une centaine d’euros, on a la puissance de calcul qui était réservée, il y a une vingtaine d’années, aux centres de calculs spécialisés.

Cela a des conséquences visibles dans tous les domaines de la vie quotidienne, il est impossible de les ignorer en maths sauf peut-être dans certains domaines de recherche. En tout cas pas dans le domaine de l’enseignement. Bien entendu, les maths c’est pour partie du raisonnement, mais pour l’écrasante majorité des gens, y compris scientifiques, c’est surtout un outil et pas une fin en soi (sur une classe d’age, deux à trois pour mille vont être des professionnels des maths, en comptant tous les enseignants de maths). Je pense que si les matheux veulent survivre en tant que discipline, il faut qu’ils adaptent leur enseignement pour un usage intelligent des outils de calcul, sinon ils finiront comme les langues anciennes. On ne devrait par exemple plus étudier les courbes sans utiliser un logiciel ou une calculatrice pour en avoir une représentation graphique : avant on faisait l’étude complète pour aboutir au tracé parce qu’on n’avait pas le choix de faire autrement, aujourd’hui il faut faire le tracé et l’étude simultanément, létude analytique servant à expliquer les particularités du tracé.

Utiliser des outils de calcul n’est pas contradictoire avec faire du calcul, en particulier faire suffisamment de calcul mental pour avoir une idée de la plausibilité d’un résultat obtenu par un logiciel (ordre de grandeur). C’est de l’hygiène intellectuelle, analogue à faire de l’exercice physique. Faire quelques calculs avec papier et stylo est aussi une façon de s’approprier de nouveaux concepts. Mais une fois cette étape franchie, je ne vois aucune raison de devoir continuer à apprendre à faire des calculs fastidieux ou techniques, alors que l’ordinateur fait cela beaucoup mieux que nous. Il est beaucoup plus judicieux de savoir diriger un logiciel pour cela, et donc de passer un peu de temps (le temps autrefois consacré à faire des calculs techniques) à connaitre leurs possibilités et limites (à la fois en termes de fonctionnalités et de temps de calcul).

Prenons l’exemple de la résolution des équations du second degré. Au moment où on enseigne cette technique, je pense qu’il est important de faire faire quelques calculs de racines de trinômes (sans calculatrices), et d’expliquer comment ce genre de calculs peut se faire avec un logiciel de calcul formel (ce qui d’ailleurs permettra aux élèves de vérifier les résultats de leurs calculs faits à la main). Un an ou deux ans après, je ne vois pas l’intérêt de forcer des élèves à continuer à faire ces calculs à la main s’ils savent les faire avec un logiciel ou une calculatrice. En les bloquant sur un point technique, on ne fera que les braquer et on les empêchera de comprendre à quoi cela peut servir (par exemple faire un tableau de variations). Il faut arrêter de croire que tous les scientifiques fonctionnent comme les matheux qui veulent comprendre de A à Z, c’est d’ailleurs souvent devenu impossible en recherche en maths, les autres disciplines ont leurs propres règles (je pense par exemple qu’un bon physicien n’a pas forcément besoin de savoir démontrer rigoureusement quelque chose, l’essentiel est qu’il ait une bonne intuition des bonnes approximations à faire pour calculer correctement, calcul qu’il n’hésitera par à déléguer à la machine). Interdire les outils de calculs (ou les réserver à ceux qui savent déjà les faire à la main), c’est pour moi une pratique élitiste, on donne l’accès à certaines connaissances non pas à ceux qui sont capables de les comprendre, mais à ceux qui sont suffisamment virtuoses du calcul à la main.

Certains enseignants mettent sur le dos de l’usage des outils de calcul tous les maux du système actuel alors qu’à mon avis cela n’a rien à voir. Je pense que le problème principal des maths au lycée, c’est que les maths de S sont à la fois dures pour des non matheux et inintéressantes pour des matheux (au sens large), conséquence de l’universalité des débouchés accessibles en sortant de S. Dans le supérieur (hors prépas), le problème principal c’est la multiplication des parcours, la semestrialisation et l’atomisation des enseignements en unités beaucoup trop petites, qui augmentent les effets frontières, sont contradictoires avec les échelles de temps pour assimiler des notions, créent des casses-têtes pour faire les emplois du temps, multiplient les sessions d’examens. A cela s’ajoute la perte d’attractivité des métiers de l’enseignement et de la recherche en maths, que ce soit dans le secondaire (conditions de travail, reconnaissance par la société) ou dans le supérieur (dégradation des conditions d’exercice de la recherche, mais aussi de l’enseignement). Rien d’étonnant à ce que les jurys du CAPES et de l’agrégation n’arrivent pas à pourvoir tous les postes.

Les programmes des classes préparatoires aux grandes écoles ont supprimé récemment l’apprentissage d’un logiciel de calcul formel, peut-être une victoire des enseignants qui sont contre l’usage des outils de calcul formel. Ce sont les mêmes qui conseillent à leurs élèves l’achat de calculatrices graphiques non formelles au lycée (ce qui arrange bien les constructeurs qui peuvent ainsi faire payer au prix fort le modèle formel). Je pense que ce combat d’arrière-garde est voué à l’échec : les calculatrices graphiques de milieu de gamme commencent à avoir des logiciels de calcul formel jouets (comme par exemple Eigenmath sur Casio Graph 35+USB et 75/85/95), et à moyen terme (10 ans?), ces calculatrices auront suffisamment de capacité mémoire pour permettre le portage de logiciels de calcul formel complets comme Giac.

B.4  Calculatrices, tablettes ou PC ?

Si on est convaincu de l’intérêt d’utiliser un outil de calcul, se pose alors la question du choix de l’outil. Voici quelques éléments de réflexion.