# Cours ENPC - Pratique du calcul scientifique

## R√©solution de syst√®mes non lin√©aires avec introduction √† la diff√©rentiation automatique

--------------

### Exercice sur Newton-Raphson en dimension 2

On consid√®re le syst√®me non lin√©aire suivant
$$
\left \{
    \begin{aligned}
        &y = (x-1)^2 \\
        &x^2 + y^2 = 4
    \end{aligned}
\right.
$$

1. En exploitant des trac√©s graphiques appropri√©s pour visualiser grossi√®rement la (les) zone(s) contenant une (des) solution(s), impl√©menter un algorithme de Newton-Raphson pour calculer une approximation de cette (ces) solution(s) en choississant un (des) point(s) initial(aux) judicieux.

1. Modifier l'algorithme pour recueillir l'ensemble des it√©rations et visualiser l'√©volution de l'erreur en fonction de l'it√©ration pour diverses valeurs initiales en utilisant une √©chelle appropri√©e en y. On pourra estimer qu'une solution donn√©e est fournie par la valeur finale de l'algorithme.

--------------------
--------------------
--------------------

### Exercice sur la m√©thode babylonienne

Soit un param√®tre r√©el $a>0$ et la suite d√©finie par
<a id="baby"></a>
$$
\tag{1}
x_0>0 \qquad ; \qquad ‚àÄk‚àà\mathbb{N},\quad x_{k+1}=\frac{1}{2}\left(x_k+\frac{a}{x_k}\right)
$$

1. En √©crivant $x_{k+1}-\sqrt{a}$ en fonction de $x_k-\sqrt{a}$ puis $x_{k+1}-x_k$, montrer que $(x_k)$ converge quadratiquement vers $x_*=\sqrt{a}$ quel que soit $x_0>0$.

1. Montrer que la formulation par r√©currence <a href="#baby">(1)</a> n'est autre que l'algorithme de Newton-Raphson appliqu√© √† une fonction √† identifier s'annulant en $x_*=\sqrt{a}$.

1. Construire une fonction `Babylonian` prenant comme arguments `a` ainsi qu'un entier `n` valant `10` par d√©faut et qui renvoie le vecteur $[x_0,x_1,\ldots,x_n]$ en initialisant la suite √† $x_0=\frac{1+a}{2}$.

1. Tester sur quelques valeurs.

1. Tracer l'erreur $|x_k-x_*|$ en fonction du rang $k$ pour $a=2$.

   L'id√©e de la suite de l'exercice est d'appliquer la fonction `Babylonian` d√©finie plus haut √† un argument `a` non pas de type `Float64` mais d'un nouveau type permettant d'estimer √† la fois la valeur de $\sqrt{a}$ mais √©galement de la d√©riv√©e de $a\mapsto\sqrt{a}$ soit $\frac{1}{2\sqrt{a}}$. Pour cela, on introduit de nouveaux nombres qu'on appelle **nombres duaux**. Ceux-ci sont d√©finis √† l'instar des nombres complexes √† partir de la d√©finition d'un nombre particulier not√© $…õ$ de sorte qu'un nombre dual s'√©crit $x=a+b…õ$ avec $a$ et $b$ r√©els. En quelque sorte $…õ$ joue un r√¥le analogue au $i$ complexe √† la diff√©rence que l'on pose ici $…õ^2=0$. L'objectif de tels nombres est d'√™tre en mesure de stocker √† la fois la valeur d'une fonction mais √©galement sa d√©riv√©e en posant

   <a id="fdual"></a>
   $$
   \tag{2}
   f(a+b…õ)=f(a)+f'(a)b…õ
   $$

   ce qui entra√Æne que la d√©riv√©e en $a$ de $f$ peut √™tre obtenue en r√©cup√©rant la composante sur $…õ$ de $f(a+…õ)$ (i.e. en prenant $b=1$).

   En pratique, il est donc n√©cessaire de red√©finir le comportement des fonctions usuelles en coh√©rence avec <a href="#fdual">(2)</a>. Toutefois dans l'application actuelle, seules les op√©rations `+`, `-`, `*` et `/` seront n√©cessaires et donc devront √™tre surcharg√©es pour pouvoir prendre comme arguments des nombres duaux. En outre, il sera √©galement n√©cessaire d'impl√©menter les fonctions `convert` pour convertir un r√©el en nombre dual et `promote_rule` pour exprimer le fait qu'en pr√©sence d'une op√©ration impliquant deux nombres dont l'un est dual, les deux doivent d'abord √™tre exprim√©s sous forme de nombres duaux avant de lancer l'op√©ration. AÃÄ noter que la surcharge des op√©rateurs et fonctions de base n'est possible que si ceux-ci sont explicitement import√©s √† l'aide par exemple de `import Base: +, -, ...`. Il est √©galement possible de d√©finir la fonction `Base.show` de mani√®re √† ce que l'affichage d'un nombre dual ait explicitement la forme `a+b…õ`.

   La surcharge des op√©rateurs s'exprime math√©matiquement par
   $$
   \begin{align*}
   (a+b…õ)+(c+d…õ)&=(a+c)+(b+d)…õ\\
   (a+b…õ)-(c+d…õ)&=(a-c)+(b-d)…õ\\
   (a+b…õ)*(c+d…õ)&=ac+(bc+ad)…õ\\
   (a+b…õ)/(c+d…õ)&=\frac{a}{c}+\frac{bc-ad}{c^2}…õ
   \end{align*}
   $$

   Alternativement √† cette derni√®re op√©ration, on peut aussi d√©finir $\mathrm{inv}(a+b…õ)=\frac{1}{a}-\frac{b}{a^2}…õ$ puis $u/v=u*\mathrm{inv}(v)$.

1. EÃÅtudier le `struct D` d√©fini pour repr√©senter un nombre dual ainsi que les lignes de code associ√©es. Compl√©ter les parties de code manquantes.

1. D√©finir une instance du nombre `…õ` (\varepsilon puis touche TAB pour afficher Œµ), en d'autres termes le nombre `0+1…õ` et effectuer quelques op√©rations pour v√©rifier les impl√©mentations, par exemple

   ```julia
   (1+2…õ)*(3+4…õ)
   1/(1+…õ)
   (1+2…õ)/(2-…õ)
   ```

1. Exploiter la structure de nombre dual pour estimer la d√©riv√©e de la fonction racine √† partir de la m√©thode babylonienne (en exploitant directement la fonction `Babylonian` sans la r√©√©crire) sur quelques exemples ($a=0.1$, $a=2$, $a=25$) et v√©rifier les r√©sultats avec la solution analytique.

1. Superposer sur un graphe la d√©riv√©e de la racine obtenue par la m√©thode babylonienne sur nombre dual et l'expression analytique.

1. Proposer une m√©thode analogue pour calculer la racine $p^\textrm{√®me}$ d'un nombre $a$ i.e. $\sqrt[p]{a}$. V√©rifier que la d√©riv√©e de la racine $p^\textrm{√®me}$ peut √©galement √™tre obtenue par exploitation des nombres duaux sans ligne de code suppl√©mentaire.

In [None]:
function Babylonian(a; n = 10)
    # Votre code ici
end

In [None]:
for a in (0.1, 2, 25) 
    # Votre code de v√©rification de l'algorithme ici
end

In [None]:
using Plots

# Votre code de trac√© ici des erreurs ici

In [None]:
import Base: +, -, *, /, inv, conj, convert, promote_rule
using LinearAlgebra

struct D <: Number
    f::Tuple{Float64,Float64}
end
+(x::D, y::D) = D(x.f .+ y.f)
-(x::D, y::D) = # √† compl√©ter
*(x::D, y::D) = D((x.f[1]*y.f[1], (x.f[2]*y.f[1] + x.f[1]*y.f[2])))
/(x::D, y::D) = # √† compl√©ter
convert(::Type{D}, x::Real) = D((x,zero(x)))
promote_rule(::Type{D}, ::Type{<:Real}) = D
Base.show(io::IO,x::D) = print(io,x.f[1],x.f[2]<0 ? " - " : " + ",abs(x.f[2])," Œµ")
Œµ = D((0,1))

In [None]:
@show (1+2…õ)*(3+4…õ) ; @assert (1+2…õ)*(3+4…õ) == 3+10…õ "erreur"
# Compl√©ter avec d'autres v√©rifications
;

In [None]:
for a in (0.1, 2, 25) 
    # Votre code de v√©rification de l'algorithme avec nombres duaux ici
end

In [None]:
# Votre code avec les trac√©s ici

In [None]:
function nthrt(a, p=2; x=1, n=10)
   # Votre code sur l'extension √† la racine pi√®me ici 
end

In [None]:
a = 2 ; p = 3
# Votre code pour comparer le r√©sultat de `nthrt` √† la solution analytique

--------------------
--------------------
--------------------

### Extension de la diff√©rentiation automatique au second ordre et √† plusieurs variables : application √† une m√©thode des moindres carr√©s non lin√©aire

L'objectif de cet exercice est d'√©tendre le concept de diff√©rentiation automatique au cas d'une fonction scalaire de plusieurs variables au second ordre, autrement dit de permettre le calcul du gradient et de la hessienne en $a$ de la fonction deux fois diff√©rentiable $f: Œ©‚äÇ\mathbb{R}^N ‚Üí \mathbb{R}$.

En partant de son d√©veloppement de Taylor √† l'ordre 2

<a id="fvecdual"></a>
$$
\tag{3}
x‚ÇÄ, …õ ‚àà \mathbb{R}^N,\quad
f(x‚ÇÄ+…õ)=f(x‚ÇÄ)+‚àáf(x‚ÇÄ)·µÄ…õ+\frac{1}{2}…õ·µÄ‚àá¬≤f(x‚ÇÄ)…õ+‚Ñ¥(…õ¬≤)
\quad\textrm{avec}\quad
f(x‚ÇÄ)‚àà\mathbb{R},\,‚àáf(x‚ÇÄ)‚àà\mathbb{R}^N,\,‚àá¬≤f(x‚ÇÄ)‚àà\mathbb{R}^{N√óN}
$$

on a l'id√©e d'introduire une nouvelle classe de nombres scalaires form√©s par un triplet constitu√© d'un scalaire $a$, d'un vecteur $b$ et d'une matrice carr√©e sym√©trique $c$ et d'√©crire

<a id="vecdual"></a>
$$
\tag{4}
x=a+b·µÄ…õ+\frac{1}{2}\mathrm{Tr}(cŒ∑)
$$

o√π $…õ$ et $Œ∑$ sont ici respectivement un vecteur de $\mathbb{R}^N$ et une matrice de $\mathbb{R}^{N√óN}$ telles que $…õ…õ·µÄ=Œ∑$, $Œ∑…õ=0$ et $Œ∑¬≤=0$. On peut ainsi faire l'√©conomie de $Œ∑$ dans <a href="#vecdual">(4)</a> et r√©√©crire tout nombre $x$ sous la forme

<a id="vecdual2"></a>
$$
\tag{5}
x=a+b·µÄ…õ+\frac{1}{2}…õ·µÄc…õ
$$

Une telle famille de nombres est repr√©sent√©e ci-dessous par un `struct DD{N} <: Number` (o√π `N` permet de param√©triser ce nouveau type par la dimension $N$ et `<: Number` indique que le type d√©rive du type abstrait `Number` donnant un sens aux op√©rations usuelles) contenant les donn√©es membres `val`, `grad` et `hess` d√©signant respectivement $a$, $b$ et $c$ dans la d√©composition <a href="#vecdual2">(5)</a>. A noter que 3 constructeurs sont d√©finis pour ce type

- `DD(val, grad, hess)` d√©finit un nombre `DD` √† partir de ses 3 donn√©es membres `val`, `grad` et `hess`. Il n'est pas utile de pr√©ciser `N` car la dimension est d√©duite de `length(grad)`.

- `DD(val, grad)` d√©finit un nombre `DD` √† partir de `val` et `grad` et fixe `hess` √† la matrice nulle de dimension coh√©rente avec celle de `grad`.

- `DD{N}(val)` d√©finit un nombre `DD` √† partir de `val` uniquement. Il est alors n√©cessaire de pr√©ciser dans la construction la valeur de `N` qui ne peut se d√©duire de `val`. `grad` et `hess` sont alors initialis√©s √† des valeurs nulles de dimension coh√©rente avec `N`.


Il est naturel de surcharger les op√©rateurs de base de la fa√ßon suivante

$$
\begin{align*}
\left(a+b·µÄ…õ+\frac{1}{2}…õ·µÄc…õ\right)+\left(a'+b'·µÄ…õ+\frac{1}{2}…õ·µÄc'…õ\right)&=(a+a')+(b+b')·µÄ…õ+\frac{1}{2}…õ·µÄ(c+c')…õ\\
\left(a+b·µÄ…õ+\frac{1}{2}…õ·µÄc…õ\right)-\left(a'+b'·µÄ…õ+\frac{1}{2}…õ·µÄc'…õ\right)&=(a-a')+(b-b')·µÄ…õ+\frac{1}{2}…õ·µÄ(c-c')…õ\\
\left(a+b·µÄ…õ+\frac{1}{2}…õ·µÄc…õ\right)*\left(a'+b'·µÄ…õ+\frac{1}{2}…õ·µÄc'…õ\right)&=(aa')+(ab'+a'b)·µÄ…õ+\frac{1}{2}…õ·µÄ(ac'+a'c+bb'·µÄ+b'b·µÄ)…õ
\end{align*}
$$

1. Compl√©ter la surcharge des op√©rateurs `-` et `*` dans le code.  
   Remarque : la syntaxe `where {N}` rappelle que `N` est un param√®tre qui sera remplac√© √† la compilation par la valeur voulue.  

1. On choisit de construire l'op√©rateur de division √† partir de la d√©finition pr√©alable de la function d'inversion `inv`. EÃÅtablir √† la main l'expression des donn√©es membres `val` et `grad` et fixe `hess` de l'inverse d'un nombre de type `DD{N}` par identification en √©crivant que la mutiplication d'un nombre par son inverse correspond √† `val=1`, `grad=0` et `hess=0`. Compl√©ter le code de la fonction `inv(x::DD{N}) where {N}`.

1. On se place en dimension $N=2$. On peut donc introduire les deux nombres

   ```julia
   ŒµÀ£ = DD(0,[1,0])
   Œµ ∏ = DD(0,[0,1])
   ```

   Tester les d√©veloppements des op√©rateurs sur des cas simples `1+ŒµÀ£`, `1+ŒµÀ£+Œµ ∏` et sur des cas plus complexes `(1+ŒµÀ£)*(2+3Œµ ∏)` et `ŒµÀ£/(1+ŒµÀ£+Œµ ∏)` en comparant avec les valeurs calcul√©es √† la main. Par exemple

   $$
   Œµ^x Œµ^y=\frac{1}{2} \begin{pmatrix}Œµ^x \\ Œµ^y\end{pmatrix}^T \begin{pmatrix}0 & 1 \\ 1 & 0\end{pmatrix}\begin{pmatrix}Œµ^x \\ Œµ^y\end{pmatrix}
   ‚üπ
   \left(0, \begin{pmatrix}1 \\ 0\end{pmatrix}, \begin{pmatrix}0 & 0 \\ 0 & 0\end{pmatrix}\right)
   *
   \left(0, \begin{pmatrix}0 \\ 1\end{pmatrix}, \begin{pmatrix}0 & 0 \\ 0 & 0\end{pmatrix}\right)
   =
   \left(0, \begin{pmatrix}0 \\ 0\end{pmatrix}, \begin{pmatrix}0 & 1 \\ 1 & 0\end{pmatrix}\right)
   $$

1. Obtenir le gradient et la hessienne de $f(x,y)=\frac{(x+y)^2}{2}$ par diff√©rentiation automatique au point $(1,1)$.

1. Soit un entier arbitraire $n$, $a$, $b$ et $c$ respectivement un scalaire de $[0,1]$, un vecteur de $[0,1]^n$ et une matrice sym√©trique de $[0,1]^{n√ón}$ al√©atoires. Impl√©menter la fonction $f(x)=a+b·µÄx+\frac{1}{2}x·µÄcx$ pour $x‚àà\mathbb{R}^n$.  

   En exploitant judicieusement le vecteur de nombres

   ```julia
   Œµ = [DD(0,(1:n .== i)) for i in 1:n]
   ```

   et un tirage al√©atoire d'un vecteur $x$, v√©rifier par diff√©rentiation automatique que $‚àáf(x)=b+cx$ et $‚àá¬≤f(x)=c$.

1. On souhaite maintenant r√©aliser un programme permettant de minimiser une fonction $J$ arbitraire d√©pendant de plusieurs variables

   $$
   \min_{(p_1,\ldots,p_n)\in\mathbb{R}^n} J(p_1,\ldots,p_n)
   $$

   On suppose que le probl√®me revient √† chercher un vecteur de param√®tres annulant son gradient par la m√©thode de Newton-Raphson. Autrement dit √† chaque √©tape il est n√©cessaire d'√©valuer le gradient ainsi que la hessienne de $J$
   
   $$
   p^{k+1}=p^{k}-‚àá¬≤J(p^{k})^{-1}‚àáJ(p^{k})
   $$
   
   EÃÅcrire une fonction g√©n√©rique `minimizer` prenant comme entr√©es un vecteur de param√®tres initiaux `p‚Å∞`, une fonction `J`, un nombre maximal d'it√©rations `maxiter` (par d√©faut `100`)  et un param√®tre d'arr√™t `œµ` (par d√©faut `1.e-15`). On consid√©rera un algorithme de Newton-Raphson avec un crit√®re d'arr√™t $\lVert ‚àáJ(p^{k}\rVert<œµ$.

1. Application n¬∞1.

   On dispose de $n$ points $(x_i, y_i)$ d'une fonction inconnue $y = f(x)$.
   
   ```julia
   x = [0.0; 0.1; 0.2; 0.3; 0.4; 0.5; 0.6; 0.7; 0.8; 0.9; 1.0]
   y = [0.6761488864859304; 0.6345697680852508; 0.6396283580587062; 0.6132010027973919;
      0.5906142598705267; 0.5718728461471725; 0.5524549902830562; 0.538938885654085;
      0.5373495476994958; 0.514904589752926; 0.49243437874655027]
   ```
   
   On souhaite approximer $f$ par une fonction de la forme

   $$
   \widetilde f(x) = \frac{a}{b + x}
   $$
   en minimisant
   $$
   \sum_{i=1}^{n} |\widetilde f(x_i) - y_i|^2
   $$

   EÃÅcrire un code formant la fonction √† minimiser et appliquer `minimizer` pour obtenir la meilleure approximation $\widetilde f$. Tracer sur le m√™me graphe les points donn√©s et la fonction approximante.

1. Application n¬∞2.

   On se donne $n$ nouveaux points $(x_i, y_i)$ d'une fonction inconnue $y = f(x)$
   
    ```julia
   x = [0.0; 0.1; 0.2; 0.3; 0.4; 0.5; 0.6; 0.7; 0.8; 0.9; 1.0]
   y = [-0.9187980789440975; -0.6159791344678258; -0.25568734869121856;
      -0.14269370171581808; 0.3094396057228459; 0.6318327173549161;
      0.8370437988106428; 1.0970402798788812; 1.6057799131867696;
      1.869090784869698; 2.075369730726694]
   ```  
   
   et on souhaite approximer $f$ par une fonction affine

   $$
   \widetilde f(x) = ax+b
   $$

   en minimisant la somme des distances euclidiennes entre les points et la droite d√©finie par $\widetilde f$. Etant donn√© que la distance entre un point $(x_i,y_i)$ et la ligne droite est donn√©e par

   $$
   \frac{\lvert y_i - a x_i - b \rvert}{\sqrt{1+a^2}}
   $$

   la fonction objectif √† minimiser s'√©crit

   $$
   J(a, b) := \sum_{i=1}^{n} \frac{ \left( y_i - a x_i - b \right)^2 }{1+a^2}
   $$

   Trouver les param√®tres optimaux $a$ et $b$ √† l'aide de `minimizer` et tracer la droite ainsi que les points.

In [None]:
import Base: +, -, *, /, inv, conj, convert, promote_rule
using LinearAlgebra

struct DD{N} <: Number
    val::Float64
    grad::Vector{Float64}
    hess::Symmetric{Float64, Matrix{Float64}}
    DD(val::Real, grad, hess) = new{length(grad)}(val, grad, Symmetric(hess))
    DD(val::Real, grad) = new{length(grad)}(val, grad, Symmetric(zeros(length(grad),length(grad))))
    DD{N}(val::Real) where {N} = new{N}(val, zeros(N), Symmetric(zeros(N,N)))
end
val(x::DD{N}) where {N} = x.val
grad(x::DD{N}) where {N} = x.grad
hess(x::DD{N}) where {N} = x.hess
conj(x::DD{N}) where {N} = DD(conj(x.val),conj(x.grad),conj(x.hess))
+(x::DD{N}, y::DD{N}) where {N} = DD(x.val+y.val,x.grad+y.grad,x.hess+y.hess)
-(x::DD{N}, y::DD{N}) where {N} = # √† compl√©ter ici
*(x::DD{N}, y::DD{N}) where {N} = # √† compl√©ter ici
inv(x::DD{N}) where {N} = # √† compl√©ter ici
/(x::DD{N}, y::DD{N}) where {N} = x*inv(y)
convert(::Type{DD{N}}, x::Real) where {N} = DD{N}(x)
promote_rule(::Type{DD{N}}, ::Type{<:Real}) where {N} = DD{N}
Base.show(io::IO,x::DD{N}) where {N} = print(io,x.val," + ",x.grad,"·µÄùõÜ"," + ¬Ω ùõÜ·µÄ",x.hess,"ùõÜ")

In [None]:
ŒµÀ£ = DD(0,[1,0])
Œµ ∏ = DD(0,[0,1])
@show 1+ŒµÀ£
# Votre code de v√©rification sur plusieurs expressions ici
;

In [None]:
f(x,y) = (x+y)^2/2
@show # Votre code de calcul du gradient et de la hessienne de f en (1,1) ici

In [None]:
function test_diff(n)
    # Votre code ici
end

test_diff(1)
test_diff(10)
test_diff(100)


In [None]:
function minimizer(p‚Å∞, J::Function, œµ = 1.e-15, maxiter = 100)
    n = length(p‚Å∞)
    p = p‚Å∞ + [DD(0,(1:n .== i)) for i in 1:n]
    # Votre code ici
end

In [None]:
x = [0.0; 0.1; 0.2; 0.3; 0.4; 0.5; 0.6; 0.7; 0.8; 0.9; 1.0]
y = [0.6761488864859304; 0.6345697680852508; 0.6396283580587062; 0.6132010027973919;
     0.5906142598705267; 0.5718728461471725; 0.5524549902830562; 0.538938885654085;
     0.5373495476994958; 0.514904589752926; 0.49243437874655027]
f(a,b) = x -> a / (b+x)
# Votre code ici

In [None]:
x = [0.0; 0.1; 0.2; 0.3; 0.4; 0.5; 0.6; 0.7; 0.8; 0.9; 1.0]
y = [-0.9187980789440975; -0.6159791344678258; -0.25568734869121856;
     -0.14269370171581808; 0.3094396057228459; 0.6318327173549161;
     0.8370437988106428; 1.0970402798788812; 1.6057799131867696;
     1.869090784869698; 2.075369730726694]
f(a,b) = x -> a*x+b
# Votre code ici