next up previous
Next: 2.2 Modèles linéaires et Up: Ajustement d'un modèle aux Previous: Ajustement d'un modèle aux


2.1 Ajustement aux moindres carrés, méthode du $\chi ^{2}$

Introduction

Considérons un modèle que l'on souhaite ajuster à des mesures et qui est défini,pour un jeu de $M$ paramètres $a_{1},\ldots,a_{M}$ par :

\begin{displaymath}
y(x)=y(x,a_{1},a_{2},\ldots,a_{M})
\end{displaymath} (2.1)

Pour réaliser cet ajustement, la première méthode qui vient à l'esprit consiste à minimiser, dans l'espace vectoriel de dimension $M$ des paramètres ajustables, la distance métrique entre le modèle et la mesure; autrement dit, en supposant qu'on dispose de $N$ points de mesure, il s'agit de trouver un jeu de paramètres $a_{1},\ldots,a_{M}$ qui minimise la quantité:
\begin{displaymath}
\sum_{i=1}^{N}\left[ y_{i}-y(x_{i},a_1,\ldots,a_M)\right]^{2}
\end{displaymath} (2.2)

Cette «stratégie» de minimisation de quantités quadratiques s'appelle génériquement la méthode des moindres carrés. La mise en ÷uvre et l'interprétation des résultats obtenus par ces méthodes va varier selon:
-la fonction quadratique2.1 que l'on cherche à minimiser (ici le carré de la distance, nous généraliserons ensuite au «$\chi^2$»)
-la complexité du modèle (nombre de paramètres, dépendance linéaire ou non,...)
-la qualité et la quantité des mesures disponibles. Si l'on dispose notamment d'un nombre de mesures statistiquement suffisant (ce qui est fréquent dans les expériences spatiales), on peut alors étudier la distribution statistique des écarts modèle/mesures et, comme on va le voir, définir la vraisemblance statistique d'un modèle ajusté par les moindres carrés.

Moindres carrés et loi de distribution normale:

On cherche donc à établir une relation entre un modèle (i.e. un jeu de paramètres) ajusté par une méthode des moindres carrés et la vraisemblance -à définir- de ce modèle. Remarquons tout d'abord qu'il est dénué de sens de se demander quelle est la probabilité qu'un modèle soit théoriquement correct -simplement parce qu'il n'existe pas un «univers de modèles» dont on pourrait extraire le «vrai». On peut par contre -parce qu'il existe un univers de mesures possibles dont on extrait des échantillons (en faisant des expériences)- se poser la question suivante: «Étant donné un ensemble de paramètres $a_{1},a_{2},\ldots,a_{M}$ définissant un modèle, quelle est la probabilité de mesurer ce modèle (autrement-dit d'obtenir des données qui coïncident avec ce modèle)?»
Si l'on ajoute «mesurer exactement» dans la question précédente, il est clair que cette probabilité sera toujours nulle (parce qu'un point dans un espace mesurable est toujours de mesure nulle); on ajoutera donc à notre question : «...de mesurer ce modèle avec une certaine tolérance $\pm \Delta y$ en chaque point de mesure». On définit ainsi la vraisemblance statistique d'un modèle (ou d'un jeu de paramètres) vis-à-vis des mesures comme la probabilité d'obtenir ces mesures lorsque le modèle est choisi (et donc supposé vrai). À cet égard, et pour tout ce qui va suivre, il ne faut en aucun cas utiliser cette vraisemblance -qui est une notion purement statistique- comme preuve de la justesse théorique du modèle.

On va maintenant calculer cette vraisemblance dans un cas particulier: supposons donc que chaque mesure $y_i$ soit entachée d'une erreur aléatoire, indépendante d'un point de mesure à l'autre, et distribuée selon une loi normale (gaussienne) relativement au modèle $y(x)$ supposé vrai. Supposons de plus, pour simplifier, que l'écart-type de cette loi normale soit le même en tous points de la mesure. Dans ce cas, la probabilité d'obtenir un ensemble de $N$ mesures modélisées $y(x_i)$ (avec une tolérance sur le modèle $\pm \Delta y$) est le produit des probabilités de l'obtenir en chaque point de mesure, soit:

\begin{displaymath}
P\propto \prod_{i=1}^{N}\left\{
\exp\left[ -\frac{1}{2}\lef...
...ac{y_{i}-y(x_{i})}{\sigma}
\right)^{2}\right]\Delta y \right\}
\end{displaymath} (2.3)

Remarquons que chercher à rendre cette probabilité maximale revient à minimiser l'opposé de son logarithme, soit à minimiser:
\begin{displaymath}
\left[ \sum_{i=1}^{N}
\frac{[ y_{i}-y(x_{i})]^2}{2\sigma^2}\right]
- N\log\Delta y
\end{displaymath} (2.4)

Comme $N,\sigma$ et $\Delta y$ sont tous constants, il est clair que minimiser (2.4) est équivalent à minimiser (2.2). On vient donc de démontrer qu'il revient au même d'ajuster aux moindres carrés ou d'ajuster au maximum de vraisemblance si les erreurs de mesure sont indépendantes, distribuées normalement par rapport au modèle, avec un écart-type constant (cette dernière hypothèse pourra être abandonnée lorsqu'on passera au $\chi^2$).

Erreurs statistiques de mesure et moindres carrés

Attention, l'hypothèse de la distribution normale des erreurs de mesure par rapport au modèle (ou des écarts au modèle vrai), invoquée pour considérer l'ajustement aux moindres carrés comme l'estimation ayant le maximum de vraisemblance, est en fait assez forte, difficilement vérifiable (puisqu'on ne connaît pas le «vrai» modèle), et de fait souvent non vérifiée. Il est bien connu (voir ouvrages de statistique) que lorsqu'on considère une distribution normale d'écart-type $\sigma$ autour d'une valeur moyenne, 68% des mesures doivent se trouver à $\pm\sigma$, 95% à $\pm 2\sigma$, 99.7% à $\pm 3\sigma$, etc.... Cela nous est habituel et peut sembler modérément exigeant mais, avec une telle distribution, on attendra par exemple une mesure en dehors de $\pm 20 \sigma$ toutes les $2\times 10^{88}$ mesures, c'est-à-dire jamais! Or chacun sait que ces points à $\pm 20 \sigma$ existent parfois, même dans les meilleures conditions d'observation. Ces points de mesure aberrants ( outliers) peuvent rendre un ajustement aux moindres carrés complètement idiot: leur probabilité est si infime dans la loi normale que le résultat d'un ajustement aux moindres carrés (donc au maximum de vraisemblance) sera grandement modifié par la présence d'un seul de ces points.

Dans certains cas, l'écart à la distribution normale est bien compris ou du moins bien connu: par exemple dans les mesures obtenues par comptage d'événements, les erreurs suivent généralement une distribution de Poisson, qui tend vers une gaussienne lorsque le nombre d'événements devient grand. Mais cette convergence n'est pas uniforme: pour un nombre d'événements donné, les queues des deux distributions diffèrent plus que les c÷urs. Autrement-dit la gaussienne prédit beaucoup moins d'événements marginaux que la distribution de Poisson, si bien que, lorsqu'on ajuste un modèle par la méthode des moindres carrés sur ce type de mesures, les événements marginaux pèsent beaucoup trop sur le résultat. Lorsque la distribution des erreurs n'est pas normale, ou encore lorsqu'on ne peut éviter les points aberrants (traitement en temps réel par exemple), on a recours à des méthodes statistiques particulières, dites méthodes robustes. Nous ne les aborderons pas ici mais il est important de garder en mémoire que les méthodes d'ajustement aux moindres carrés que nous présentons ici, très utiles et très utilisées, supposent toutes que les écarts au modèle soient distribués selon une loi normale.

Remarquons pour finir que la discussion qui précède ne concerne que les erreurs statistiques. Les mesures peuvent aussi être entachées d'erreurs systématiques, i.e. non aléatoires et qui ne disparaissent pas par moyenne statistique. Ces erreurs nécessitent des traitements au cas par cas; elles peuvent provenir simplement de phénomènes physiques non compris (ou non pris en compte dans le modèle, ce qui revient au même), ou de problèmes instrumentaux (parasites, pollution par des instruments voisins, mauvaise calibration, etc...).

Un ajustement prenant en compte les erreurs de mesure en chaque point: le moindre $\chi^2$

L'ajustement au moindre $\chi^2$ ou méthode du chi-carré va consister à minimiser la quantité suivante:

\begin{displaymath}
\chi^{2}\equiv \sum_{i=1}^{N}\left( \frac{y_{i}-y(x_{i},a_1,\ldots,a_M)}
{\sigma_{i}}\right)^{2}
\end{displaymath} (2.5)

où les $\sigma_{i}$ sont les incertitudes connues sur chaque point de mesure $y_i(x_i)$. Comme précédemment, on peut définir la vraisemblance d'un modèle en remplaçant simplement $\sigma$ par chaque $\sigma_{i}$ dans (2.3), comme dans (2.4). Si les erreurs sont, en chaque point de mesure, distribuées normalement, l'ajustement au moindre $\chi ^{2}$ sera aussi celui du maximum de vraisemblance.

Si les erreurs sont distribuées normalement sur $N$ points de mesure et que de plus le modèle est linéaire par rapport aux $M$ paramètres $a_{1},\ldots,a_{M}$, on montre que la probabilité, sur l'espace des mesures possibles, pour que le chi-carré2.2 d'un modèle supposé vrai soit supérieur à une valeur donnée $\chi ^{2}$ est

\begin{displaymath}
Q=1-P\left(\frac{N-M}{2},\frac{\chi^{2}}{2}\right)
\end{displaymath} (2.6)

$P$ est donc la probabilité que le chi-carré du modèle supposé vrai soit inférieur à $\chi ^{2}$, ce qui s'exprime au moyen d'une fonction dite gamma incomplète comme suit:
$\displaystyle P(\nu,x) \equiv \frac{1}{\Gamma(\nu)} \int_{0}^{x} e^{-t}t^{\nu-1} dt$     (2.7)

En résumé plus $P$ est proche de 0 (ou $Q$ proche de 1), plus il est improbable de trouver un chi-square inférieur à $\chi^2$. On admettra (et c'est habituellement "pas trop faux") que ce calcul de probabilité demeure valable pour des modèles non-linéaires par rapport aux paramètres d'ajustement.

Calculée pour le moindre $\chi ^{2}$, cette probabilité $Q$ donne un critère de confiance dans l'ajustement: plus $Q$ est grande et plus l'ajustement obtenu ne peut être considéré comme fortuit (i.e. purement aléatoire). Si $Q$ est très petite, alors l'ajustement pose problème, soit parce que le modèle est mauvais, soit parce que les erreurs de mesure sont sous-estimées, soit encore parce qu'il y a trop de points aberrants par rapport à la distribution normale (mais attention, une probabilité $Q$ suffisamment grande ne prouve pas pour autant que la distribution des erreurs soit normale, puisqu'on l'a supposée telle pour pouvoir calculer cette $Q$ -et la présence de points aberrants n'est qu'une façon, parmi une infinité d'autres, d'avoir affaire à une distribution non normale).

A l'inverse, $Q$ est quelquefois trop proche de 1, c'est-à-dire que l'ajustement est en quelque sorte "trop beau pour être vrai". Le modèle est peut-être génial mais il arrive souvent que dans ce cas l'expérimentateur ait, par excès de prudence, surestimé les barres d'erreurs; aussi, avant de considérer un modèle comme parfait (tous les modèles le sont à une grande incertitude près!), il convient de revenir sur l'établissement de l'erreur $\sigma_{i}$ en chaque point de mesure (plus rarement, il peut s'agir d'une manipulation frauduleuse des données). Notons pour finir sur le $Q$ que ses valeurs utiles (i.e. avec $\nu$ demi-entier) sont fréquemment tabulées dans les ouvrages traitant de statistique (on en donnera quelques valeurs pratiques dans les sections suivantes). Néanmoins, en l'absence de ces tables ou d'un code calculant (2.7), donnons un critère2.3 "vite fait" pour apprécier la qualité d'un ajustement au moindre $\chi ^{2}$: l'ajustement sera acceptable dès lors que $\chi^{2}\approx N-M$.

Enfin, il arrive que les incertitudes $\sigma_{i}$ sur les mesures ne soient pas connues, ce qui imposera un ajustement aux moindres carrés classique, mais il est néanmoins utile d'estimer un écart-type $\sigma$ sur ces mesures. Les considérations précédentes relatives au $\chi ^{2}$ peuvent permettre d'estimer cette valeur: il suffit de rechercher le moindre $\chi ^{2}$ en assignant une erreur arbitraire constante en chaque point de mesure et de déduire du modèle obtenu $y(x)$ l'écart-type $\sigma$ en calculant la variance du système modèle/mesures à $N-M$ degrés de liberté, soit

\begin{displaymath}
\sigma^{2}=\frac{1}{N-M}\sum_{i=1}^{N}[y_{i}-y(x_{i})]^{2}
\end{displaymath} (2.8)

Bien entendu, il est exclu de calculer en retour un critère de confiance de l'ajustement au $\chi ^{2}$, mais cette approche permet simplement d'attribuer une barre d'erreur à des mesures qui en manquent, au moyen de l'étude statistique des écarts entre les mesures et un modèle ajusté aux moindres carrés.


next up previous
Next: 2.2 Modèles linéaires et Up: Ajustement d'un modèle aux Previous: Ajustement d'un modèle aux
Michel Moncuquet
DESPA, Observatoire de Paris
2001-03-05